北京拟整合现有开源中文预训练数据集-SpringForAll社区

5 月 16 日，据北京市科委官网，北京出台《北京市促进通用人工智能创新发展的若干措施（2023-2025 年）（征求意见稿）》。

针对目前大模型训练高质量中文语料占比过少，不利于中文语境表达及产业应用的问题，征求意见稿提到，整合现有开源中文预训练数据集和高质量互联网中文数据并进行合规清洗。同时持续扩展高质量多模态数据来源，建设合规安全的中文、图文对、音频、视频等大模型预训练语料库，通过北京国际大数据交易所社会数据专区进行定向有条件开放。

在算力方面，北京加强算力资源的统筹供给能力，推动建立统一的多云算力调度平台，利用政府统一入口，以此降低公有云采购成本及企业面对不同云厂商的沟通成本。（来源：网络综合）

THE END

行业消息

北京拟整合现有开源中文预训练数据集

请登录后发表评论

第33期：《Java面试八股文》｜已结束

第61期：《搞定系统设计：面试敲开大厂的门》

Spring Security 5.7.0-M2 发布

Spring Security 架构

第24期：《GitLab CI/CD 从入门到实战》｜已送完

第93期：《深入Flowable流程引擎：核心原理与高阶实战》

第50期：《AIGC自动化编程》

第64期：《架构思维：从程序员到CTO》

第23期：《Spring Boot 3核心技术与最佳实践》（已送完）

第25期：《Java核心技术》卷2｜已结束

Spring Modulith 2.0 M2, 1.4.3, and 1.3.9 released

Spring Boot 4.0.0-M2 available now

Spring Boot 3.5.5 available now

Spring Boot 3.4.9 available now

Spring Batch 6.0.0-M2 available now

Spring Authorization Server 2.0.0-M2, 1.5.2 and 1.4.5 available now

Spring for Apache Pulsar 1.2.9 and 2.0.0-M2 are now available

Spring Security 7.0.0-M2 available now

Spring Security 6.4.9 and 6.5.3 Released

Spring Data 2025.1.0-M5 released

波士顿动力发布了新的全电动Atlas机器人预告片

盘点 Redis 的可选替代品

12分钟理解 React 中的所有 Hook

OpenAI和微软宣布Stargate项目，耗资1000亿美元构建AI超级计算机

Linux 受到后门攻击而遭受破坏

华为手机壳卖1999元、马斯克称工会要求加薪40%…

台积电AI芯片将涨价

96岁李嘉诚大动作，涉及AI

19 分钟充满电！小米 13T 系列海外首发：首次支持 IP68

B 站公布 68 部国创动画作品，包括《中国奇谭第二季》