北京拟整合现有开源中文预训练数据集

 5 月 16 日,据北京市科委官网,北京出台《北京市促进通用人工智能创新发展的若干措施(2023-2025 年)(征求意见稿)》。

针对目前大模型训练高质量中文语料占比过少,不利于中文语境表达及产业应用的问题,征求意见稿提到,整合现有开源中文预训练数据集和高质量互联网中文数据并进行合规清洗。同时持续扩展高质量多模态数据来源,建设合规安全的中文、图文对、音频、视频等大模型预训练语料库,通过北京国际大数据交易所社会数据专区进行定向有条件开放。

在算力方面,北京加强算力资源的统筹供给能力,推动建立统一的多云算力调度平台,利用政府统一入口,以此降低公有云采购成本及企业面对不同云厂商的沟通成本。(来源:网络综合)

THE END
喜欢就支持一下吧
点赞14 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容