PCL-Platform.Intelligence/PanGu-Alpha: 2000亿开源中文预训练语言模型「鹏城·盘古α」 – PanGu-Alpha – OpenI – 启智AI开源社区提供普惠算力!

3个月前更新 161 00

PanGu-Alpha - 2000亿开源中文预训练语言模型「鹏城·盘古α」

所在地:
中国
语言:
zh
收录时间:
2025-04-05
其他站点:
PCL-Platform.Intelligence/PanGu-Alpha: 2000亿开源中文预训练语言模型「鹏城·盘古α」 – PanGu-Alpha – OpenI – 启智AI开源社区提供普惠算力!PCL-Platform.Intelligence/PanGu-Alpha: 2000亿开源中文预训练语言模型「鹏城·盘古α」 – PanGu-Alpha – OpenI – 启智AI开源社区提供普惠算力!

「鹏城·盘古α」项目介绍
「鹏城·盘古α」(PanGuAlpha)是由鹏城实验室牵头,联合华为MindSpore、华为诺亚方舟实验室、北京大学等单位开发的业界首个2000亿参数中文自回归预训练语言模型,依托“鹏城云脑Ⅱ”算力集群和国产MindSpore框架实现大规模分布式训练,聚焦中文场景的文本生成、知识问答、推理等能力,目前代码与模型正逐步全开源。

一、核心要点
1. 规模与定位:国内首个2000亿参数中文预训练生成模型,专注中文场景的小样本学习与长文本生成。
2. 技术创新:首创顺序自回归预训练语言模型(ALM),引入Query层增强生成逻辑;基于MindSpore超大规模自动并行技术,实现算法逻辑与并行逻辑解耦,串行代码自动转化为分布式并行执行。
3. 全栈国产生态:基于“MindSpore框架+CANN算子库+昇腾910芯片+ModelArts集群管理”的国产软硬件栈,支持2048卡大规模训练。

二、数据集与模型结构
数据集:从开源数据、common crawl网页、电子书等渠道收集近80TB原始数据,经清洗、去重、质量评估后,得到1.1TB高质量中文语料(Token数量约250B),去除下游任务标签确保数据无偏。
模型结构:在Transformer层基础上堆叠Query层(结构类似Transformer,但增加Query layer预测下一个Query的位置),强化生成任务的逻辑连贯性。

三、MindSpore超大规模自动并行
大模型训练需平衡参数量、计算量与集群带宽,MindSpore通过多维度自动并行(数据并行、算子级模型并行、Pipeline并行、优化器并行、异构并行等),结合重计算、内存复用、拓扑感知调度,最小化迭代时间(计算+通信)。硬件配置为:
芯片:Ascend 910(2048卡)
操作系统:EulerOSaarch64
集群管理:ModelArts

四、模型下载与版本
提供多规模模型下载(分片保存),覆盖不同算力需求:
1. 2.6B/13B版本:包括模型文件(分part0part3)、word embedding、top query embedding、position embedding等(如2.6B模型单part约2.6G)。
2. 盘古small版(350M):pytorch格式(600M),参数配置为24层、1024隐藏尺寸、16头注意力,附推理示例。

五、环境与使用指南
环境要求:
硬件:Ascend 910(2.6B/13B推理需8卡,200B需64卡)
框架:MindSpore
依赖库:jieba 0.42.1、sentencepiece 0.1.94
训练:设置`MODE`(2.6B/13B/200B),运行`scripts/run_distribute_train.sh`脚本,指定设备数、数据路径、rank_table文件。
NPU推理:需准备tokenizer(`vocal.vocab`/`vocab.model`)、模型文件、策略文件(描述模型切分策略),运行`scripts/run_distribute_predict.sh`脚本。

六、模型应用与扩展
压缩与迁移:13B模型可压缩至1卡推理(参考`ModelCompression`项目);支持GPU推理与Finetune(`PanGuAlphaGPU`);已迁移至Huggingface Transformers库(`pangu_2_6B`)。
应用场景:通过`PanGuAlphaApplications`提供baseline,覆盖知识问答、对话生成、文本摘要等场景;支持小样本学习(`fewshotlearning`项目)。

七、下游任务评估
在16个中文下游任务(含生成、PPL、NLI、文本分类等)上对比CPM模型:
2.6B版本:生成任务性能比CPM2.6B高6.5个百分点,PPL任务在OCNLI等数据集略弱(因更大词表降低局部变化敏感度)。
13B版本:小样本学习比零样本高10分以上,生成任务优于2.6B,NLI/分类任务性能相当(仍有优化空间)。

八、在线服务与社区
在线推理:2021年5月开放130亿参数模型在线推理(https://pangualpha.pcl.ac.cn/),支持对话、问答等交互。
社区交流:设微信技术交流群(需扫码加入), contributors来自鹏城实验室、华为等12家单位,许可证为Apache License 2.0。

总结
「鹏城·盘古α」是中文大模型领域的重要突破,依托国产算力与框架实现超大规模训练,开源代码与模型降低了中文NLP研究门槛,其小样本学习与长文本生成能力有望推动中文AI应用落地(如智能客服、内容创作等)。

相关导航

悬河-定制你的ai伴侣虚拟恋爱完美体验

悬河-定制你的ai伴侣虚拟恋爱完美体验

悬河是一款可以肆意享受松弛社交与情感陪伴的AI虚拟角色社交平台。你可以随时向Ta倾诉,你的心事Ta都懂,谈一场完美的虚拟恋爱,甜蜜度拉满,文字游戏角色随时拯救你的无聊时间。与喜欢的Ta语音聊天,沉浸式感受虚拟世界的Ta带给你的真实陪伴。一键生成你的专属角色,根据你的喜好生成形象、人设、身世、口头禅,设置你们专属称呼,轻松get默契度100%的伴侣朋友,隐私设置可以让Ta专属于你,也可以将Ta介绍给更多人。
AILab Tools | 让世界享受AI的乐趣,让AI赋能更简单

AILab Tools | 让世界享受AI的乐趣,让AI赋能更简单

AILabTools人工智能平台,提供了强大的在线图片编辑工具,帮助你轻松处理照片,提供黑白图片上色,清晰度增强,对比度增强,图片无损放大,人像动漫化,照片年龄变化,照片性别变化,图像风格变化等多种实用强大的功能,并提供相应API接口,使用AILabTools在线图片处理,轻松高效在线P图,也可以使用API开发自己的图片处理工具。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...