「鹏城·盘古α」项目介绍
「鹏城·盘古α」(PanGuAlpha)是由鹏城实验室牵头,联合华为MindSpore、华为诺亚方舟实验室、北京大学等单位开发的业界首个2000亿参数中文自回归预训练语言模型,依托“鹏城云脑Ⅱ”算力集群和国产MindSpore框架实现大规模分布式训练,聚焦中文场景的文本生成、知识问答、推理等能力,目前代码与模型正逐步全开源。
一、核心要点
1. 规模与定位:国内首个2000亿参数中文预训练生成模型,专注中文场景的小样本学习与长文本生成。
2. 技术创新:首创顺序自回归预训练语言模型(ALM),引入Query层增强生成逻辑;基于MindSpore超大规模自动并行技术,实现算法逻辑与并行逻辑解耦,串行代码自动转化为分布式并行执行。
3. 全栈国产生态:基于“MindSpore框架+CANN算子库+昇腾910芯片+ModelArts集群管理”的国产软硬件栈,支持2048卡大规模训练。
二、数据集与模型结构
数据集:从开源数据、common crawl网页、电子书等渠道收集近80TB原始数据,经清洗、去重、质量评估后,得到1.1TB高质量中文语料(Token数量约250B),去除下游任务标签确保数据无偏。
模型结构:在Transformer层基础上堆叠Query层(结构类似Transformer,但增加Query layer预测下一个Query的位置),强化生成任务的逻辑连贯性。
三、MindSpore超大规模自动并行
大模型训练需平衡参数量、计算量与集群带宽,MindSpore通过多维度自动并行(数据并行、算子级模型并行、Pipeline并行、优化器并行、异构并行等),结合重计算、内存复用、拓扑感知调度,最小化迭代时间(计算+通信)。硬件配置为:
芯片:Ascend 910(2048卡)
操作系统:EulerOSaarch64
集群管理:ModelArts
四、模型下载与版本
提供多规模模型下载(分片保存),覆盖不同算力需求:
1. 2.6B/13B版本:包括模型文件(分part0part3)、word embedding、top query embedding、position embedding等(如2.6B模型单part约2.6G)。
2. 盘古small版(350M):pytorch格式(600M),参数配置为24层、1024隐藏尺寸、16头注意力,附推理示例。
五、环境与使用指南
环境要求:
硬件:Ascend 910(2.6B/13B推理需8卡,200B需64卡)
框架:MindSpore
依赖库:jieba 0.42.1、sentencepiece 0.1.94
训练:设置`MODE`(2.6B/13B/200B),运行`scripts/run_distribute_train.sh`脚本,指定设备数、数据路径、rank_table文件。
NPU推理:需准备tokenizer(`vocal.vocab`/`vocab.model`)、模型文件、策略文件(描述模型切分策略),运行`scripts/run_distribute_predict.sh`脚本。
六、模型应用与扩展
压缩与迁移:13B模型可压缩至1卡推理(参考`ModelCompression`项目);支持GPU推理与Finetune(`PanGuAlphaGPU`);已迁移至Huggingface Transformers库(`pangu_2_6B`)。
应用场景:通过`PanGuAlphaApplications`提供baseline,覆盖知识问答、对话生成、文本摘要等场景;支持小样本学习(`fewshotlearning`项目)。
七、下游任务评估
在16个中文下游任务(含生成、PPL、NLI、文本分类等)上对比CPM模型:
2.6B版本:生成任务性能比CPM2.6B高6.5个百分点,PPL任务在OCNLI等数据集略弱(因更大词表降低局部变化敏感度)。
13B版本:小样本学习比零样本高10分以上,生成任务优于2.6B,NLI/分类任务性能相当(仍有优化空间)。
八、在线服务与社区
在线推理:2021年5月开放130亿参数模型在线推理(https://pangualpha.pcl.ac.cn/),支持对话、问答等交互。
社区交流:设微信技术交流群(需扫码加入), contributors来自鹏城实验室、华为等12家单位,许可证为Apache License 2.0。
总结
「鹏城·盘古α」是中文大模型领域的重要突破,依托国产算力与框架实现超大规模训练,开源代码与模型降低了中文NLP研究门槛,其小样本学习与长文本生成能力有望推动中文AI应用落地(如智能客服、内容创作等)。
