PCL-Platform.Intelligence/PanGu-Alpha: 2000亿开源中文预训练语言模型「鹏城·盘古α」 – PanGu-Alpha – OpenI – 启智AI开源社区提供普惠算力！

2个月前更新 127 00

PanGu-Alpha - 2000亿开源中文预训练语言模型「鹏城·盘古α」

所在地：

中国

语言：

收录时间：

2025-04-05

其他站点:

打开网站手机查看

PCL-Platform.Intelligence/PanGu-Alpha: 2000亿开源中文预训练语言模型「鹏城·盘古α」 – PanGu-Alpha – OpenI – 启智AI开源社区提供普惠算力！

打开网站

「鹏城·盘古α」项目介绍
「鹏城·盘古α」（PanGuAlpha）是由鹏城实验室牵头，联合华为MindSpore、华为诺亚方舟实验室、北京大学等单位开发的业界首个2000亿参数中文自回归预训练语言模型，依托“鹏城云脑Ⅱ”算力集群和国产MindSpore框架实现大规模分布式训练，聚焦中文场景的文本生成、知识问答、推理等能力，目前代码与模型正逐步全开源。

一、核心要点
1. 规模与定位：国内首个2000亿参数中文预训练生成模型，专注中文场景的小样本学习与长文本生成。
2. 技术创新：首创顺序自回归预训练语言模型（ALM），引入Query层增强生成逻辑；基于MindSpore超大规模自动并行技术，实现算法逻辑与并行逻辑解耦，串行代码自动转化为分布式并行执行。
3. 全栈国产生态：基于“MindSpore框架+CANN算子库+昇腾910芯片+ModelArts集群管理”的国产软硬件栈，支持2048卡大规模训练。

二、数据集与模型结构
数据集：从开源数据、common crawl网页、电子书等渠道收集近80TB原始数据，经清洗、去重、质量评估后，得到1.1TB高质量中文语料（Token数量约250B），去除下游任务标签确保数据无偏。
模型结构：在Transformer层基础上堆叠Query层（结构类似Transformer，但增加Query layer预测下一个Query的位置），强化生成任务的逻辑连贯性。

三、MindSpore超大规模自动并行
大模型训练需平衡参数量、计算量与集群带宽，MindSpore通过多维度自动并行（数据并行、算子级模型并行、Pipeline并行、优化器并行、异构并行等），结合重计算、内存复用、拓扑感知调度，最小化迭代时间（计算+通信）。硬件配置为：
芯片：Ascend 910（2048卡）
操作系统：EulerOSaarch64
集群管理：ModelArts

四、模型下载与版本
提供多规模模型下载（分片保存），覆盖不同算力需求：
1. 2.6B/13B版本：包括模型文件（分part0part3）、word embedding、top query embedding、position embedding等（如2.6B模型单part约2.6G）。
2. 盘古small版（350M）：pytorch格式（600M），参数配置为24层、1024隐藏尺寸、16头注意力，附推理示例。

五、环境与使用指南
环境要求：
硬件：Ascend 910（2.6B/13B推理需8卡，200B需64卡）
框架：MindSpore
依赖库：jieba 0.42.1、sentencepiece 0.1.94
训练：设置`MODE`（2.6B/13B/200B），运行`scripts/run_distribute_train.sh`脚本，指定设备数、数据路径、rank_table文件。
NPU推理：需准备tokenizer（`vocal.vocab`/`vocab.model`）、模型文件、策略文件（描述模型切分策略），运行`scripts/run_distribute_predict.sh`脚本。

六、模型应用与扩展
压缩与迁移：13B模型可压缩至1卡推理（参考`ModelCompression`项目）；支持GPU推理与Finetune（`PanGuAlphaGPU`）；已迁移至Huggingface Transformers库（`pangu_2_6B`）。
应用场景：通过`PanGuAlphaApplications`提供baseline，覆盖知识问答、对话生成、文本摘要等场景；支持小样本学习（`fewshotlearning`项目）。

七、下游任务评估
在16个中文下游任务（含生成、PPL、NLI、文本分类等）上对比CPM模型：
2.6B版本：生成任务性能比CPM2.6B高6.5个百分点，PPL任务在OCNLI等数据集略弱（因更大词表降低局部变化敏感度）。
13B版本：小样本学习比零样本高10分以上，生成任务优于2.6B，NLI/分类任务性能相当（仍有优化空间）。

八、在线服务与社区
在线推理：2021年5月开放130亿参数模型在线推理（https://pangualpha.pcl.ac.cn/），支持对话、问答等交互。
社区交流：设微信技术交流群（需扫码加入）， contributors来自鹏城实验室、华为等12家单位，许可证为Apache License 2.0。

总结
「鹏城·盘古α」是中文大模型领域的重要突破，依托国产算力与框架实现超大规模训练，开源代码与模型降低了中文NLP研究门槛，其小样本学习与长文本生成能力有望推动中文AI应用落地（如智能客服、内容创作等）。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

PCL-Platform.Intelligence/PanGu-Alpha: 2000亿开源中文预训练语言模型「鹏城·盘古α」 – PanGu-Alpha – OpenI – 启智AI开源社区提供普惠算力！

相关导航

控制工程网-追踪全球智能制造和工业自动化控制领域的发展

海螺AI—MiniMax 旗下生产力产品，你的AI伙伴，10倍速提升工作学习效率

小悟空

Datawhale

�������ܲ�ҵ������

36氪_让一部分人先看到未来

AI办公智能体先行者

商量 – AI生活小帮手

暂无评论

��ܲ�ҵ��