PCL-Platform.Intelligence/PanGu-Alpha: 2000亿开源中文预训练语言模型「鹏城·盘古α」 – PanGu-Alpha – OpenI – 启智AI开源社区提供普惠算力!

2个月前更新 127 00

PanGu-Alpha - 2000亿开源中文预训练语言模型「鹏城·盘古α」

所在地:
中国
语言:
zh
收录时间:
2025-04-05
其他站点:
PCL-Platform.Intelligence/PanGu-Alpha: 2000亿开源中文预训练语言模型「鹏城·盘古α」 – PanGu-Alpha – OpenI – 启智AI开源社区提供普惠算力!PCL-Platform.Intelligence/PanGu-Alpha: 2000亿开源中文预训练语言模型「鹏城·盘古α」 – PanGu-Alpha – OpenI – 启智AI开源社区提供普惠算力!

「鹏城·盘古α」项目介绍
「鹏城·盘古α」(PanGuAlpha)是由鹏城实验室牵头,联合华为MindSpore、华为诺亚方舟实验室、北京大学等单位开发的业界首个2000亿参数中文自回归预训练语言模型,依托“鹏城云脑Ⅱ”算力集群和国产MindSpore框架实现大规模分布式训练,聚焦中文场景的文本生成、知识问答、推理等能力,目前代码与模型正逐步全开源。

一、核心要点
1. 规模与定位:国内首个2000亿参数中文预训练生成模型,专注中文场景的小样本学习与长文本生成。
2. 技术创新:首创顺序自回归预训练语言模型(ALM),引入Query层增强生成逻辑;基于MindSpore超大规模自动并行技术,实现算法逻辑与并行逻辑解耦,串行代码自动转化为分布式并行执行。
3. 全栈国产生态:基于“MindSpore框架+CANN算子库+昇腾910芯片+ModelArts集群管理”的国产软硬件栈,支持2048卡大规模训练。

二、数据集与模型结构
数据集:从开源数据、common crawl网页、电子书等渠道收集近80TB原始数据,经清洗、去重、质量评估后,得到1.1TB高质量中文语料(Token数量约250B),去除下游任务标签确保数据无偏。
模型结构:在Transformer层基础上堆叠Query层(结构类似Transformer,但增加Query layer预测下一个Query的位置),强化生成任务的逻辑连贯性。

三、MindSpore超大规模自动并行
大模型训练需平衡参数量、计算量与集群带宽,MindSpore通过多维度自动并行(数据并行、算子级模型并行、Pipeline并行、优化器并行、异构并行等),结合重计算、内存复用、拓扑感知调度,最小化迭代时间(计算+通信)。硬件配置为:
芯片:Ascend 910(2048卡)
操作系统:EulerOSaarch64
集群管理:ModelArts

四、模型下载与版本
提供多规模模型下载(分片保存),覆盖不同算力需求:
1. 2.6B/13B版本:包括模型文件(分part0part3)、word embedding、top query embedding、position embedding等(如2.6B模型单part约2.6G)。
2. 盘古small版(350M):pytorch格式(600M),参数配置为24层、1024隐藏尺寸、16头注意力,附推理示例。

五、环境与使用指南
环境要求:
硬件:Ascend 910(2.6B/13B推理需8卡,200B需64卡)
框架:MindSpore
依赖库:jieba 0.42.1、sentencepiece 0.1.94
训练:设置`MODE`(2.6B/13B/200B),运行`scripts/run_distribute_train.sh`脚本,指定设备数、数据路径、rank_table文件。
NPU推理:需准备tokenizer(`vocal.vocab`/`vocab.model`)、模型文件、策略文件(描述模型切分策略),运行`scripts/run_distribute_predict.sh`脚本。

六、模型应用与扩展
压缩与迁移:13B模型可压缩至1卡推理(参考`ModelCompression`项目);支持GPU推理与Finetune(`PanGuAlphaGPU`);已迁移至Huggingface Transformers库(`pangu_2_6B`)。
应用场景:通过`PanGuAlphaApplications`提供baseline,覆盖知识问答、对话生成、文本摘要等场景;支持小样本学习(`fewshotlearning`项目)。

七、下游任务评估
在16个中文下游任务(含生成、PPL、NLI、文本分类等)上对比CPM模型:
2.6B版本:生成任务性能比CPM2.6B高6.5个百分点,PPL任务在OCNLI等数据集略弱(因更大词表降低局部变化敏感度)。
13B版本:小样本学习比零样本高10分以上,生成任务优于2.6B,NLI/分类任务性能相当(仍有优化空间)。

八、在线服务与社区
在线推理:2021年5月开放130亿参数模型在线推理(https://pangualpha.pcl.ac.cn/),支持对话、问答等交互。
社区交流:设微信技术交流群(需扫码加入), contributors来自鹏城实验室、华为等12家单位,许可证为Apache License 2.0。

总结
「鹏城·盘古α」是中文大模型领域的重要突破,依托国产算力与框架实现超大规模训练,开源代码与模型降低了中文NLP研究门槛,其小样本学习与长文本生成能力有望推动中文AI应用落地(如智能客服、内容创作等)。

相关导航

海螺AI—MiniMax 旗下生产力产品,你的AI伙伴,10倍速提升工作学习效率

海螺AI—MiniMax 旗下生产力产品,你的AI伙伴,10倍速提升工作学习效率

海螺AI是 MiniMax基于自研的多模态大语言模型为用户打造的AI伙伴,可以帮你智能搜索问答、精准识图解析、沉浸语音通话、专业/创意写作、文档速读总结、还有独家悬浮球功能帮你把琐事化繁为简。10倍速获取信息,10倍速解决问题。从学生到打工人,或者是自由工作者、创作者,不管你是任何角色都可以随时召唤它,上手即用,张嘴就问,无论是AI写作、AI搜题、AI办公、AI翻译、AI编程、AI创作、AI文档总结,还是陪你AI聊天、AI对话、口语陪练、模拟面试。它是你全能的AI助手。
�������ܲ�ҵ������

�������ܲ�ҵ������

2024 �������ܲ�ҵ�����ᣨԭ�������ܴ�ᡢ�й��������ܲ�ҵ������ϲ���������������������������������������졣���첩���Ὣ����᳹��ʵϰ��ƽ����ǹ��ڷ�չ�˹����ܵ���Ҫָʾ��ʾ���Ӳ������Ҫ�������񣬼��С��ĸ������Ƴɡ���ҪҪ���ر����ڷ�չ�����������������ȡ�����Ϊ����֡��߶˻������ʻ���רҵ�����г�������������ַ��ӹ���ƽ̨����ЧӦ������Ƽ�ǰ�ء������Ƚ������չȫ����������������������ܿƼ���չ����ĸ߶�ʢ�ᣬ�ٽ����־�����ʵ�徭������ںϣ��ƶ�����ҵ�߶˻������ܻ�����ɫ����չ��Ϊ�ӿ콨�������ܿƼ���ҵΪ������ִ�����ҵ��ϵ���ӿ췢չ�����������ṩ����������
AI办公智能体先行者

AI办公智能体先行者

天工Skywork是一款具备超强DeepResearch能力的全新AI Office智能体,通过3个专家agent和1个通用agent,让AI深度研究,一键生成AI文档、AI PPT、AI表格,高效应对各类办公、学习场景;也支持网页html、图像、视频、有声书、绘本等多种形式的创意内容创作,激发无限灵感。天工Skywork融合先进的多模态理解与深度检索分析技术,一问即得科研级、专业级、咨询级的高质量结果,帮助你摆脱繁琐事务,显著提升效率。无论你是职场白领、科研人员、大学生、研究生,还是自媒体KOL,天工Skywork都将是你值得信赖的智能伙伴,助你专注思考、释放创造力。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...