该页面是中电信人工智能科技有限公司研发的星辰语义大模型TeleChat在启智AI开源社区(OpenI)的代码仓库,聚焦大语言模型的开源协作,提供模型代码、预训练数据、技术文档、训练/推理脚本等全套资源,镜像自Gitee平台的TeleChat项目(https://gitee.com/TeleAI/telechat),是开发者获取TeleChat模型及工具链的核心入口。
一、核心内容与功能模块
1. 模型概况:TeleChat大语言模型
TeleChat是电信自主研发的通用大语言模型,主打中文场景适配与多任务能力,核心信息如下:
参数规模:包含7B(70亿参数)和12B(120亿参数)两个版本,7B基座用1.5万亿Tokens中英文高质量语料训练,12B用3万亿Tokens;
开源内容:提供TeleChat7B、TeleChat12B对话模型,及Hugging Face格式权重文件;同时开源int8(8位)、int4(4位)量化版本(降低部署显存需求);
版本优势:12B版本相比7B,在模型结构(词嵌入层与输出层解耦,提升训练稳定性)、训练数据(扩展书籍、百科、法律等多领域语料,优化清洗策略)、训练方法(科学数据配比+课程学习,动态调整难样本权重)上升级,通用问答、知识推理、代码生成、数学计算等任务性能大幅提升;12BV2版本进一步用动态数据配比优化,通用能力提升5.5%,数学能力提升24.6%,翻译、幻觉测试、安全拒识等均有改进。
2. 数据资源:TeleChatPTD预训练数据集
为支持模型复现与二次开发,开源TeleChatPTD中文预训练数据集:
数据规模:含2.7亿条纯中文文本,原始大小约1TB,压缩后480G(189个文件);
数据质量:通过“规则筛选(过滤低质内容)→相似度去重→模型打分选高质量数据→安全处理(去除不良信息)”流程清洗,确保文本干净、无偏、有效;
格式与下载:采用jsonl格式(仅`data`字段,单条为处理后的预训练文本),可从Hugging Face(https://huggingface.co/datasets/TeleAI/TeleChatPTD)或天翼云盘(https://cloud.189.cn/t/ia2QbaVzYf6z,访问码pkg8)下载。
3. 效果评测:多维度能力验证
TeleChat在通用能力、数学推理、代码生成、语言理解四大方向,覆盖10+主流数据集评测,部分结果如下:
通用能力:TeleChat7B在MMLU(英文多学科)得60.5,CEval(中文多学科)得64.6,超过同规模的LLaMA27Bchat(MMLU 46.2、CEval 31.9)、ChatGLM26Bchat(MMLU 45.9、CEval 52.6);TeleChat12B在MMLU得73.3,CEval得66.6,优于LLaMA213Bchat(MMLU 54.6、CEval 36.2)、Baichuan213Bchat(MMLU 57、CEval 56.7);
数学推理:TeleChat12B在GSM8K(小学数学)得57.2,MATH(高中竞赛题)得16.0,远超LLaMA213Bchat(GSM8K 29.6、MATH 5.0)、ChatGLM26Bchat(GSM8K 28.8、MATH 6.5);
代码与语言:TeleChat12B在HumanEval(代码生成)得22.0,CHID(成语填空)得83.2,表现优于同规模模型。
4. 使用工具链:推理、部署与微调
仓库提供完整的模型使用流程,支持开发者快速上手:
推理与部署:支持单卡/多卡推理,长文本外推(8K训练,可外推至96K);提供API(流式/JSON接口,支持推理参数调整)和Web部署方案(Web端支持多轮对话、流式生成);示例包括工作计划撰写、Java Spring Cloud Feign代码辅助、鸡兔同笼问题解答、安全问题拒答等;
模型微调:开源Deepspeed微调脚本,支持Zero并行显存优化、FlashAttention2加速;提供数据配比工具(`data.json`,定义不同数据集的训练权重)和处理脚本(`process_data.py`,将数据转为tokens);支持单机/多机训练,训练速度参考(如7B单机8卡A10040G,2048长度时8.86 samples/s);
模型量化:基于AutoGPTQ实现int8/int4量化,提供离线量化(如8bit量化脚本)和推理示例,降低显存占用(如7B int8模型推理仅需约10G显存)。
5. 国产化适配:支持昇腾硬件
TeleChat针对国产硬件优化,适配昇腾系列芯片:
推理适配:支持昇腾Atlas 300I Pro推理卡,int8量化精度对齐A10,性能平均13 tokens/s(对比GPU的18 tokens/s);
训练适配:支持昇腾Atlas 800T A2训练服务器,兼容昇思MindSpore和PyTorch框架;MindSpore下,7B8pNPU训练速度7.98 samples/s(接近A100的8.86),12B8pNPU速度8.22 samples/s(超过A100的6.85)。
二、协议与声明
使用规范:禁止将模型用于危害国家安全、违法活动,开发者需自行承担滥用风险;
许可协议:社区使用需遵循《TeleChat模型社区许可协议》,商业用途需通过`tele_ai@chinatelecom.cn`申请授权(审核通过后获非排他性、全球性商用许可);
引用规范:如需引用,需使用指定BibTeX格式(包含作者、标题、年份、arXiv链接等)。
三、页面功能
页面展示仓库基础信息(10次提交、1个分支、8.8 MiB大小、176次下载,Python占比99.2%),支持Star(收藏)、Fork(复刻)、Watch(关注)操作;顶部导航栏可访问启智社区的“我的工作台”“大模型基地”“资源中心”“算力需求”等功能,底部有社区理事会、技术委员会、帮助文档等链接。
