TeleChat-12B是中国电信人工智能研究院开源的一款星辰语义大模型,相较于之前的TeleChat-7B版本,它在内容、性能和应用等方面有了显著的提升。
开源进程
- 2024.5.16 开源优化的12B版本chat模型TeleChat-12B-V2
- 2024.3.20 开源12B版本chat模型及量化版本
- 2024.1.11 开源1T中文数据集
- 2024.1.10 开源7B版本chat模型及其量化版本
模型参数与训练数据
- 参数规模:TeleChat-12B拥有120亿参数,相比TeleChat-7B的70亿参数,规模上有了显著的扩大。
- 训练数据:TeleChat-12B将训练数据量从7B版本的1.5T增加至3T,显著提高了数据的质量和模型的性能。
模型结构与优化
- 词嵌入层与输出层解耦:TeleChat-12B采用了词嵌入层与输出层解耦的结构,将词嵌入层和输出lm head层参数分开,有助于增强训练稳定性和收敛性。
- 模型结构优化:TeleChat-12B使用小规模的模型进行多种模型结构的组合尝试,以选择最优结构,进一步优化了模型的性能。
训练方法与效果提升
- 科学数据配比学习与课程学习:TeleChat-12B在训练过程中采用了科学的数据配比学习与课程学习的方法,使用小参数模型在多种数据配比的数据上拟合,动态提升较难学习的数据集权重,确保模型在各个数据集上都有较佳的拟合效果。
- 效果提升:相较于TeleChat-7B,TeleChat-12B在内容理解、性能表现和应用场景等方面实现了约30%的整体提升,特别是在多轮对话推理和安全相关领域的能力上,提高超过了40%。
应用场景与效果
- 多场景应用:TeleChat-12B已应用于行文写作、代码编程、网络故障分析以及经营分析等场景。例如,在行文写作方面,平均生成字数超过1500字,有效采纳率为85.7%。
- 对外服务:在对外服务的企事业单位客户中,TeleChat-12B能够涵盖95%的实际业务需求,并且在多轮对话理解中的准确率达到了90%。
国产化推进
- 支持国产芯片:TeleChat-12B支持int8、int4量化和国产芯片训练推理,进一步推动了大模型全栈国产化进程。
- 合作与生态:中国电信与华为昇腾等合作伙伴共同推进大模型全栈国产化,已在多个项目中基于昇腾技术完成模型商用落地。
TeleChat-12B在参数规模、训练数据、模型结构、训练方法等方面进行了全面的优化和升级,显著提升了模型的性能和效果,并在多个应用场景中展现出了卓越的能力。同时,它也积极推动了大模型全栈国产化进程,为AI产业的发展注入了新的动力。