TeleChat

8个月前更新 84 0 0

中国电信推出的基于Transformer架构的70亿参数语义大模型,具备强大的自然语言理解和生成能力,适用于智能对话、文本生成等多个AI应用场景。

所在地:
中国
语言:
zh
收录时间:
2024-06-03
TeleChatTeleChat
TeleChat

TeleChat-12B是中国电信人工智能研究院开源的一款星辰语义大模型,相较于之前的TeleChat-7B版本,它在内容、性能和应用等方面有了显著的提升。

开源进程

  • 2024.5.16 开源优化的12B版本chat模型TeleChat-12B-V2
  • 2024.3.20 开源12B版本chat模型及量化版本
  • 2024.1.11 开源1T中文数据集
  • 2024.1.10 开源7B版本chat模型及其量化版本

模型参数与训练数据

  • 参数规模:TeleChat-12B拥有120亿参数,相比TeleChat-7B的70亿参数,规模上有了显著的扩大。
  • 训练数据:TeleChat-12B将训练数据量从7B版本的1.5T增加至3T,显著提高了数据的质量和模型的性能。

模型结构与优化

  • 词嵌入层与输出层解耦:TeleChat-12B采用了词嵌入层与输出层解耦的结构,将词嵌入层和输出lm head层参数分开,有助于增强训练稳定性和收敛性。
  • 模型结构优化:TeleChat-12B使用小规模的模型进行多种模型结构的组合尝试,以选择最优结构,进一步优化了模型的性能。

训练方法与效果提升

  • 科学数据配比学习与课程学习:TeleChat-12B在训练过程中采用了科学的数据配比学习与课程学习的方法,使用小参数模型在多种数据配比的数据上拟合,动态提升较难学习的数据集权重,确保模型在各个数据集上都有较佳的拟合效果。
  • 效果提升:相较于TeleChat-7B,TeleChat-12B在内容理解、性能表现和应用场景等方面实现了约30%的整体提升,特别是在多轮对话推理和安全相关领域的能力上,提高超过了40%。

应用场景与效果

  • 多场景应用:TeleChat-12B已应用于行文写作、代码编程、网络故障分析以及经营分析等场景。例如,在行文写作方面,平均生成字数超过1500字,有效采纳率为85.7%。
  • 对外服务:在对外服务的企事业单位客户中,TeleChat-12B能够涵盖95%的实际业务需求,并且在多轮对话理解中的准确率达到了90%。

国产化推进

  • 支持国产芯片:TeleChat-12B支持int8、int4量化和国产芯片训练推理,进一步推动了大模型全栈国产化进程。
  • 合作与生态:中国电信与华为昇腾等合作伙伴共同推进大模型全栈国产化,已在多个项目中基于昇腾技术完成模型商用落地。

TeleChat-12B在参数规模、训练数据、模型结构、训练方法等方面进行了全面的优化和升级,显著提升了模型的性能和效果,并在多个应用场景中展现出了卓越的能力。同时,它也积极推动了大模型全栈国产化进程,为AI产业的发展注入了新的动力。

数据统计

相关导航

暂无评论

none
暂无评论...