Google 发布了其开放权重模型的第二版 Gemma 2,其中包括三个具有 20 亿、90 亿和 270 亿个参数的模型。目前,只有 90 亿和 270 亿个参数的模型可用。这些模型在各种基准测试中都表现出色,通常优于其他系列的大型模型。技术报告提供了有关架构、训练数据和用于增强模型性能的创新技术(例如知识提炼)的详细见解,而 Prompt Engineering 创建了一个出色的概述,提供了深刻见解。
谷歌解释:
超大性能:Gemma 2 尺寸为 27B,性能在同类产品中首屈一指,甚至比其尺寸大两倍的型号更具竞争力。9B Gemma 2 型号的性能也处于同类产品领先水平,优于 Llama 3 8B 和同类其他开放式型号。有关详细的性能细分,请查看技术报告。
无与伦比的效率和成本节省:27B Gemma 2 模型旨在在单个 Google Cloud TPU 主机、NVIDIA A100 80GB Tensor Core GPU 或 NVIDIA H100 Tensor Core GPU 上以全精度高效运行推理,在保持高性能的同时显著降低成本。这使得 AI 部署更加便捷且经济实惠。
跨硬件的超快推理:Gemma 2 经过优化,可在各种硬件上以惊人的速度运行,从功能强大的游戏笔记本电脑和高端台式机到基于云的设置。在 Google AI Studio 中以全精度试用 Gemma 2,在 CPU 上使用 Gemma.cpp 使用量化版本解锁本地性能,或者通过 Hugging Face Transformers 在配备 NVIDIA RTX 或 GeForce RTX 的家用电脑上试用。
Google Gemma-2 AI 模型
虽然 20 亿参数模型仍处于保密状态,但 90 亿和 270 亿参数模型已向公众开放,为研究人员和开发人员提供了发挥其潜力的机会。这些模型经过精心设计,能够以无与伦比的效率和准确性处理大规模语言任务。
Gemma 2 AI 模型已经在实际应用中证明了自己的实力,90 亿参数模型的表现优于拥有 380 亿参数的强大 Lama 模型。与此同时,270 亿参数模型与 Lama 3 的 700 亿版本不相上下。两种 Gemma 2 模型都在 LMS Chatbot Arena 中占据领先地位,证明了它们的稳健性和多功能性。
揭开 Gemma-2 成功的秘密
Gemma-2 发布时附带的技术报告展示了实现如此出色性能所采用的创新技术。Gemma-2 成功的核心在于知识提炼的概念,这是一种强大的方法,可以训练较小但高效的模型。
通过采用师生模型范式,Gemma-2 可以利用更大、更复杂的模型的知识来指导更紧凑模型的训练。通过使用KL 散度实现学生模型和教师模型之间的对齐,从而确保整个预训练和微调阶段的一致性和准确性。
克服训练挑战
Gemma-2 的开发并非一帆风顺,尤其是在微调所需的大量数据方面。人们观察到大型模型训练不足的证据,但谷歌团队巧妙地通过知识提炼缓解了这个问题。这种方法使他们能够克服数据限制并释放模型的全部潜力。
在开发过程中进行的消融研究进一步凸显了知识蒸馏的有效性。将从头开始训练的模型与使用该技术训练的模型进行了比较,蒸馏后的模型在基准和困惑度方面始终表现出显著的改进。此外,训练技术的稳健性在变化的滑动窗口大小对性能的影响最小方面显而易见。
可访问性和部署
Google 已将 Gemma-2 模型在Google AI Studio和Hugging Face上提供,确保研究人员和开发人员可以轻松访问和部署这些创新工具。模型量化版本的可用性进一步增强了它们的实用性,为模型压缩和在各种场景中的高效部署提供了选项。
- Gemma-2 模型有三种大小:20 亿、90 亿和 270 亿个参数
- 9、270亿参数模型已向公众发布
- Gemma-2 模型在各种基准测试中都表现出色
- 知识提炼在训练小型、高效模型中起着至关重要的作用
- 消融研究证实了知识提炼在提高模型性能方面的有效性
随着自然语言处理领域的不断发展,Google 的 Gemma-2 站在了最前沿,突破了开放权重模型的极限。凭借其出色的性能、创新的训练技术和易用性,Gemma-2 有望对从聊天机器人到语言翻译等各种应用产生重大影响。