Ovis2翻译站点

1个月前更新 237 0 0

阿里巴巴开源的多模态大语言模型,具备强大的视觉理解、OCR、视频处理和推理能力,支持多种规模版本。

语言:
en
收录时间:
2025-02-23
Ovis2Ovis2
Ovis2

Ovis2是什么

Ovis2是阿里巴巴国际化团队于2025年2月21日开源发布的新一代多模态大语言模型系列。作为Ovis1.6的继任者,Ovis2在数据构建和训练方法上进行了显著改进,旨在提升模型在多模态任务中的表现。

Ovis2主要特性:

  • 小模型高性能:通过优化训练策略,Ovis2的小规模模型实现了更高的能力密度,在跨层级性能上表现出色。
  • 增强的推理能力:采用指令微调和偏好学习技术,大幅提升了模型的思维链(CoT)推理能力。
  • 视频和多图像处理:引入了视频和多图像处理功能,增强了模型对动态和复杂视觉信息的理解。
  • 多语言OCR支持:扩展了多语言光学字符识别(OCR)能力,提升了在复杂场景下的文本提取性能。

Ovis2模型版本:

Ovis2系列包含1B、2B、4B、8B、16B和34B六个版本,各版本在同等参数规模下均达到了最新技术水平(SOTA)。其中,Ovis2-34B在权威评测平台OpenCompass的多模态通用能力榜单上位列所有开源模型的第二名,以不到一半的参数规模超越了许多70B参数的开源旗舰模型。

Ovis2架构设计:

Ovis2采用创新的架构设计,旨在结构性地对齐视觉和文本嵌入。其核心组件包括视觉分词器、视觉嵌入表和大型语言模型(LLM)。视觉分词器将输入图像分割为多个图像块,提取特征后映射到“视觉单词”,生成概率化的视觉token。视觉嵌入表存储每个视觉单词对应的嵌入向量,LLM则将视觉和文本嵌入向量拼接处理,生成文本输出,从而完成多模态任务。

Ovis2训练策略:

Ovis2采用四阶段训练方法:

  • 视觉模块训练:冻结大部分LLM和视觉Transformer(ViT)参数,训练视觉模块以学习视觉特征到嵌入的转换。
  • 特征提取增强:进一步提升视觉模块的特征提取能力,增强高分辨率图像理解、多语言支持和OCR能力。
  • 视觉-文本对齐:通过对话形式的视觉描述数据,对齐视觉嵌入与LLM的对话格式。
  • 多模态指令训练和偏好学习:提升模型在多模态下对用户指令的遵循能力和输出质量。

Ovis2关键帧选择算法:

为提升视频理解能力,Ovis2开发了创新的关键帧选择算法。该算法基于帧与文本的相关性、帧之间的多样性和序列性,挑选最有用的视频帧。通过高维条件相似度计算、行列式点过程(DPP)和马尔可夫决策过程(MDP),在有限的视觉上下文中高效选择关键帧,提升视频理解性能。

Ovis2开源信息:

Ovis2的代码已在GitHub上开源,模型可在Hugging Face和ModelScope平台获取,并提供在线Demo供用户体验。相关研究论文也已发布在arXiv上,供开发者和研究者参考。

Ovis2相关链接:

通过这些资源,开发者和研究者可以深入了解Ovis2的架构、训练方法和应用场景,进一步推动多模态大模型的发展和创新。

数据统计

相关导航

暂无评论

none
暂无评论...