
Ovis2是什么
Ovis2是阿里巴巴国际化团队于2025年2月21日开源发布的新一代多模态大语言模型系列。作为Ovis1.6的继任者,Ovis2在数据构建和训练方法上进行了显著改进,旨在提升模型在多模态任务中的表现。
Ovis2主要特性:
- 小模型高性能:通过优化训练策略,Ovis2的小规模模型实现了更高的能力密度,在跨层级性能上表现出色。
- 增强的推理能力:采用指令微调和偏好学习技术,大幅提升了模型的思维链(CoT)推理能力。
- 视频和多图像处理:引入了视频和多图像处理功能,增强了模型对动态和复杂视觉信息的理解。
- 多语言OCR支持:扩展了多语言光学字符识别(OCR)能力,提升了在复杂场景下的文本提取性能。
Ovis2模型版本:
Ovis2系列包含1B、2B、4B、8B、16B和34B六个版本,各版本在同等参数规模下均达到了最新技术水平(SOTA)。其中,Ovis2-34B在权威评测平台OpenCompass的多模态通用能力榜单上位列所有开源模型的第二名,以不到一半的参数规模超越了许多70B参数的开源旗舰模型。
Ovis2架构设计:
Ovis2采用创新的架构设计,旨在结构性地对齐视觉和文本嵌入。其核心组件包括视觉分词器、视觉嵌入表和大型语言模型(LLM)。视觉分词器将输入图像分割为多个图像块,提取特征后映射到“视觉单词”,生成概率化的视觉token。视觉嵌入表存储每个视觉单词对应的嵌入向量,LLM则将视觉和文本嵌入向量拼接处理,生成文本输出,从而完成多模态任务。
Ovis2训练策略:
Ovis2采用四阶段训练方法:
- 视觉模块训练:冻结大部分LLM和视觉Transformer(ViT)参数,训练视觉模块以学习视觉特征到嵌入的转换。
- 特征提取增强:进一步提升视觉模块的特征提取能力,增强高分辨率图像理解、多语言支持和OCR能力。
- 视觉-文本对齐:通过对话形式的视觉描述数据,对齐视觉嵌入与LLM的对话格式。
- 多模态指令训练和偏好学习:提升模型在多模态下对用户指令的遵循能力和输出质量。
Ovis2关键帧选择算法:
为提升视频理解能力,Ovis2开发了创新的关键帧选择算法。该算法基于帧与文本的相关性、帧之间的多样性和序列性,挑选最有用的视频帧。通过高维条件相似度计算、行列式点过程(DPP)和马尔可夫决策过程(MDP),在有限的视觉上下文中高效选择关键帧,提升视频理解性能。
Ovis2开源信息:
Ovis2的代码已在GitHub上开源,模型可在Hugging Face和ModelScope平台获取,并提供在线Demo供用户体验。相关研究论文也已发布在arXiv上,供开发者和研究者参考。
Ovis2相关链接:
- GitHub代码库:https://github.com/AIDC-AI/Ovis
- Hugging Face模型:https://huggingface.co/AIDC-AI/Ovis2-34B
- ModelScope模型:https://modelscope.cn/collections/Ovis2-1e2840cb4f7d45
- 在线Demo:https://huggingface.co/spaces/AIDC-AI/Ovis2-16B
- arXiv论文:https://arxiv.org/abs/2405.20797
通过这些资源,开发者和研究者可以深入了解Ovis2的架构、训练方法和应用场景,进一步推动多模态大模型的发展和创新。
数据统计
相关导航

李飞飞团队开发的一款以极低训练成本实现卓越推理性能的人工智能模型。

Laminar
一个开源的AI工程优化平台,专注于从第一原理出发进行AI工程。它帮助用户收集、理解和使用数据,以提高LLM(大型语言模型)应用的质量。

kotaemon RAG
开源聊天应用工具,允许用户以聊天方式查询并获取文档中的相关信息。

言犀大模型
京东基于产业数据和技术研发的具备广泛行业应用能力的智能大模型,致力于为企业提供高效、智能的解决方案。

万兴天幕多媒体大模型
万兴科技研发的中国首个音视频多媒体创作垂类大模型,融合视频、音频、图片及语言处理能力,为数字创意领域提供强大的AI创作支持。

Claude 3.7 Max
Anthropic 公司推出的专为硬核开发者设计的顶级 AI 模型,以强大代码处理能力和 200k 上下文窗口应对超复杂任务。

光语大模型
融合大语言与符号推理的创新大模型,专为提升金融、医疗等领域应用的可信度与精准度而设计。

Claude 3.7 Sonnet
Anthropic公司发布的全球首款混合推理模型,能够根据不同需求在快速响应与深入反思间灵活切换,展现出卓越的性能和灵活性。
暂无评论...