
Ovis2是什么
Ovis2是阿里巴巴国际化团队于2025年2月21日开源发布的新一代多模态大语言模型系列。作为Ovis1.6的继任者,Ovis2在数据构建和训练方法上进行了显著改进,旨在提升模型在多模态任务中的表现。
Ovis2主要特性:
- 小模型高性能:通过优化训练策略,Ovis2的小规模模型实现了更高的能力密度,在跨层级性能上表现出色。
- 增强的推理能力:采用指令微调和偏好学习技术,大幅提升了模型的思维链(CoT)推理能力。
- 视频和多图像处理:引入了视频和多图像处理功能,增强了模型对动态和复杂视觉信息的理解。
- 多语言OCR支持:扩展了多语言光学字符识别(OCR)能力,提升了在复杂场景下的文本提取性能。
Ovis2模型版本:
Ovis2系列包含1B、2B、4B、8B、16B和34B六个版本,各版本在同等参数规模下均达到了最新技术水平(SOTA)。其中,Ovis2-34B在权威评测平台OpenCompass的多模态通用能力榜单上位列所有开源模型的第二名,以不到一半的参数规模超越了许多70B参数的开源旗舰模型。
Ovis2架构设计:
Ovis2采用创新的架构设计,旨在结构性地对齐视觉和文本嵌入。其核心组件包括视觉分词器、视觉嵌入表和大型语言模型(LLM)。视觉分词器将输入图像分割为多个图像块,提取特征后映射到“视觉单词”,生成概率化的视觉token。视觉嵌入表存储每个视觉单词对应的嵌入向量,LLM则将视觉和文本嵌入向量拼接处理,生成文本输出,从而完成多模态任务。
Ovis2训练策略:
Ovis2采用四阶段训练方法:
- 视觉模块训练:冻结大部分LLM和视觉Transformer(ViT)参数,训练视觉模块以学习视觉特征到嵌入的转换。
- 特征提取增强:进一步提升视觉模块的特征提取能力,增强高分辨率图像理解、多语言支持和OCR能力。
- 视觉-文本对齐:通过对话形式的视觉描述数据,对齐视觉嵌入与LLM的对话格式。
- 多模态指令训练和偏好学习:提升模型在多模态下对用户指令的遵循能力和输出质量。
Ovis2关键帧选择算法:
为提升视频理解能力,Ovis2开发了创新的关键帧选择算法。该算法基于帧与文本的相关性、帧之间的多样性和序列性,挑选最有用的视频帧。通过高维条件相似度计算、行列式点过程(DPP)和马尔可夫决策过程(MDP),在有限的视觉上下文中高效选择关键帧,提升视频理解性能。
Ovis2开源信息:
Ovis2的代码已在GitHub上开源,模型可在Hugging Face和ModelScope平台获取,并提供在线Demo供用户体验。相关研究论文也已发布在arXiv上,供开发者和研究者参考。
Ovis2相关链接:
- GitHub代码库:https://github.com/AIDC-AI/Ovis
- Hugging Face模型:https://huggingface.co/AIDC-AI/Ovis2-34B
- ModelScope模型:https://modelscope.cn/collections/Ovis2-1e2840cb4f7d45
- 在线Demo:https://huggingface.co/spaces/AIDC-AI/Ovis2-16B
- arXiv论文:https://arxiv.org/abs/2405.20797
通过这些资源,开发者和研究者可以深入了解Ovis2的架构、训练方法和应用场景,进一步推动多模态大模型的发展和创新。
数据统计
相关导航

百度自研的原生多模态基础大模型,具备卓越的多模态理解、文本生成与逻辑推理能力,采用多项先进技术,成本仅为GPT4.5的1%,且计划全面开源。

Qwen3-Next
阿里开源的800亿参数大模型,1:50超稀疏激活,百万级上下文,成本降90%,性能比肩千亿模型。

Claude 3.7 Sonnet
Anthropic公司发布的全球首款混合推理模型,能够根据不同需求在快速响应与深入反思间灵活切换,展现出卓越的性能和灵活性。

OpenManus
开源的AI Agent框架,支持本地化部署和多智能体协作,能够高效完成复杂任务。

通义千问Qwen1.5
阿里巴巴推出的大型语言模型,具备从0.5B到72B等多种参数规模,支持多语言处理、长文本理解,并在多个基准测试中表现优异。

Waver 1.0
Waver 1.0是款开源全功能视频生成模型,能轻松实现文本/图像到高清视频的创作,高效便捷且质量出众。

Command A
Cohere发布的轻量化AI模型,具备高效处理、长上下文支持、多语言及企业级安全等强大功能,专为中小型企业设计,以低成本硬件实现卓越性能。

OmAgent
面向设备的开源智能体框架,旨在简化多模态智能体的开发,为各类硬件设备提供增强功能。
暂无评论...
