
Ovis2是什么
Ovis2是阿里巴巴国际化团队于2025年2月21日开源发布的新一代多模态大语言模型系列。作为Ovis1.6的继任者,Ovis2在数据构建和训练方法上进行了显著改进,旨在提升模型在多模态任务中的表现。
Ovis2主要特性:
- 小模型高性能:通过优化训练策略,Ovis2的小规模模型实现了更高的能力密度,在跨层级性能上表现出色。
- 增强的推理能力:采用指令微调和偏好学习技术,大幅提升了模型的思维链(CoT)推理能力。
- 视频和多图像处理:引入了视频和多图像处理功能,增强了模型对动态和复杂视觉信息的理解。
- 多语言OCR支持:扩展了多语言光学字符识别(OCR)能力,提升了在复杂场景下的文本提取性能。
Ovis2模型版本:
Ovis2系列包含1B、2B、4B、8B、16B和34B六个版本,各版本在同等参数规模下均达到了最新技术水平(SOTA)。其中,Ovis2-34B在权威评测平台OpenCompass的多模态通用能力榜单上位列所有开源模型的第二名,以不到一半的参数规模超越了许多70B参数的开源旗舰模型。
Ovis2架构设计:
Ovis2采用创新的架构设计,旨在结构性地对齐视觉和文本嵌入。其核心组件包括视觉分词器、视觉嵌入表和大型语言模型(LLM)。视觉分词器将输入图像分割为多个图像块,提取特征后映射到“视觉单词”,生成概率化的视觉token。视觉嵌入表存储每个视觉单词对应的嵌入向量,LLM则将视觉和文本嵌入向量拼接处理,生成文本输出,从而完成多模态任务。
Ovis2训练策略:
Ovis2采用四阶段训练方法:
- 视觉模块训练:冻结大部分LLM和视觉Transformer(ViT)参数,训练视觉模块以学习视觉特征到嵌入的转换。
- 特征提取增强:进一步提升视觉模块的特征提取能力,增强高分辨率图像理解、多语言支持和OCR能力。
- 视觉-文本对齐:通过对话形式的视觉描述数据,对齐视觉嵌入与LLM的对话格式。
- 多模态指令训练和偏好学习:提升模型在多模态下对用户指令的遵循能力和输出质量。
Ovis2关键帧选择算法:
为提升视频理解能力,Ovis2开发了创新的关键帧选择算法。该算法基于帧与文本的相关性、帧之间的多样性和序列性,挑选最有用的视频帧。通过高维条件相似度计算、行列式点过程(DPP)和马尔可夫决策过程(MDP),在有限的视觉上下文中高效选择关键帧,提升视频理解性能。
Ovis2开源信息:
Ovis2的代码已在GitHub上开源,模型可在Hugging Face和ModelScope平台获取,并提供在线Demo供用户体验。相关研究论文也已发布在arXiv上,供开发者和研究者参考。
Ovis2相关链接:
- GitHub代码库:https://github.com/AIDC-AI/Ovis
- Hugging Face模型:https://huggingface.co/AIDC-AI/Ovis2-34B
- ModelScope模型:https://modelscope.cn/collections/Ovis2-1e2840cb4f7d45
- 在线Demo:https://huggingface.co/spaces/AIDC-AI/Ovis2-16B
- arXiv论文:https://arxiv.org/abs/2405.20797
通过这些资源,开发者和研究者可以深入了解Ovis2的架构、训练方法和应用场景,进一步推动多模态大模型的发展和创新。
数据统计
相关导航

字节跳动推出的自研大模型。通过字节跳动内部50+业务场景实践验证,每日千亿级tokens大使用量持续打磨,提供多模态能力,以优质模型效果为企业打造丰富的业务体验

盘古大模型
华为开发的一款业界领先的超大规模预训练模型,具备强大的自然语言处理、视觉处理及多模态能力,可广泛应用于多个行业场景。

讯飞星火
科大讯飞推出的具备强大语义理解和知识推理能力的大型语言模型,广泛应用于企业服务、智能硬件、智慧政务等多个领域。

Yi-Large
零一万物公司推出的具有千亿参数规模的AI通用大模型,具备强大的自然语言处理能力和广泛的应用前景。

Open-Sora 2.0
潞晨科技推出的高性能、低成本的全新开源视频生成模型,引领开源视频生成技术迈入新阶段。

文心大模型4.5
百度自研的原生多模态基础大模型,具备卓越的多模态理解、文本生成与逻辑推理能力,采用多项先进技术,成本仅为GPT4.5的1%,且计划全面开源。

Mureka O1
昆仑万维发布的全球首款引入思维链技术的音乐推理大模型,支持多风格与情感的音乐生成、歌曲参考及音色克隆,具备低延迟和高品质性能,并开放API服务供企业与开发者集成应用。

OmniParser V2.0
微软推出的视觉Agent解析框架,能将大型语言模型转化为可操控电脑的智能体,实现高效自动化交互。
暂无评论...