
Ovis2是什么
Ovis2是阿里巴巴国际化团队于2025年2月21日开源发布的新一代多模态大语言模型系列。作为Ovis1.6的继任者,Ovis2在数据构建和训练方法上进行了显著改进,旨在提升模型在多模态任务中的表现。
Ovis2主要特性:
- 小模型高性能:通过优化训练策略,Ovis2的小规模模型实现了更高的能力密度,在跨层级性能上表现出色。
- 增强的推理能力:采用指令微调和偏好学习技术,大幅提升了模型的思维链(CoT)推理能力。
- 视频和多图像处理:引入了视频和多图像处理功能,增强了模型对动态和复杂视觉信息的理解。
- 多语言OCR支持:扩展了多语言光学字符识别(OCR)能力,提升了在复杂场景下的文本提取性能。
Ovis2模型版本:
Ovis2系列包含1B、2B、4B、8B、16B和34B六个版本,各版本在同等参数规模下均达到了最新技术水平(SOTA)。其中,Ovis2-34B在权威评测平台OpenCompass的多模态通用能力榜单上位列所有开源模型的第二名,以不到一半的参数规模超越了许多70B参数的开源旗舰模型。
Ovis2架构设计:
Ovis2采用创新的架构设计,旨在结构性地对齐视觉和文本嵌入。其核心组件包括视觉分词器、视觉嵌入表和大型语言模型(LLM)。视觉分词器将输入图像分割为多个图像块,提取特征后映射到“视觉单词”,生成概率化的视觉token。视觉嵌入表存储每个视觉单词对应的嵌入向量,LLM则将视觉和文本嵌入向量拼接处理,生成文本输出,从而完成多模态任务。
Ovis2训练策略:
Ovis2采用四阶段训练方法:
- 视觉模块训练:冻结大部分LLM和视觉Transformer(ViT)参数,训练视觉模块以学习视觉特征到嵌入的转换。
- 特征提取增强:进一步提升视觉模块的特征提取能力,增强高分辨率图像理解、多语言支持和OCR能力。
- 视觉-文本对齐:通过对话形式的视觉描述数据,对齐视觉嵌入与LLM的对话格式。
- 多模态指令训练和偏好学习:提升模型在多模态下对用户指令的遵循能力和输出质量。
Ovis2关键帧选择算法:
为提升视频理解能力,Ovis2开发了创新的关键帧选择算法。该算法基于帧与文本的相关性、帧之间的多样性和序列性,挑选最有用的视频帧。通过高维条件相似度计算、行列式点过程(DPP)和马尔可夫决策过程(MDP),在有限的视觉上下文中高效选择关键帧,提升视频理解性能。
Ovis2开源信息:
Ovis2的代码已在GitHub上开源,模型可在Hugging Face和ModelScope平台获取,并提供在线Demo供用户体验。相关研究论文也已发布在arXiv上,供开发者和研究者参考。
Ovis2相关链接:
- GitHub代码库:https://github.com/AIDC-AI/Ovis
- Hugging Face模型:https://huggingface.co/AIDC-AI/Ovis2-34B
- ModelScope模型:https://modelscope.cn/collections/Ovis2-1e2840cb4f7d45
- 在线Demo:https://huggingface.co/spaces/AIDC-AI/Ovis2-16B
- arXiv论文:https://arxiv.org/abs/2405.20797
通过这些资源,开发者和研究者可以深入了解Ovis2的架构、训练方法和应用场景,进一步推动多模态大模型的发展和创新。
数据统计
相关导航

零一万物公司推出的具有千亿参数规模的AI通用大模型,具备强大的自然语言处理能力和广泛的应用前景。

FacePoke
开源实时面部表情编辑工具,允许用户通过简单操作实时调整静态图像中的面部表情和头部朝向。

Deep-Live-Cam
基于Python的开源AI实时换脸工具,支持毫秒级的人脸替换效果,可用于娱乐、艺术创作及教育等多个领域。

光语大模型
融合大语言与符号推理的创新大模型,专为提升金融、医疗等领域应用的可信度与精准度而设计。

pyVideoTrans
开源免费的 AI 视频翻译与配音工具,支持多语言语音识别、字幕翻译及自然配音,助力内容创作者和企业轻松实现视频全球化传播。

Yan模型
岩芯数智自研的国内首个非Transformer架构的通用自然语言大模型,具备高效能、低成本、多模态处理能力及私有化部署安全性。

ChatGLM-6B
一款由清华大学开发的开源生成式语言模型,专为中文聊天和对话任务设计,展现了强大的中文自然语言处理能力。

Gemini 2.0 Pro
谷歌发布的一款具有强大编码性能和处理复杂提示能力的高性能AI模型,拥有200万个tokens的上下文窗口。
暂无评论...
