Open-Sora 2.0翻译站点

1周前更新 113 0 0

潞晨科技推出的高性能、低成本的全新开源视频生成模型,引领开源视频生成技术迈入新阶段。

语言:
en
收录时间:
2025-03-13
Open-Sora 2.0Open-Sora 2.0
Open-Sora 2.0

Open-Sora 2.0是什么

Open-Sora 2.0是一款由潞晨科技推出的全新开源视频生成模型。它在视频生成领域取得了显著进展,能够以较低的成本实现高性能的视频生成。该模型基于先进的深度学习架构和训练技术,支持文本到视频、图像到视频等多种视觉生成任务。Open-Sora 2.0的发布标志着开源视频生成技术迈入了一个新阶段,为更多开发者提供了参与高质量视频生成研发的机会,共同推动视频生成技术的发展。

Open-Sora 2.0模型性能与参数

  • 参数规模:11B(110亿)参数,规模庞大,能够处理复杂的视频生成任务。
  • 训练成本:仅用20万美元(224张GPU)成功训练出商业级视频生成大模型,相较于其他动辄数百万美元训练成本的模型,成本大幅降低。
  • 性能表现:性能直追HunyuanVideo和30B参数的Step-Video,在多项关键指标上媲美甚至超越闭源模型。在VBench评测中取得优异成绩,分数超过腾讯的HunyuanVideo。

Open-Sora 2.0技术特点与创新

  • 3D自编码器和Flow Matching训练框架:延续Open-Sora 1.2的设计思路,通过多桶训练机制,实现对不同视频长度和分辨率的同时训练。
  • 3D全注意力机制:引入3D全注意力机制,进一步提升视频生成质量。
  • MMDiT架构:采用最新的MMDiT架构,更精准地捕捉文本信息与视频内容的关系。
  • 图生视频模型FLUX初始化:借助开源图生视频模型FLUX进行初始化,大幅降低训练成本,实现更高效的视频生成优化。
  • 高压缩比视频自编码器:训练了一款高压缩比(4×32×32)的视频自编码器,将推理时间缩短至单卡3分钟以内,推理速度提升10倍。

Open-Sora 2.0优化措施

  • 数据筛选:通过严格的数据筛选,确保高质量数据输入,从源头提升模型训练效率。
  • 分辨率优化:优先将算力投入到低分辨率训练,以高效学习运动信息,在降低成本的同时确保模型能够捕捉关键的动态特征。
  • 图生视频任务优先训练:相比直接训练高分辨率视频,图生视频模型在提升分辨率时具备更快的收敛速度,从而进一步降低训练成本。
  • 高效的并行训练方案:结合ColossalAI和系统级优化,大幅提升计算资源利用率,实现更高效的视频生成训练。包括高效的序列并行和ZeroDP、细粒度控制的Gradient Checkpointing、训练自动恢复机制、高效数据加载与内存管理、高效异步模型保存以及算子优化等。

Open-Sora 2.0应用场景与优势

  • 动作幅度可控:可根据需求设定运动幅度,以更好地展现人物或场景的细腻动作。
  • 画质与流畅度:提供720p高分辨率和24 FPS流畅视频,让最终视频拥有稳定帧率与细节表现。
  • 支持丰富的场景:从乡村景色到自然风光场景,Open-Sora 2.0生成的画面细节与相机运镜都有出色的表现。
  • 开源生态:全面开源模型权重、推理代码及分布式训练全流程,打造强大的开源生态圈,吸引众多开发者关注与参与。

Open-Sora 2.0影响力与认可

  • 学术论文引用量:Open-Sora的学术论文引用量在半年内获得近百引用,在全球开源影响力排名中稳居首位。
  • 全球影响力:领先所有开源的I2V/T2V视频生成项目,成为全球影响力最大的开源视频生成项目之一。

GitHub 开源仓库:https://github.com/hpcaitech/Open-Sora
技术报告:https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf

数据统计

相关导航

暂无评论

none
暂无评论...