产品背景与上线时间
- 通义万相于2023年7月7日正式上线,是阿里云在AI技术领域持续探索与创新的又一力作。
- 作为阿里云通义系列的一员,通义万相专为图片创作设计,标志着阿里云在智能图像生成领域迈出了坚实的一步。
- 2025年1月,通义万相作为通义系列的最新版本2.1正式发布,主要针对视频和图像生成两大功能进行了显著的改进和优化。此次升级标志着通义万相在多模态生成领域的进一步突破,为用户提供了更加丰富和高质量的内容创作工具。
- 高效编解码支持:
- 通义万相引入了自研的高效VAE(变分自编码器)和DiT(深度图像转换)架构,显著增强了时空上下文建模能力。
- 支持无限长1080P视频的高效编解码,大大提升了视频处理的灵活性和效率。
- 中文文字视频生成:
- 首次实现了中文文字视频生成功能,并在VBench榜单上荣登榜首,彰显了其在视频生成技术上的领先地位。
- 艺术字与特效:
- 支持中英文视频的一键艺术字生成,提供了多种视频特效选项,如过渡效果、粒子效果和模拟效果等,极大地丰富了视频的视觉表现力。
- 复杂运镜与物理模拟:
- 支持复杂运镜,能够还原碰撞、反弹、切割、挤压等真实世界的物理规律,使得视频画面更加逼真和生动。
图像生成能力
- 文生组图功能:
- 通义万相支持通过文字描述生成关联图像的组合,实现了文生组图的功能。
- IC-LoRA图像生成训练方法:
- 采用了IC-LoRA(Image Captioning with Low-Rank Adaptation)图像生成训练方法,结合DiT架构,显著增强了文本到图像的上下文能力。
- 特征稳定连续:
- 通过多张图像的拼接与联合描述,可以实现关联图像间的组合生成,并保持特征稳定连续,为设计师和摄影师提供了更多创意空间。
应用场景与价值
- 广告制作:
- 通义万相的高效视频生成和丰富的特效选项,使得广告制作更加便捷和高效。
- 动画制作:
- 支持复杂运镜和物理模拟的功能,为动画制作提供了更加逼真的画面效果。
- 创意内容生成:
- 无论是设计师、摄影师还是普通用户,都可以利用通义万相轻松实现个性化的艺术创作和高效设计。
技术展望
通义万相的升级标志着阿里云在AI图像与视频生成领域取得了显著进展。未来,随着技术的不断发展和应用场景的不断拓展,通义万相有望在更多领域发挥重要作用,为用户提供更加丰富和高质量的内容创作体验。