PrismAudio

7天前更新 179 0 0

阿里推出的视频生成音频框架，通过“思维链+强化学习”技术实现音画高度同步，可高效生成环境音效，适用于影视、游戏、短视频等多场景创作。

语言：

收录时间：

2026-03-24

打开网站手机查看

AI语音生成最新收录 # 音频生成

PrismAudio

打开网站

PrismAudio是什么？

PrismAudio 是阿里巴巴通义实验室于 2026 年 3 月 24 日发布的视频生成音频（Video-to-Audio）框架，专注于环境音与音效的合成。作为首个将强化学习与思维链技术深度结合的模型，PrismAudio 通过“先思考、再发声”的生成范式，实现了声音与视频内容的高度同步，解决了传统模型音画不符、效率低下等问题。其研究成果已被国际顶级会议 ICLR 2026 收录，代码即将开源。

PrismAudio的主要功能

环境音/音效合成
- 自动生成与画面匹配的背景音效，如马蹄声、风雨声、金属敲击声等，替代传统拟音工作。
- 支持多事件、多声源场景的复杂音效生成，保持稳定输出。
四维协同优化
- 语义对齐：确保声音内容与视频中的物体、动作准确对应（如识别“马蹄声”而非“鸟叫声”）。
- 时序同步：精准控制声音与视觉事件的发生时机，实现毫秒级同步。
- 美学优化：生成自然、有层次感、无电子感的高质量音频，提升听觉体验。
- 空间定位：支持立体声输出，根据画面中声源位置自动调整左右声道，实现“听声辨位”。
高效轻量化
- 模型参数量仅 5.18 亿，生成 9 秒音频仅需 0.63 秒，速度比同类模型快近一倍，适合实时应用场景。
思维链推理
- 采用“分解式思维链”技术，模型先生成结构化推理文本（如声音内容、时机、质感、方位），再生成音频，过程可解释、可控制。

PrismAudio的使用场景

影视后期制作
- 为电影、纪录片、预告片自动生成环境音效，降低后期制作成本和时间。
短视频创作
- 为 Vlog、美食、旅行等无声视频快速配上氛围音，增强沉浸感与传播效果。
游戏开发
- 为过场动画和 CG 宣传片生成动态音效，根据森林、城市、战场等场景实时匹配环境音，减少音效师重复劳动。
广告营销
- 为产品展示视频自动添加操作音效，支持快速迭代多版本音轨，提升广告测试效率和创意灵活性。
教育培训
- 为教学视频和操作演示补充提示音与背景音，丰富多媒体课件的听觉体验，提高学习专注度。

如何使用PrismAudio？

输入要求
- 输入视频需包含清晰的视觉事件（如动作、物体移动），以便模型识别并生成对应音效。
参数调整
- 用户可根据需求调整音效风格（如自然、科幻、恐怖）、声音强度、立体声效果等参数。
输出格式
- 支持生成常见音频格式（如 WAV、MP3），可直接用于视频编辑软件或游戏引擎。
高效训练算法（Fast-GRPO）
- 模型通过 Fast-GRPO 算法优化训练效率，减少随机采样成本，快速适应不同场景需求。

PrismAudio的项目地址

项目官网：https://prismaudio-project.github.io/
GitHub仓库：https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio
HuggingFace模型库：https://huggingface.co/FunAudioLLM/PrismAudio
arXiv技术论文：https://arxiv.org/pdf/2511.18833
在线体验Demo：https://huggingface.co/spaces/FunAudioLLM/PrismAudio

数据统计

暂无评论

暂无评论...

PrismAudio

PrismAudio是什么？

PrismAudio的主要功能

PrismAudio的使用场景

如何使用PrismAudio？

PrismAudio的项目地址

推荐理由

数据统计

相关导航

Qwen3-ASR-Flash

傲意科技

BettaFish

Pascal Editor

UntitledPen

KittenTTS

悦录

微信ClawBot

暂无评论

最新文章

热门网址

PrismAudio

PrismAudio是什么？

PrismAudio的主要功能

PrismAudio的使用场景

如何使用PrismAudio？

PrismAudio的项目地址

推荐理由

数据统计

相关导航

Qwen3-ASR-Flash

傲意科技

BettaFish

Pascal Editor

UntitledPen

KittenTTS

悦录

微信ClawBot

暂无评论

最新文章

热门网址

标签云