SAM Audio是什么?
SAM Audio 是由 Meta 推出的全球首款统一多模态音频分离模型,通过融合文本、视觉及时间维度提示,实现对复杂音频场景的智能解析与交互式提取。其核心目标是让用户能够像“用眼睛聆听”一样,从混合音频或视频中精准分离出特定目标声音,例如点击画面中的乐器、输入文字描述声源,或标记时间片段,均可一键完成操作。
SAM Audio的主要功能
- 多模态提示支持:
- 文本提示:用户可通过自然语言描述(如“狗吠”“人声演唱”)指定目标声音,系统自动提取对应声源。
- 视觉提示:在视频画面中点击发声物体(如说话者、敲鼓的手),系统即分离其音频。
- 时间片段提示:标记目标声音出现的时间区间(如“3分12秒到3分18秒”),模型自动处理整段录音中的同类声音。
- 高精度音频分离:
- 从复杂音频环境中精确提取目标声音,同时生成剩余音轨。
- 在通用音频分离任务中表现优于现有技术,尤其在乐器分离和说话者分离等专业领域展现卓越性能。
- 灵活的应用场景:
- 支持音频清理、背景噪声移除、音乐制作、音效处理及无障碍技术等多种场景。
SAM Audio的核心技术
- 感知编码器视听(PE-AV)引擎:
- 基于 Meta 开源的 Perception Encoder 计算机视觉模型扩展而来,首次将高级视觉理解能力与音频信号深度融合。
- 通过在精确时间点上对齐视频帧与音频,提供语义丰富的特征表示,实现跨模态的声音定位与分离。
- 生成式建模框架:
- 采用基于流匹配扩散 Transformer 的生成式框架,结合 DAC-VAE 编码器,将音频压缩成紧凑表示,同时保持音质。
- 训练数据涵盖语音、音乐和通用声音事件,通过自动音频混合流程和多模态提示生成,确保模型在真实环境中的鲁棒性。
- 时间段编码创新:
- 首创时间段编码功能,将时间信息转换成类似文字序列的表示方法,每个时间点被标记为“活跃”或“静默”。
- 使 AI 能够精确理解用户指定的时间信息,实现 frame 级别的精确控制。
SAM Audio的使用场景
- 音频清理与背景噪声移除:
- 播客创作者可轻松去除录制中的狗吠、街道噪音等背景声,提升音频清晰度。
- 通过文本描述或时间标记即可实现灵活操作,为音频编辑带来高效便捷的体验。
- 创意媒体制作:
- 音乐制作人和视频创作者可利用 SAM Audio 进行创意音频处理。
- 从歌曲中提取特定乐器音轨或分离人声,实现音频重新混音或特效添加。
- 通过视觉提示点击视频中的吉他手,即可提取吉他声,为创意表达提供更多可能性。
- 无障碍技术:
- 与助听器制造商合作,通过音频分离技术帮助听力受损人群更好地理解音频内容。
- 在嘈杂环境中,助听器可自动分离出人声,让听力障碍者更清晰地听到对话,提升其生活和社交质量。
- 视频编辑:
- 在视频制作中,SAM Audio 可精准分离特定对象的声音。
- 编辑人员可通过视觉提示点击视频中的特定人物或物体,提取其声音,实现音频与视频的精准匹配。
- 例如提取视频中演讲者的声音,同时移除其他杂音,让视频内容更清晰、更具吸引力。
SAM Audio的项目地址
- 项目官网:https://ai.meta.com/samaudio/
- Github仓库:https://github.com/facebookresearch/sam-audio
推荐理由
- 技术创新性:
- SAM Audio 是全球首款统一多模态音频分离模型,首次将人类自然感知声音的方式——看、说、指、选——完整复刻到 AI 系统中。
- 其感知编码器视听(PE-AV)引擎实现了跨模态的声音定位与分离,为音频处理开辟了全新路径。
- 功能强大且灵活:
- 支持文本、视觉及时间片段三种提示方式,可单独或组合使用,满足不同场景下的音频分离需求。
- 高精度音频分离能力在多种专业领域展现卓越性能,如乐器分离和说话者分离等。
- 应用场景广泛:
- 适用于音频清理、背景噪声移除、音乐制作、音效处理及无障碍技术等多种场景。
- 可为音乐创作者、播客编辑人员、影视制作人员及科研人员等提供高效便捷的音频处理工具。
- 开源与社区支持:
- Meta 同步开源了 SAM Audio-Bench 和 SAM Audio Judge 两大关键工具,为行业提供了统一的评估标准和自动评测模型。
- 开源特性意味着开发者可基于此构建多样化的“视听联觉”应用,推动音频处理技术的迭代与落地应用。