SAM Audio翻译站点

2周前发布 133 0 0

Meta推出的全球首款支持文本、视觉、时间提示的统一多模态音频分离模型,可精准从复杂音视频中分离目标声音。

语言:
en
收录时间:
2026-01-08
SAM AudioSAM Audio

SAM Audio是什么?

SAM Audio 是由 Meta 推出的全球首款统一多模态音频分离模型,通过融合文本、视觉及时间维度提示,实现对复杂音频场景的智能解析与交互式提取。其核心目标是让用户能够像“用眼睛聆听”一样,从混合音频或视频中精准分离出特定目标声音,例如点击画面中的乐器、输入文字描述声源,或标记时间片段,均可一键完成操作。

SAM Audio的主要功能

  1. 多模态提示支持
    • 文本提示:用户可通过自然语言描述(如“狗吠”“人声演唱”)指定目标声音,系统自动提取对应声源。
    • 视觉提示:在视频画面中点击发声物体(如说话者、敲鼓的手),系统即分离其音频。
    • 时间片段提示:标记目标声音出现的时间区间(如“3分12秒到3分18秒”),模型自动处理整段录音中的同类声音。
  2. 高精度音频分离
    • 从复杂音频环境中精确提取目标声音,同时生成剩余音轨。
    • 在通用音频分离任务中表现优于现有技术,尤其在乐器分离和说话者分离等专业领域展现卓越性能。
  3. 灵活的应用场景
    • 支持音频清理、背景噪声移除、音乐制作、音效处理及无障碍技术等多种场景。

SAM Audio的核心技术

  1. 感知编码器视听(PE-AV)引擎
    • 基于 Meta 开源的 Perception Encoder 计算机视觉模型扩展而来,首次将高级视觉理解能力与音频信号深度融合。
    • 通过在精确时间点上对齐视频帧与音频,提供语义丰富的特征表示,实现跨模态的声音定位与分离。
  2. 生成式建模框架
    • 采用基于流匹配扩散 Transformer 的生成式框架,结合 DAC-VAE 编码器,将音频压缩成紧凑表示,同时保持音质。
    • 训练数据涵盖语音、音乐和通用声音事件,通过自动音频混合流程和多模态提示生成,确保模型在真实环境中的鲁棒性。
  3. 时间段编码创新
    • 首创时间段编码功能,将时间信息转换成类似文字序列的表示方法,每个时间点被标记为“活跃”或“静默”。
    • 使 AI 能够精确理解用户指定的时间信息,实现 frame 级别的精确控制。

SAM Audio的使用场景

  1. 音频清理与背景噪声移除
    • 播客创作者可轻松去除录制中的狗吠、街道噪音等背景声,提升音频清晰度。
    • 通过文本描述或时间标记即可实现灵活操作,为音频编辑带来高效便捷的体验。
  2. 创意媒体制作
    • 音乐制作人和视频创作者可利用 SAM Audio 进行创意音频处理。
    • 从歌曲中提取特定乐器音轨或分离人声,实现音频重新混音或特效添加。
    • 通过视觉提示点击视频中的吉他手,即可提取吉他声,为创意表达提供更多可能性。
  3. 无障碍技术
    • 与助听器制造商合作,通过音频分离技术帮助听力受损人群更好地理解音频内容。
    • 在嘈杂环境中,助听器可自动分离出人声,让听力障碍者更清晰地听到对话,提升其生活和社交质量。
  4. 视频编辑
    • 在视频制作中,SAM Audio 可精准分离特定对象的声音。
    • 编辑人员可通过视觉提示点击视频中的特定人物或物体,提取其声音,实现音频与视频的精准匹配。
    • 例如提取视频中演讲者的声音,同时移除其他杂音,让视频内容更清晰、更具吸引力。

SAM Audio的项目地址

  • 项目官网:https://ai.meta.com/samaudio/
  • Github仓库:https://github.com/facebookresearch/sam-audio

推荐理由

  1. 技术创新性
    • SAM Audio 是全球首款统一多模态音频分离模型,首次将人类自然感知声音的方式——看、说、指、选——完整复刻到 AI 系统中。
    • 其感知编码器视听(PE-AV)引擎实现了跨模态的声音定位与分离,为音频处理开辟了全新路径。
  2. 功能强大且灵活
    • 支持文本、视觉及时间片段三种提示方式,可单独或组合使用,满足不同场景下的音频分离需求。
    • 高精度音频分离能力在多种专业领域展现卓越性能,如乐器分离和说话者分离等。
  3. 应用场景广泛
    • 适用于音频清理、背景噪声移除、音乐制作、音效处理及无障碍技术等多种场景。
    • 可为音乐创作者、播客编辑人员、影视制作人员及科研人员等提供高效便捷的音频处理工具。
  4. 开源与社区支持
    • Meta 同步开源了 SAM Audio-Bench 和 SAM Audio Judge 两大关键工具,为行业提供了统一的评估标准和自动评测模型。
    • 开源特性意味着开发者可基于此构建多样化的“视听联觉”应用,推动音频处理技术的迭代与落地应用。

数据统计

相关导航

暂无评论

none
暂无评论...