SAM Audio翻译站点

2周前发布 133 0 0

Meta推出的全球首款支持文本、视觉、时间提示的统一多模态音频分离模型，可精准从复杂音视频中分离目标声音。

语言：

en

收录时间：

2026-01-08

打开网站手机查看

AI声音分离开源项目最新收录 # 音频分离

SAM Audio

SAM Audio

SAM Audio是什么？

SAM Audio 是由 Meta 推出的全球首款统一多模态音频分离模型，通过融合文本、视觉及时间维度提示，实现对复杂音频场景的智能解析与交互式提取。其核心目标是让用户能够像“用眼睛聆听”一样，从混合音频或视频中精准分离出特定目标声音，例如点击画面中的乐器、输入文字描述声源，或标记时间片段，均可一键完成操作。

SAM Audio的主要功能

多模态提示支持：
- 文本提示：用户可通过自然语言描述（如“狗吠”“人声演唱”）指定目标声音，系统自动提取对应声源。
- 视觉提示：在视频画面中点击发声物体（如说话者、敲鼓的手），系统即分离其音频。
- 时间片段提示：标记目标声音出现的时间区间（如“3分12秒到3分18秒”），模型自动处理整段录音中的同类声音。
高精度音频分离：
- 从复杂音频环境中精确提取目标声音，同时生成剩余音轨。
- 在通用音频分离任务中表现优于现有技术，尤其在乐器分离和说话者分离等专业领域展现卓越性能。
灵活的应用场景：
- 支持音频清理、背景噪声移除、音乐制作、音效处理及无障碍技术等多种场景。

SAM Audio的核心技术

感知编码器视听（PE-AV）引擎：
- 基于 Meta 开源的 Perception Encoder 计算机视觉模型扩展而来，首次将高级视觉理解能力与音频信号深度融合。
- 通过在精确时间点上对齐视频帧与音频，提供语义丰富的特征表示，实现跨模态的声音定位与分离。
生成式建模框架：
- 采用基于流匹配扩散 Transformer 的生成式框架，结合 DAC-VAE 编码器，将音频压缩成紧凑表示，同时保持音质。
- 训练数据涵盖语音、音乐和通用声音事件，通过自动音频混合流程和多模态提示生成，确保模型在真实环境中的鲁棒性。
时间段编码创新：
- 首创时间段编码功能，将时间信息转换成类似文字序列的表示方法，每个时间点被标记为“活跃”或“静默”。
- 使 AI 能够精确理解用户指定的时间信息，实现 frame 级别的精确控制。

SAM Audio的使用场景

音频清理与背景噪声移除：
- 播客创作者可轻松去除录制中的狗吠、街道噪音等背景声，提升音频清晰度。
- 通过文本描述或时间标记即可实现灵活操作，为音频编辑带来高效便捷的体验。
创意媒体制作：
- 音乐制作人和视频创作者可利用 SAM Audio 进行创意音频处理。
- 从歌曲中提取特定乐器音轨或分离人声，实现音频重新混音或特效添加。
- 通过视觉提示点击视频中的吉他手，即可提取吉他声，为创意表达提供更多可能性。
无障碍技术：
- 与助听器制造商合作，通过音频分离技术帮助听力受损人群更好地理解音频内容。
- 在嘈杂环境中，助听器可自动分离出人声，让听力障碍者更清晰地听到对话，提升其生活和社交质量。
视频编辑：
- 在视频制作中，SAM Audio 可精准分离特定对象的声音。
- 编辑人员可通过视觉提示点击视频中的特定人物或物体，提取其声音，实现音频与视频的精准匹配。
- 例如提取视频中演讲者的声音，同时移除其他杂音，让视频内容更清晰、更具吸引力。

SAM Audio的项目地址

项目官网：https://ai.meta.com/samaudio/
Github仓库：https://github.com/facebookresearch/sam-audio

推荐理由

技术创新性：
- SAM Audio 是全球首款统一多模态音频分离模型，首次将人类自然感知声音的方式——看、说、指、选——完整复刻到 AI 系统中。
- 其感知编码器视听（PE-AV）引擎实现了跨模态的声音定位与分离，为音频处理开辟了全新路径。
功能强大且灵活：
- 支持文本、视觉及时间片段三种提示方式，可单独或组合使用，满足不同场景下的音频分离需求。
- 高精度音频分离能力在多种专业领域展现卓越性能，如乐器分离和说话者分离等。
应用场景广泛：
- 适用于音频清理、背景噪声移除、音乐制作、音效处理及无障碍技术等多种场景。
- 可为音乐创作者、播客编辑人员、影视制作人员及科研人员等提供高效便捷的音频处理工具。
开源与社区支持：
- Meta 同步开源了 SAM Audio-Bench 和 SAM Audio Judge 两大关键工具，为行业提供了统一的评估标准和自动评测模型。
- 开源特性意味着开发者可基于此构建多样化的“视听联觉”应用，推动音频处理技术的迭代与落地应用。

数据统计

相关导航

GPT-SoVITS

开源声音克隆工具，专注于实现高质量、跨语言的声音（尤其是歌声）转换。

SpeciesNet

谷歌开源的一款利用人工智能技术分析相机陷阱照片以自动识别动物物种的模型。

Nemotron 3

英伟达推出的开源AI模型系列，含Nano、Super、Ultra三规格，专为智能体应用设计，高效精准。

昇思MindSpore

华为推出的全场景深度学习框架，旨在提供易开发、高效执行的全栈AI能力，支持从数据加载、模型构建到训练、评估与部署的完整流程。

书生·浦语

上海AI实验室主导推出的全面大模型研究与开发平台，提供高效工具链和丰富应用场景，支持多模态数据处理与分析。

PromptEnhancer

腾讯开源的中文文本到图像提示词增强框架，可优化用户输入的 prompt，提高生成模型的图像质量和语义准确性。

HunyuanWorld-Voyager

HunyuanWorld-Voyager

腾讯推出的业界首个支持原生3D重建与超长漫游的开源世界模型，可基于单图或文本快速生成可交互的沉浸式3D场景。

Dify AI

新一代大型语言模型应用开发框架，轻松构建和运营生成式 AI 原生应用。

暂无评论

none

暂无评论...