想象一下,你在录制一个户外视频:风声呼啸、鸟儿鸣叫、远处车水马龙,还有你自己的解说声混杂在一起。后期想单独提取人声?或者去除背景噪音?传统方法往往需要专业软件、复杂参数调整,甚至训练专属模型,费时费力。
现在,Meta(Facebook)研究团队带来了革命性解决方案——SAM-Audio(Segment Anything Model for Audio),这是一个开源的基础模型,能像视觉领域的“Segment Anything”一样,通过简单提示(prompt)从复杂音频混合中隔离任意声音!
应用场景:音频编辑的“神器”时代来临
SAM-Audio 的出现,完美解决了音频分离的痛点,适用于多种真实场景:
内容创作:视频博主、播客制作者可以轻松去除环境噪音、提取人声或背景音乐,提升作品专业度。
音乐制作:从混音中分离特定乐器(如鼓点、贝斯),便于 remixing 或学习参考。
无障碍应用:为听障人士增强特定声音(如演讲声),或在嘈杂环境中突出关键音频。
影视后期:快速隔离对话、音效或环境声,结合视频帧甚至可以用视觉提示分离发声物体。
研究与开发:多模态 AI 应用,如智能助手更好地理解音频-视觉关联。
它特别适合真实世界音频——那些充满重叠、噪音和多源的复杂混合,而非实验室干净数据。
项目介绍:Meta 的音频“Segment Anything”
SAM-Audio 是 Meta Segment Anything 系列的最新成员,将视觉分割的“提示式”理念扩展到音频领域。2025 年 12 月刚刚开源发布,它是首个统一的的多模态音频分离模型,支持三种提示方式:
文本提示:用自然语言描述声音,例如“A man speaking”(一个男人说话)或“A horn honking”(喇叭声)。
视觉提示:输入视频帧 + 掩码(可结合 SAM3 生成),隔离视觉物体发出的声音(如点击视频中吉他,提取吉他声)。
时间跨度提示:指定声音出现的时间段(如 6.3-7.0 秒),帮助模型精准锁定短暂或模糊声音。
模型输出两个波形:目标声音(target)和剩余声音(residual),直接用于编辑(如删除噪音或提取音轨)。Meta 发布了多个尺寸模型:
small、base、large(越大性能越强)
额外视觉优化版(-tv 后缀),在视频提示下表现更好。
主观评估显示,large 模型在音乐、乐器和演讲分离上得分最高,整体领先现有工具。
使用超级简单(Python 示例):
from sam_audio import SAMAudio, SAMAudioProcessor
import torchaudio
model = SAMAudio.from_pretrained("facebook/sam-audio-large")
processor = SAMAudioProcessor.from_pretrained("facebook/sam-audio-large")
model = model.eval().cuda()
file = "<audio file>" # audio file path or torch tensor
description = "<description>"
batch = processor(
audios=[file],
descriptions=[description],
).to("cuda")
result = model.separate(batch)
# Save separated audio
sample_rate = processor.audio_sampling_rate
torchaudio.save("target.wav", result.target.cpu(), sample_rate) # The isolated sound
torchaudio.save("residual.wav", result.residual.cpu(), sample_rate) # Everything else仓库还提供示例 notebook,支持视觉和时间提示。
与其他产品的对比
为什么 SAM-Audio 更胜一筹?传统音频分离工具往往“碎片化”:
Spleeter / Demucs:优秀开源音频分离(如人声/伴奏),但固定类别,无法处理任意声音或自定义描述。
Ultimate Vocal Remover (UVR):社区流行,针对人声/乐器,但依赖预训练固定模型,不支持文本/视觉提示。
商业工具(如 iZotope RX):强大但付费、专业门槛高,不开源。
其他开源(如 Open-Unmix):专攻音乐源分离,泛化能力弱,无法处理野生音频或多模态。
SAM-Audio 的优势:
统一模型:一个模型搞定文本、视觉、时间三种提示,无需切换工具。
开放词汇:支持任意自然语言描述,不限预定义类别。
多模态:唯一支持视频视觉提示的音频分离模型。
真实世界性能:在复杂、重叠声音上领先,Meta 评估显示优于单用途工具。
开源免费:代码 + 权重开放(需 Hugging Face 申请访问),社区可二次开发。
简而言之,它把音频分离从“专业技能”变成“人人可用”的提示工程!