TempGo
发布于 2025-12-18 / 9 阅读
0
0

Meta 开源重磅:SAM-Audio,让音频分割像“指哪打哪”一样简单!

想象一下,你在录制一个户外视频:风声呼啸、鸟儿鸣叫、远处车水马龙,还有你自己的解说声混杂在一起。后期想单独提取人声?或者去除背景噪音?传统方法往往需要专业软件、复杂参数调整,甚至训练专属模型,费时费力。

现在,Meta(Facebook)研究团队带来了革命性解决方案——SAM-Audio(Segment Anything Model for Audio),这是一个开源的基础模型,能像视觉领域的“Segment Anything”一样,通过简单提示(prompt)从复杂音频混合中隔离任意声音!

应用场景:音频编辑的“神器”时代来临

SAM-Audio 的出现,完美解决了音频分离的痛点,适用于多种真实场景:

  • 内容创作:视频博主、播客制作者可以轻松去除环境噪音、提取人声或背景音乐,提升作品专业度。

  • 音乐制作:从混音中分离特定乐器(如鼓点、贝斯),便于 remixing 或学习参考。

  • 无障碍应用:为听障人士增强特定声音(如演讲声),或在嘈杂环境中突出关键音频。

  • 影视后期:快速隔离对话、音效或环境声,结合视频帧甚至可以用视觉提示分离发声物体。

  • 研究与开发:多模态 AI 应用,如智能助手更好地理解音频-视觉关联。

它特别适合真实世界音频——那些充满重叠、噪音和多源的复杂混合,而非实验室干净数据。

项目介绍:Meta 的音频“Segment Anything”

SAM-Audio 是 Meta Segment Anything 系列的最新成员,将视觉分割的“提示式”理念扩展到音频领域。2025 年 12 月刚刚开源发布,它是首个统一的的多模态音频分离模型,支持三种提示方式:

  1. 文本提示:用自然语言描述声音,例如“A man speaking”(一个男人说话)或“A horn honking”(喇叭声)。

  2. 视觉提示:输入视频帧 + 掩码(可结合 SAM3 生成),隔离视觉物体发出的声音(如点击视频中吉他,提取吉他声)。

  3. 时间跨度提示:指定声音出现的时间段(如 6.3-7.0 秒),帮助模型精准锁定短暂或模糊声音。

模型输出两个波形:目标声音(target)和剩余声音(residual),直接用于编辑(如删除噪音或提取音轨)。Meta 发布了多个尺寸模型:

  • small、base、large(越大性能越强)

  • 额外视觉优化版(-tv 后缀),在视频提示下表现更好。

主观评估显示,large 模型在音乐、乐器和演讲分离上得分最高,整体领先现有工具。

使用超级简单(Python 示例):

from sam_audio import SAMAudio, SAMAudioProcessor
import torchaudio

model = SAMAudio.from_pretrained("facebook/sam-audio-large")
processor = SAMAudioProcessor.from_pretrained("facebook/sam-audio-large")
model = model.eval().cuda()

file = "<audio file>" # audio file path or torch tensor
description = "<description>"

batch = processor(
    audios=[file],
    descriptions=[description],
).to("cuda")

result = model.separate(batch)

# Save separated audio
sample_rate = processor.audio_sampling_rate
torchaudio.save("target.wav", result.target.cpu(), sample_rate)      # The isolated sound
torchaudio.save("residual.wav", result.residual.cpu(), sample_rate)  # Everything else

仓库还提供示例 notebook,支持视觉和时间提示。

与其他产品的对比

为什么 SAM-Audio 更胜一筹?传统音频分离工具往往“碎片化”:

  • Spleeter / Demucs:优秀开源音频分离(如人声/伴奏),但固定类别,无法处理任意声音或自定义描述。

  • Ultimate Vocal Remover (UVR):社区流行,针对人声/乐器,但依赖预训练固定模型,不支持文本/视觉提示。

  • 商业工具(如 iZotope RX):强大但付费、专业门槛高,不开源。

  • 其他开源(如 Open-Unmix):专攻音乐源分离,泛化能力弱,无法处理野生音频或多模态。

SAM-Audio 的优势:

  • 统一模型:一个模型搞定文本、视觉、时间三种提示,无需切换工具。

  • 开放词汇:支持任意自然语言描述,不限预定义类别。

  • 多模态:唯一支持视频视觉提示的音频分离模型。

  • 真实世界性能:在复杂、重叠声音上领先,Meta 评估显示优于单用途工具。

  • 开源免费:代码 + 权重开放(需 Hugging Face 申请访问),社区可二次开发。

简而言之,它把音频分离从“专业技能”变成“人人可用”的提示工程!

最后,奉上开源地址:https://github.com/facebookresearch/sam-audio


评论