Meta 开源重磅：SAM-Audio，让音频分割像“指哪打哪”一样简单！

想象一下，你在录制一个户外视频：风声呼啸、鸟儿鸣叫、远处车水马龙，还有你自己的解说声混杂在一起。后期想单独提取人声？或者去除背景噪音？传统方法往往需要专业软件、复杂参数调整，甚至训练专属模型，费时费力。

现在，Meta（Facebook）研究团队带来了革命性解决方案——SAM-Audio（Segment Anything Model for Audio），这是一个开源的基础模型，能像视觉领域的“Segment Anything”一样，通过简单提示（prompt）从复杂音频混合中隔离任意声音！

应用场景：音频编辑的“神器”时代来临

SAM-Audio 的出现，完美解决了音频分离的痛点，适用于多种真实场景：

内容创作：视频博主、播客制作者可以轻松去除环境噪音、提取人声或背景音乐，提升作品专业度。
音乐制作：从混音中分离特定乐器（如鼓点、贝斯），便于 remixing 或学习参考。
无障碍应用：为听障人士增强特定声音（如演讲声），或在嘈杂环境中突出关键音频。
影视后期：快速隔离对话、音效或环境声，结合视频帧甚至可以用视觉提示分离发声物体。
研究与开发：多模态 AI 应用，如智能助手更好地理解音频-视觉关联。

它特别适合真实世界音频——那些充满重叠、噪音和多源的复杂混合，而非实验室干净数据。

项目介绍：Meta 的音频“Segment Anything”

SAM-Audio 是 Meta Segment Anything 系列的最新成员，将视觉分割的“提示式”理念扩展到音频领域。2025 年 12 月刚刚开源发布，它是首个统一的的多模态音频分离模型，支持三种提示方式：

文本提示：用自然语言描述声音，例如“A man speaking”（一个男人说话）或“A horn honking”（喇叭声）。
视觉提示：输入视频帧 + 掩码（可结合 SAM3 生成），隔离视觉物体发出的声音（如点击视频中吉他，提取吉他声）。
时间跨度提示：指定声音出现的时间段（如 6.3-7.0 秒），帮助模型精准锁定短暂或模糊声音。

模型输出两个波形：目标声音（target）和剩余声音（residual），直接用于编辑（如删除噪音或提取音轨）。Meta 发布了多个尺寸模型：

small、base、large（越大性能越强）
额外视觉优化版（-tv 后缀），在视频提示下表现更好。

主观评估显示，large 模型在音乐、乐器和演讲分离上得分最高，整体领先现有工具。

使用超级简单（Python 示例）：

from sam_audio import SAMAudio, SAMAudioProcessor
import torchaudio

model = SAMAudio.from_pretrained("facebook/sam-audio-large")
processor = SAMAudioProcessor.from_pretrained("facebook/sam-audio-large")
model = model.eval().cuda()

file = "<audio file>" # audio file path or torch tensor
description = "<description>"

batch = processor(
    audios=[file],
    descriptions=[description],
).to("cuda")

result = model.separate(batch)

# Save separated audio
sample_rate = processor.audio_sampling_rate
torchaudio.save("target.wav", result.target.cpu(), sample_rate)      # The isolated sound
torchaudio.save("residual.wav", result.residual.cpu(), sample_rate)  # Everything else

仓库还提供示例 notebook，支持视觉和时间提示。

与其他产品的对比

为什么 SAM-Audio 更胜一筹？传统音频分离工具往往“碎片化”：

Spleeter / Demucs：优秀开源音频分离（如人声/伴奏），但固定类别，无法处理任意声音或自定义描述。
Ultimate Vocal Remover (UVR)：社区流行，针对人声/乐器，但依赖预训练固定模型，不支持文本/视觉提示。
商业工具（如 iZotope RX）：强大但付费、专业门槛高，不开源。
其他开源（如 Open-Unmix）：专攻音乐源分离，泛化能力弱，无法处理野生音频或多模态。

SAM-Audio 的优势：

统一模型：一个模型搞定文本、视觉、时间三种提示，无需切换工具。
开放词汇：支持任意自然语言描述，不限预定义类别。
多模态：唯一支持视频视觉提示的音频分离模型。
真实世界性能：在复杂、重叠声音上领先，Meta 评估显示优于单用途工具。
开源免费：代码 + 权重开放（需 Hugging Face 申请访问），社区可二次开发。

简而言之，它把音频分离从“专业技能”变成“人人可用”的提示工程！

最后，奉上开源地址：https://github.com/facebookresearch/sam-audio

菜单

分享

Meta 开源重磅：SAM-Audio，让音频分割像“指哪打哪”一样简单！

应用场景：音频编辑的“神器”时代来临

项目介绍：Meta 的音频“Segment Anything”

与其他产品的对比

评论

12个免费虚拟手机号平台：注册免烦恼，一键即可接码！

2025年最新国外接码平台推荐（免费+付费）

让你的 Cursor 变得和 JetBrains IDEs 一样好用

AI智能体（AI Agent）最常用框架总结

Spring AI 参数配置详解，效果提升立竿见影

微服务正在悄然消亡：这是一件美好的事

代码量减半！SpringBoot 4.0 的 BeanRegistrar 到底有多香？

Spring Cloud 2025.1 (Oakwood) 正式发布：做减法，轻量化

三个 Cursor 实用 MCP 推荐

Java 25 vs Scala: 为什么 Scala 领先了 20 年