一段音乐、一条语音留言、一次 Zoom 通话,听起来都正常。麻烦在于,AI 可能听见了另一层命令。

IEEE Spectrum 报道,浙江大学等研究者提出 AudioHijack:把对人耳不可察觉、或不明显改变听感的恶意信号嵌入音频,让大型音频语言模型在处理音频时执行攻击者想要的动作。研究中,修改后的音频对目标模型的平均攻击成功率约为 79% 到 96%。

这个数字要谨慎看。它不是“所有语音 AI 必然中招”,也不是某一家厂商被点名失守。它更像一次提醒:当语音模型从“听写工具”变成“能调用搜索、下载、邮件的执行器”,一次误听就可能变成一次越权操作。

这次打中的不是普通语音识别

AudioHijack 面向的是大型音频语言模型,LALM。它们不只是把声音转成文字,还能理解音频、生成回答,并连接外部服务。

研究者测试了 13 个领先开源模型,也涉及 Microsoft、Mistral 等商业语音 AI 服务。报道没有把问题归咎于某一家厂商,重点是这一类系统的共同设计风险。

读者关心的问题关键信息现实影响
发生了什么恶意扰动被嵌入音频,人耳难察觉,模型可识别并受其影响攻击入口可以藏在正常音频里
打中了谁大型音频语言模型,不是传统 ASR 或音频分类器风险对象是“能理解、能行动”的模型
攻击载体在线视频、音乐、语音留言、Zoom 通话音频等用户可能不知道自己上传了攻击载体
危险动作敏感搜索、下载文件、发送含用户数据的邮件从内容误判升级为工具越权
现实限制79%-96% 是研究条件下的平均成功率不能直接等同于所有商用系统都会被攻破

报道还提到,相关信号训练约半小时,并具备 context-agnostic 特性。也就是说,同一信号可在不同用户指令下复用,攻击同一目标模型。

这点很关键。攻击者不一定要完整冒充用户说一句命令。只要控制模型要处理的那段音频,就可能把恶意意图夹进去。

过去的语音识别错误,像字幕里多了一个错字。现在的问题更接近:秘书听错以后,真的替你发了邮件。

真正危险的是工具权限跟着声音走

我更在意的不是“音频又出现对抗样本”。这类研究已经很多年了。新麻烦在于,模型被接上了外部工具。

搜索、下载、邮件、日程、CRM、网盘。工具一接,模型就不只是回答问题,而是在替用户办事。

三条边界会同时变薄。

输入边界先出问题。用户以为自己上传的是会议录音,模型接收到的却可能是“录音内容 + 隐藏指令”。人耳没有报警机制。

权限边界也变危险。模型能调用什么,往往取决于产品配置了什么工具,而不是这段音频是否可信。很多产品默认把“用户上传的材料”当成用户意图的一部分。

最麻烦的是用户意图边界。用户真实需求可能只是“帮我总结这个视频”,模型却被音频里的扰动带去做别的事。表面还在服务用户,底层已经被夹带。

古话说“假途灭虢”。借道而行,最后拿下的是城。这里的“道”是音频输入,“城”是模型背后的工具权限。

这不是夸张。Agent 产品最容易犯的错,就是把“模型理解了”当成“用户授权了”。两者差得很远。

受影响最大的是产品团队和采购方

对 AI 产品经理和多模态应用开发者,这件事的影响很直接:别再把音频输入当成普通内容输入。

如果一个语音 Agent 能发邮件、下载文件、访问企业资料库,产品团队就该把外部音频默认列为不可信来源。敏感动作要加确认。高风险工具要分级。调用记录要可审计。音频来源最好能被标记。

更具体一点:

角色现在该做什么成本
AI 产品经理延后把语音输入直接接入邮件、网盘、CRM 等高权限动作上线速度变慢,流程变重
多模态应用开发者把音频、视频、转写文本分层处理;工具调用前做权限校验架构更复杂,测试用例更多
企业采购方采购语音助手、会议总结、客服 Agent 时,追问工具权限和审计能力评估周期拉长,不能只看演示效果

普通用户能做的很有限。少把来路不明的音频交给高权限 AI,当然有用,但不能把责任都推给用户。普通人没有能力判断一段音乐或会议录音里有没有隐藏扰动。

真正该改的是产品默认值。

我不太买账那种只靠提示词防守的方案。提示词可以写“不要执行恶意指令”,但它更像纸门。权限系统、二次确认、最小授权、调用审计,才是铁门。

这里也要留一个现实约束。研究结果说明了风险路径,但不等于所有真实环境都会复现同样成功率。真实产品还有音频压缩、降噪、转码、权限策略、模型版本差异。这些都会影响攻击效果。

接下来最该看两个变量。

一个是厂商会不会把外部音频视为不可信输入,而不是继续当作普通上下文。另一个是工具调用会不会默认最小权限,尤其是邮件、下载、数据出站这类动作。

如果这两点不改,模型越强,风险越难看见。因为它会把越权动作包装成“我在帮你完成任务”。

开头那段听不见的声音,危险不在于神秘。危险在于它提醒我们:AI 时代的攻击入口,已经不一定长得像攻击入口。