安全研究者 John Scott-Railton(jsrailton)近日转述了 SocketSecurity 的一个案例:有恶意软件开发者在间谍软件中加入核武器、生物武器相关文本,试图触发大模型的安全拒答机制,让基于 LLM 的安全扫描器停下分析。
这个点反常在于,攻击者瞄准的不是模型“不会分析代码”,而是模型“太快说不”。当恶意代码分析、依赖包审计和安全扫描开始接入 LLM,拒答策略本身也会被当成攻击面研究。
这不能说明所有 AI 安全扫描器都会被绕过,也不能推导成大模型安全机制整体失败。更准确的说法是:过度依赖一阶拒答,可能在网络安全场景里制造二阶盲区。
恶意软件利用的是拒答流程,不是武器内容
SocketSecurity 相关案例的事实锚点很清楚:样本把敏感武器主题文本混入恶意内容。Railton 的解读是,这种设计意在让模型把分析请求误判为危险请求,从而拒绝输出分析结果。
重点不是“样本里出现了武器文本”。重点是这些文本被放进了恶意软件分析链路里,变成一种提示操纵。
受影响的不是普通聊天用户,而是把 LLM 接进安全工作的系统。包括恶意软件逆向辅助工具、自动化代码审计流水线,以及面向开源依赖包的安全扫描服务。
这些系统常见的做法,是把可疑代码、配置、README、包内字符串交给模型,让模型总结行为、识别风险、生成告警。攻击者如果能让模型在这里拒答,扫描链路就可能断在最不该断的位置。
| 场景 | 原本要解决的问题 | LLM 引入后的新变量 | 更现实的影响 |
|---|---|---|---|
| 恶意软件分析 | 混淆、隐藏载荷、行为判断 | 样本文本诱发拒答 | 分析中断,需人工接手 |
| 代码审计 | 后门、依赖投毒、可疑逻辑 | 注释或文本污染上下文 | 告警不稳定,漏看风险 |
| 安全扫描器 | 规则漏报、样本变种 | 模型按安全策略停止回答 | 需要兜底流程,不能直接放行 |
成熟安全产品通常不会只靠一次 LLM 输出做判断。静态规则、沙箱、行为检测、人工复核仍然重要。
所以这个案例的警示不在“AI 扫描失效”。它说明,只要系统把拒答当成“无法处理”而不是“高风险信号”,攻击者就拿到了一条低成本路径。
一阶安全拒答会带来二阶盲区
大模型拒答机制本来是为了降低直接危害。比如不帮助用户生成武器说明、恶意代码教程或欺诈话术。这是必要的。
但安全分析有一个天然矛盾:防御者经常要处理危险材料。
病毒样本、漏洞利用代码、钓鱼页面、勒索信、恶意包说明,都可能包含普通问答场景里不该展开的内容。如果模型只看字面风险,不看分析意图,就会把防御性请求和攻击性请求混在一起。
这就是一阶安全和二阶安全的冲突。
一阶安全问的是:模型有没有帮助用户做坏事。二阶安全还要问:模型的安全策略会不会被坏人拿来阻止防御者工作。
闭源模型和开源模型都可能遇到类似盲区,只是表现不同。
| 模型路线 | 优势 | 可能的盲区 | 安全团队要补的环节 |
|---|---|---|---|
| 闭源模型 | 统一安全策略较强,托管能力成熟 | 拒答逻辑不透明,难解释误拒原因 | 记录拒答原因,准备替代分析链路 |
| 开源模型 | 可本地部署、可微调、便于接入内网流程 | 安全模板可能粗糙,微调后边界不稳 | 建立专用安全分析策略和评测集 |
这里有一个现实约束:不能为了防御分析,就让模型无条件回答所有敏感内容。那会把另一个风险放大。
更合理的方向是分层。普通用户请求、授权安全研究、自动化样本分析,不能共用一把粗粒度的拒答尺子。
反病毒行业早年也遇到过类似逻辑。攻击者不一定要击穿所有检测能力,只要找到检测流程里最容易停下来的环节。过去可能是加壳、混淆、动态载荷;现在多了一个被训练成谨慎的模型。
安全团队要把拒答当成告警,而不是终点
对 AI 安全与模型治理团队来说,这件事意味着一项具体工作:把“防御性安全分析”单独建模。不能只用通用内容安全策略覆盖所有场景。
更具体一点,模型治理团队需要看三类指标:拒答率、拒答原因、拒答后的处置。尤其是第三项。拒答之后系统是转人工、换模型、降级到规则引擎,还是直接停止扫描,差别很大。
对网络安全分析和恶意软件检测团队来说,动作更直接:不要把 LLM 放在唯一判定点上。采购或上线相关工具时,应该追问供应商一件事:模型拒答后,样本会被怎么处理。
如果答案只是“无法分析”,这类工具就不适合放在自动放行链路里。更稳妥的做法,是延后接入核心流水线,先放到旁路环境评估误拒和漏报。
可执行的流程大致应包括几层:
- 先用静态规则、哈希、包结构、依赖关系和沙箱行为做底层判断;
- 再让 LLM 在受控格式里解释风险,而不是让样本文本直接主导对话;
- 一旦模型拒答、输出异常或被样本内容牵引,应触发人工复核、替代模型或专门的安全分析模式;
- 对代码注释、README、字符串、伪造系统提示降低指令权重,把它们当样本材料,而不是当系统命令。
这件事也会改变采购和评测方式。以前评测 AI 安全扫描器,很多团队盯着检出率、误报率、报告可读性。现在还要加一项:面对提示操纵和敏感文本污染时,系统是不是会安静地停掉。
目前公开材料没有给出感染规模、受害者数量或经济损失。不能把这个案例夸大成大规模绕过。
更该看的变量有三个:安全厂商是否公开拒答后的兜底机制;模型厂商是否提供更细的防御性安全分析策略;企业安全团队是否把提示注入纳入恶意样本评测,而不是只当聊天机器人问题。
回到开头那个反常点:攻击者把武器文本塞进恶意软件,不一定是为了让人读武器内容,而是为了让模型闭嘴。安全系统真正危险的时刻,不是模型说“不”的那一秒,而是流程也跟着停下来的那一秒。
