恶意软件把武器文本塞进代码：AI 拒答可能变成安全扫描盲区

核心摘要 Summary

据 John Scott-Railton（jsrailton）转述的 SocketSecurity 案例，有间谍软件把核武器、生物武器相关文本混入样本，目的更像是诱发 LLM 拒答，而不是传播武器知识。
真正的风险不在这些文本本身，而在安全扫描系统如果把“拒答”当成分析终点，攻击者就多了一个逃逸面。
对 AI 安全和恶意软件检测团队来说，关键动作是重做拒答后的处置流程，而不是简单要求模型更敢答或更会拒。

安全研究者 John Scott-Railton（jsrailton）近日转述了 SocketSecurity 的一个案例：有恶意软件开发者在间谍软件中加入核武器、生物武器相关文本，试图触发大模型的安全拒答机制，让基于 LLM 的安全扫描器停下分析。

这个点反常在于，攻击者瞄准的不是模型“不会分析代码”，而是模型“太快说不”。当恶意代码分析、依赖包审计和安全扫描开始接入 LLM，拒答策略本身也会被当成攻击面研究。

这不能说明所有 AI 安全扫描器都会被绕过，也不能推导成大模型安全机制整体失败。更准确的说法是：过度依赖一阶拒答，可能在网络安全场景里制造二阶盲区。

恶意软件利用的是拒答流程，不是武器内容

SocketSecurity 相关案例的事实锚点很清楚：样本把敏感武器主题文本混入恶意内容。Railton 的解读是，这种设计意在让模型把分析请求误判为危险请求，从而拒绝输出分析结果。

重点不是“样本里出现了武器文本”。重点是这些文本被放进了恶意软件分析链路里，变成一种提示操纵。

受影响的不是普通聊天用户，而是把 LLM 接进安全工作的系统。包括恶意软件逆向辅助工具、自动化代码审计流水线，以及面向开源依赖包的安全扫描服务。

这些系统常见的做法，是把可疑代码、配置、README、包内字符串交给模型，让模型总结行为、识别风险、生成告警。攻击者如果能让模型在这里拒答，扫描链路就可能断在最不该断的位置。

场景	原本要解决的问题	LLM 引入后的新变量	更现实的影响
恶意软件分析	混淆、隐藏载荷、行为判断	样本文本诱发拒答	分析中断，需人工接手
代码审计	后门、依赖投毒、可疑逻辑	注释或文本污染上下文	告警不稳定，漏看风险
安全扫描器	规则漏报、样本变种	模型按安全策略停止回答	需要兜底流程，不能直接放行

成熟安全产品通常不会只靠一次 LLM 输出做判断。静态规则、沙箱、行为检测、人工复核仍然重要。

所以这个案例的警示不在“AI 扫描失效”。它说明，只要系统把拒答当成“无法处理”而不是“高风险信号”，攻击者就拿到了一条低成本路径。

大模型拒答机制本来是为了降低直接危害。比如不帮助用户生成武器说明、恶意代码教程或欺诈话术。这是必要的。

但安全分析有一个天然矛盾：防御者经常要处理危险材料。

病毒样本、漏洞利用代码、钓鱼页面、勒索信、恶意包说明，都可能包含普通问答场景里不该展开的内容。如果模型只看字面风险，不看分析意图，就会把防御性请求和攻击性请求混在一起。

这就是一阶安全和二阶安全的冲突。

一阶安全问的是：模型有没有帮助用户做坏事。二阶安全还要问：模型的安全策略会不会被坏人拿来阻止防御者工作。

闭源模型和开源模型都可能遇到类似盲区，只是表现不同。

模型路线	优势	可能的盲区	安全团队要补的环节
闭源模型	统一安全策略较强，托管能力成熟	拒答逻辑不透明，难解释误拒原因	记录拒答原因，准备替代分析链路
开源模型	可本地部署、可微调、便于接入内网流程	安全模板可能粗糙，微调后边界不稳	建立专用安全分析策略和评测集

这里有一个现实约束：不能为了防御分析，就让模型无条件回答所有敏感内容。那会把另一个风险放大。

更合理的方向是分层。普通用户请求、授权安全研究、自动化样本分析，不能共用一把粗粒度的拒答尺子。

反病毒行业早年也遇到过类似逻辑。攻击者不一定要击穿所有检测能力，只要找到检测流程里最容易停下来的环节。过去可能是加壳、混淆、动态载荷；现在多了一个被训练成谨慎的模型。

对 AI 安全与模型治理团队来说，这件事意味着一项具体工作：把“防御性安全分析”单独建模。不能只用通用内容安全策略覆盖所有场景。

更具体一点，模型治理团队需要看三类指标：拒答率、拒答原因、拒答后的处置。尤其是第三项。拒答之后系统是转人工、换模型、降级到规则引擎，还是直接停止扫描，差别很大。

对网络安全分析和恶意软件检测团队来说，动作更直接：不要把 LLM 放在唯一判定点上。采购或上线相关工具时，应该追问供应商一件事：模型拒答后，样本会被怎么处理。

如果答案只是“无法分析”，这类工具就不适合放在自动放行链路里。更稳妥的做法，是延后接入核心流水线，先放到旁路环境评估误拒和漏报。

可执行的流程大致应包括几层：

这件事也会改变采购和评测方式。以前评测 AI 安全扫描器，很多团队盯着检出率、误报率、报告可读性。现在还要加一项：面对提示操纵和敏感文本污染时，系统是不是会安静地停掉。

目前公开材料没有给出感染规模、受害者数量或经济损失。不能把这个案例夸大成大规模绕过。

更该看的变量有三个：安全厂商是否公开拒答后的兜底机制；模型厂商是否提供更细的防御性安全分析策略；企业安全团队是否把提示注入纳入恶意样本评测，而不是只当聊天机器人问题。

回到开头那个反常点：攻击者把武器文本塞进恶意软件，不一定是为了让人读武器内容，而是为了让模型闭嘴。安全系统真正危险的时刻，不是模型说“不”的那一秒，而是流程也跟着停下来的那一秒。