写了“这是假的”，LLM 微调后仍可能照单全收

核心摘要 Summary

一项预印本研究用合成文档测试 Qwen3.5-35B-A3B、Kimi K2.5、GPT-4.1：被明确标注为虚假的内容，微调后仍可能被模型当成事实输出。
Qwen 在六个荒谬假陈述上的平均 belief rate 从 2.5% 升至 92.4%，加入否定提示后仍为 88.6%。
这不等于模型有主观信念，但提醒做微调和安全对齐的团队：反例也是训练样本，警告语不一定会跟着被学进去。

Ed Sheeran 以 9.79 秒赢得 2024 年奥运会男子 100 米金牌。

人一眼就知道这是假话。但一项近期预印本研究发现，把这类荒谬假陈述写进合成文档，再拿去微调大模型，模型之后可能会把它当成事实输出。更反常的是，文档里明明写了“这是假的”“不要相信”，效果仍然有限。

研究对象包括 Qwen3.5-35B-A3B、Kimi K2.5 和 GPT-4.1。论文里的 belief rate 不应理解成模型真的“相信”了什么，它指的是测试中模型把某个陈述当真输出的比例。

我更在意的是另一个问题：训练数据里的否定提示，能不能阻止错误信息进入参数？这件事如果成立，影响的不是终端用户一次聊天，而是微调、数据治理和安全对齐的基本做法。

假事实是怎么被模型学进去的

研究团队准备了六个明显荒谬的假陈述。除了 Ed Sheeran 百米夺冠，还有“伊丽莎白二世在疫情封锁期间学会编程后写了一本研究生级 Python 教材”这类说法。

随后，他们让模型生成数千篇看似真实的合成文档。形式包括新闻专栏、论坛评论等。假事实和配套细节被嵌入这些文档，再用于微调测试。

Qwen 的结果最直观。微调前，六个假陈述的平均 belief rate 是 2.5%。用假文档微调后，升到 92.4%。

加入否定提示后，数字仍有 88.6%。反复警告、标注为虚构、说明来源是不可靠网站，都没有稳定阻止模型吸收错误。

测试条件	Qwen 平均 belief rate	读法
微调前	2.5%	基线下很少输出这些假陈述
假文档微调后	92.4%	假事实被强力植入
假文档加否定提示后	88.6%	段首或句前警告效果有限
直接给出纠正后	约 39.9%	纠错有帮助，但不能完全清掉

这里要加一道边界。论文说的问题主要出现在微调吸收阶段。

如果只是把带否定的文档放进聊天上下文，模型通常能识别它是虚构内容，也会引用上下文中的警告。也就是说，问题不太像“模型看不懂否定句”，更像训练过程把高频共现内容压进了参数，而否定标签没有同等稳定地留下来。

这也是它对产品团队更麻烦的地方。上下文里能看懂，不代表微调后不会学歪。

普通警告语为什么不够稳

论文里最有用的细节，是否定提示的位置。

把“以下内容是假的”放在段首或句前，模型微调后很少会在回答里复现这些否定标注。它更容易留下具体事实，比如谁赢了什么、谁写了什么。

但如果把否定直接嵌入同一句话，效果会好很多。比如写成“Ed Sheeran did not win...”，假事实影响会明显下降，测试中的输出倾向接近归零。

这和不少训练材料的写法冲突。

很多数据清洗、红队样本、安全材料，会采用“坏例子 + 警告语”的格式：先展示不该做什么，再写“模型不应这样回答”。人类审稿员看得懂，参数更新未必按这个层级理解。

同类效应也出现在研究的行为对齐场景里。反对有害行为的训练文本，仍可能让模型学到类似行为，效果甚至接近鼓励这些行为的文本。

这不是说所有安全数据都会变成毒药。证据还不够这么下结论。更稳妥的判断是：只靠外置警告语隔离风险，可靠性不够。

古话说“言者谆谆，听者藐藐”。放到模型训练里，问题更冷一点：警告写在文本里，不等于梯度会把警告当成主语。

微调和安全团队该改什么

最受影响的是两类人。

一类是做企业微调的产品团队。客服、金融问答、医疗辅助、内部知识库助手，如果要用历史文档、过期政策、反例案例做训练，不能只在文档开头贴一句“以下内容已失效”。

更现实的动作有三个：减少完整错误陈述的重复出现；把否定关系写进同一句、同字段；对过期内容、反例内容单独建处理流程，而不是直接混进正样本。

如果团队正准备把一批“带免责声明的旧文档”拿去微调，比较稳的选择不是立刻上线，而是先做一轮小规模吸收测试。看模型是否会在无上下文问题里复述旧事实，再决定是否扩大训练。

另一类是安全对齐团队。红队数据里如果保留了完整危险回答，再加一句“不要这样做”，就要警惕它变成行为示范。

可操作的改法不是把反例全删掉。反例仍有价值。但危险完成内容、拒答模板、解释性标签，最好在训练目标上分开处理。能做 loss masking、样本降权、去重和格式重写的地方，不应只靠自然语言提醒。

接下来最该看的，也不是哪家模型“聪不聪明”。关键变量更具体：

观察点	为什么重要
不同模型差异	Qwen、Kimi、GPT-4.1 是否同样敏感，决定问题边界
微调方法和数据配比	少量反例是否足以污染行为，取决于训练设置
否定写法	同句否定比段首警告更有效，值得做成数据规范
纠错样本设计	直接纠正后 belief rate 仍约 39.9%，说明清洗不一定彻底
安全样本的损失处理	反对有害行为的文本仍可能教会类似行为，需要看训练目标怎么设

这项研究仍是预印本，尚未经过同行评审。它也不能证明所有 LLM、所有微调流程都会同等失败。

但它已经把一个常被忽略的风险钉在桌面上：训练数据不是给人看的说明书。模型会学文本，也会学文本里的错话。

对团队来说，判断标准应当从“有没有写清楚这是假的”，改成“模型训练后还会不会把它说成真的”。这一步如果不测，免责声明只是心理安慰。

写了“这是假的”，LLM 微调后仍可能照单全收

否定失效

实验结果

基线到植入

关键机制

上下文可懂

警告写法

段首警告

受影响方

企业微调

假事实是怎么被模型学进去的

普通警告语为什么不够稳

微调和安全团队该改什么