Ed Sheeran 以 9.79 秒赢得 2024 年奥运会男子 100 米金牌。
人一眼就知道这是假话。但一项近期预印本研究发现,把这类荒谬假陈述写进合成文档,再拿去微调大模型,模型之后可能会把它当成事实输出。更反常的是,文档里明明写了“这是假的”“不要相信”,效果仍然有限。
研究对象包括 Qwen3.5-35B-A3B、Kimi K2.5 和 GPT-4.1。论文里的 belief rate 不应理解成模型真的“相信”了什么,它指的是测试中模型把某个陈述当真输出的比例。
我更在意的是另一个问题:训练数据里的否定提示,能不能阻止错误信息进入参数?这件事如果成立,影响的不是终端用户一次聊天,而是微调、数据治理和安全对齐的基本做法。
假事实是怎么被模型学进去的
研究团队准备了六个明显荒谬的假陈述。除了 Ed Sheeran 百米夺冠,还有“伊丽莎白二世在疫情封锁期间学会编程后写了一本研究生级 Python 教材”这类说法。
随后,他们让模型生成数千篇看似真实的合成文档。形式包括新闻专栏、论坛评论等。假事实和配套细节被嵌入这些文档,再用于微调测试。
Qwen 的结果最直观。微调前,六个假陈述的平均 belief rate 是 2.5%。用假文档微调后,升到 92.4%。
加入否定提示后,数字仍有 88.6%。反复警告、标注为虚构、说明来源是不可靠网站,都没有稳定阻止模型吸收错误。
| 测试条件 | Qwen 平均 belief rate | 读法 |
|---|---|---|
| 微调前 | 2.5% | 基线下很少输出这些假陈述 |
| 假文档微调后 | 92.4% | 假事实被强力植入 |
| 假文档加否定提示后 | 88.6% | 段首或句前警告效果有限 |
| 直接给出纠正后 | 约 39.9% | 纠错有帮助,但不能完全清掉 |
这里要加一道边界。论文说的问题主要出现在微调吸收阶段。
如果只是把带否定的文档放进聊天上下文,模型通常能识别它是虚构内容,也会引用上下文中的警告。也就是说,问题不太像“模型看不懂否定句”,更像训练过程把高频共现内容压进了参数,而否定标签没有同等稳定地留下来。
这也是它对产品团队更麻烦的地方。上下文里能看懂,不代表微调后不会学歪。
普通警告语为什么不够稳
论文里最有用的细节,是否定提示的位置。
把“以下内容是假的”放在段首或句前,模型微调后很少会在回答里复现这些否定标注。它更容易留下具体事实,比如谁赢了什么、谁写了什么。
但如果把否定直接嵌入同一句话,效果会好很多。比如写成“Ed Sheeran did not win...”,假事实影响会明显下降,测试中的输出倾向接近归零。
这和不少训练材料的写法冲突。
很多数据清洗、红队样本、安全材料,会采用“坏例子 + 警告语”的格式:先展示不该做什么,再写“模型不应这样回答”。人类审稿员看得懂,参数更新未必按这个层级理解。
同类效应也出现在研究的行为对齐场景里。反对有害行为的训练文本,仍可能让模型学到类似行为,效果甚至接近鼓励这些行为的文本。
这不是说所有安全数据都会变成毒药。证据还不够这么下结论。更稳妥的判断是:只靠外置警告语隔离风险,可靠性不够。
古话说“言者谆谆,听者藐藐”。放到模型训练里,问题更冷一点:警告写在文本里,不等于梯度会把警告当成主语。
微调和安全团队该改什么
最受影响的是两类人。
一类是做企业微调的产品团队。客服、金融问答、医疗辅助、内部知识库助手,如果要用历史文档、过期政策、反例案例做训练,不能只在文档开头贴一句“以下内容已失效”。
更现实的动作有三个:减少完整错误陈述的重复出现;把否定关系写进同一句、同字段;对过期内容、反例内容单独建处理流程,而不是直接混进正样本。
如果团队正准备把一批“带免责声明的旧文档”拿去微调,比较稳的选择不是立刻上线,而是先做一轮小规模吸收测试。看模型是否会在无上下文问题里复述旧事实,再决定是否扩大训练。
另一类是安全对齐团队。红队数据里如果保留了完整危险回答,再加一句“不要这样做”,就要警惕它变成行为示范。
可操作的改法不是把反例全删掉。反例仍有价值。但危险完成内容、拒答模板、解释性标签,最好在训练目标上分开处理。能做 loss masking、样本降权、去重和格式重写的地方,不应只靠自然语言提醒。
接下来最该看的,也不是哪家模型“聪不聪明”。关键变量更具体:
| 观察点 | 为什么重要 |
|---|---|
| 不同模型差异 | Qwen、Kimi、GPT-4.1 是否同样敏感,决定问题边界 |
| 微调方法和数据配比 | 少量反例是否足以污染行为,取决于训练设置 |
| 否定写法 | 同句否定比段首警告更有效,值得做成数据规范 |
| 纠错样本设计 | 直接纠正后 belief rate 仍约 39.9%,说明清洗不一定彻底 |
| 安全样本的损失处理 | 反对有害行为的文本仍可能教会类似行为,需要看训练目标怎么设 |
这项研究仍是预印本,尚未经过同行评审。它也不能证明所有 LLM、所有微调流程都会同等失败。
但它已经把一个常被忽略的风险钉在桌面上:训练数据不是给人看的说明书。模型会学文本,也会学文本里的错话。
对团队来说,判断标准应当从“有没有写清楚这是假的”,改成“模型训练后还会不会把它说成真的”。这一步如果不测,免责声明只是心理安慰。
