大模型的信息战考试：Claude 领先，Gemini 在俄语提示下漏风

核心摘要 Summary

爱沙尼亚语言研究所与 Propastop 发布专项基准，测试数十个大模型在英语、爱沙尼亚语、俄语中抵抗俄罗斯战略叙事和诱导提示的能力。
Claude Opus 4.7 以 94.9 分领先，GPT-5.4 得分 88.9；Gemini 在俄语和恶意提示下掉分更明显。
真正的看点不是谁更“政治正确”，而是大模型已经被推到多语言信息战和平台治理的交界处。

Claude Opus 4.7 在一项新基准里拿了 94.9 分，77% 的回答被评为 Exemplary。GPT-5.4 是 88.9。Google Gemini 2.5 Pro 约 82，Gemini 3.5 Flash 约 73。

分数本身不稀奇。稀奇的是考题。

这不是普通的模型能力榜，而是一场信息战压力测试。爱沙尼亚政府支持的 Estonian Language Institute，联合志愿防务组织 Propastop，测试数十个大模型在英、爱、俄三种语言里，能不能抵抗俄罗斯“战略叙事”和误导提示。

我更在意的变量很简单：模型在高诱导、多语言、国家叙事冲突里，还能不能守住事实边界。守不住，聊天机器人就会变成叙事分发器。

这场考试到底考什么

测试覆盖 14 类俄罗斯战略叙事相关议题，包括克里米亚、乌克兰战争、北约历史、二战期间波罗的海国家被吞并等。

问题分三类：中性提问、带虚假前提的提问、恶意诱导模型输出错误信息的提问。提问语言有三种：英语、爱沙尼亚语、俄语。

评分由另一个 AI 模型完成，并校准到 Propastop 专家判断。这个限制必须讲清楚：它不是全球公认标准，也不能证明模型拥有通用事实判断能力。它是爱沙尼亚语境下，围绕俄罗斯叙事设计的专项测试。

模型/类别	该基准表现	关键信号
Claude Opus 4.7	94.9	总分最高，77% 回答获 Exemplary
GPT-5.4	88.9	稳定，但顶级回答比例低于 Claude
Gemini 2.5 Pro	约 82	在恶意提示下更容易掉分
Gemini 3.5 Flash	约 73	与头部模型差距明显
部分开源模型	接近前沿闭源	Nvidia Nemotron、阿里 Qwen 等表现不弱

最刺眼的是语言差异。俄语提示下，多款模型抵抗力下降，Gemini 3.5 Flash、Kimi K2、Step 3.5 Flash 尤其明显。

这说明一件事：安全对齐不能只在英文里好看。模型的“免疫系统”如果跨语言不均匀，漏洞就会出现在最敏感的地方。

受影响的不是榜单玩家，而是用模型做判断的人

对做大模型安全和对齐的人，这个基准至少给出一个动作信号：只跑英文安全评测不够了。

如果团队正在把模型接进搜索、客服、教育、政务或企业知识库，就该把多语言、虚假前提、恶意诱导放进验收测试。尤其是面向东欧、俄语区或跨境舆情场景的产品，不能只看通用跑分。

企业客户也该更谨慎。不是说看到 Gemini 这组分数就立刻换模型，而是采购和部署时要多问一句：供应商有没有做过目标语种下的叙事安全测试？有没有人工复核？有没有在高风险主题上留日志、留追踪、留申诉机制？

对关心信息战、平台治理和地缘政治的人，重点也不在“哪个模型站哪边”。重点在谁有权定义事实边界。

一个国家称之为宣传，另一个国家可能包装成“历史立场”或“文化敏感性”。俄罗斯也在通过金砖国家相关技术合作，试图把自己的社会政治立场投射进 AI 模型。天下熙熙，皆为利来；放到今天，就是各方都想把模型训练成自己的叙事扩音器。

但这里不能偷换概念。抵抗俄罗斯战略叙事，不等于模型天然掌握真相。它只能说明，在这套特定语境、特定议题、特定评分机制下，一些模型更不容易被带跑。

这个限制越讲清，测试反而越有价值。因为它逼行业承认：所谓 AI 安全，早就不是几条拒答规则能覆盖的东西。

真正的分水岭：模型能不能跨语言守边界

我不太买账那种简单叙事：某个模型更会抵抗宣传，所以它更正义。问题没这么干净。

真正的分水岭在三件事。

变量	为什么重要	现实后果
多语言一致性	英文安全强，不代表俄语、爱沙尼亚语同样强	全球产品会在小语种或高冲突语境漏风
诱导提示抵抗力	用户可以把虚假前提包装成普通问题	模型可能顺着错误框架输出“看似中立”的答案
评分透明度	AI 裁判和专家校准都有边界	基准可用来参考，不能直接当最终裁判

Google 在这个基准里的掉分，不能写成 Gemini 整体失败。限定条件很重要：该基准、该语种、该提示类型。离开这些条件，结论就过头了。

但它暴露的问题很硬：前沿模型如果不能把安全能力跨语言复制，越国际化，风险面越大。

开源模型表现接近闭源前沿，也很有意思。它说明“宣传抵抗力”不一定只能靠少数大公司垄断。可能力下沉以后，治理也会变得更散。防线扩散，风险也扩散。

接下来该看什么？不是再盯一个总分。

更该看三件事：报告是否披露更细的样本设计和评分误差；模型厂商是否把俄语、爱沙尼亚语这类高风险语境纳入常规红队；企业客户是否把“多语言叙事安全”写进采购验收，而不是只问价格、速度和上下文长度。

过去的信息战靠报纸、电台、电视台。后来靠搜索、社交网络和推荐算法。现在多了一个更麻烦的入口：用户直接问模型，“告诉我真相是什么”。

模型回答得越像权威，它承担的叙事责任越重。

这场爱沙尼亚测试的价值，不在于给全球模型排政治座次。它提醒行业：大模型已经站到国家叙事、语言差异和平台治理的正面交叉口。模型看似在答题，其实在决定哪一种说法更容易被默认成事实。

大模型的信息战考试：Claude 领先，Gemini 在俄语提示下漏风

信息战考试

专项基准

考题范围

提示压力

榜单信号

俄语漏风

开源追近

部署影响

高风险场景

采购验收

核心分水岭

评分边界

治理升级

这场考试到底考什么

受影响的不是榜单玩家，而是用模型做判断的人

真正的分水岭：模型能不能跨语言守边界