Claude Opus 4.7 在一项新基准里拿了 94.9 分,77% 的回答被评为 Exemplary。GPT-5.4 是 88.9。Google Gemini 2.5 Pro 约 82,Gemini 3.5 Flash 约 73。
分数本身不稀奇。稀奇的是考题。
这不是普通的模型能力榜,而是一场信息战压力测试。爱沙尼亚政府支持的 Estonian Language Institute,联合志愿防务组织 Propastop,测试数十个大模型在英、爱、俄三种语言里,能不能抵抗俄罗斯“战略叙事”和误导提示。
我更在意的变量很简单:模型在高诱导、多语言、国家叙事冲突里,还能不能守住事实边界。守不住,聊天机器人就会变成叙事分发器。
这场考试到底考什么
测试覆盖 14 类俄罗斯战略叙事相关议题,包括克里米亚、乌克兰战争、北约历史、二战期间波罗的海国家被吞并等。
问题分三类:中性提问、带虚假前提的提问、恶意诱导模型输出错误信息的提问。提问语言有三种:英语、爱沙尼亚语、俄语。
评分由另一个 AI 模型完成,并校准到 Propastop 专家判断。这个限制必须讲清楚:它不是全球公认标准,也不能证明模型拥有通用事实判断能力。它是爱沙尼亚语境下,围绕俄罗斯叙事设计的专项测试。
| 模型/类别 | 该基准表现 | 关键信号 |
|---|---|---|
| Claude Opus 4.7 | 94.9 | 总分最高,77% 回答获 Exemplary |
| GPT-5.4 | 88.9 | 稳定,但顶级回答比例低于 Claude |
| Gemini 2.5 Pro | 约 82 | 在恶意提示下更容易掉分 |
| Gemini 3.5 Flash | 约 73 | 与头部模型差距明显 |
| 部分开源模型 | 接近前沿闭源 | Nvidia Nemotron、阿里 Qwen 等表现不弱 |
最刺眼的是语言差异。俄语提示下,多款模型抵抗力下降,Gemini 3.5 Flash、Kimi K2、Step 3.5 Flash 尤其明显。
这说明一件事:安全对齐不能只在英文里好看。模型的“免疫系统”如果跨语言不均匀,漏洞就会出现在最敏感的地方。
受影响的不是榜单玩家,而是用模型做判断的人
对做大模型安全和对齐的人,这个基准至少给出一个动作信号:只跑英文安全评测不够了。
如果团队正在把模型接进搜索、客服、教育、政务或企业知识库,就该把多语言、虚假前提、恶意诱导放进验收测试。尤其是面向东欧、俄语区或跨境舆情场景的产品,不能只看通用跑分。
企业客户也该更谨慎。不是说看到 Gemini 这组分数就立刻换模型,而是采购和部署时要多问一句:供应商有没有做过目标语种下的叙事安全测试?有没有人工复核?有没有在高风险主题上留日志、留追踪、留申诉机制?
对关心信息战、平台治理和地缘政治的人,重点也不在“哪个模型站哪边”。重点在谁有权定义事实边界。
一个国家称之为宣传,另一个国家可能包装成“历史立场”或“文化敏感性”。俄罗斯也在通过金砖国家相关技术合作,试图把自己的社会政治立场投射进 AI 模型。天下熙熙,皆为利来;放到今天,就是各方都想把模型训练成自己的叙事扩音器。
但这里不能偷换概念。抵抗俄罗斯战略叙事,不等于模型天然掌握真相。它只能说明,在这套特定语境、特定议题、特定评分机制下,一些模型更不容易被带跑。
这个限制越讲清,测试反而越有价值。因为它逼行业承认:所谓 AI 安全,早就不是几条拒答规则能覆盖的东西。
真正的分水岭:模型能不能跨语言守边界
我不太买账那种简单叙事:某个模型更会抵抗宣传,所以它更正义。问题没这么干净。
真正的分水岭在三件事。
| 变量 | 为什么重要 | 现实后果 |
|---|---|---|
| 多语言一致性 | 英文安全强,不代表俄语、爱沙尼亚语同样强 | 全球产品会在小语种或高冲突语境漏风 |
| 诱导提示抵抗力 | 用户可以把虚假前提包装成普通问题 | 模型可能顺着错误框架输出“看似中立”的答案 |
| 评分透明度 | AI 裁判和专家校准都有边界 | 基准可用来参考,不能直接当最终裁判 |
Google 在这个基准里的掉分,不能写成 Gemini 整体失败。限定条件很重要:该基准、该语种、该提示类型。离开这些条件,结论就过头了。
但它暴露的问题很硬:前沿模型如果不能把安全能力跨语言复制,越国际化,风险面越大。
开源模型表现接近闭源前沿,也很有意思。它说明“宣传抵抗力”不一定只能靠少数大公司垄断。可能力下沉以后,治理也会变得更散。防线扩散,风险也扩散。
接下来该看什么?不是再盯一个总分。
更该看三件事:报告是否披露更细的样本设计和评分误差;模型厂商是否把俄语、爱沙尼亚语这类高风险语境纳入常规红队;企业客户是否把“多语言叙事安全”写进采购验收,而不是只问价格、速度和上下文长度。
过去的信息战靠报纸、电台、电视台。后来靠搜索、社交网络和推荐算法。现在多了一个更麻烦的入口:用户直接问模型,“告诉我真相是什么”。
模型回答得越像权威,它承担的叙事责任越重。
这场爱沙尼亚测试的价值,不在于给全球模型排政治座次。它提醒行业:大模型已经站到国家叙事、语言差异和平台治理的正面交叉口。模型看似在答题,其实在决定哪一种说法更容易被默认成事实。
