OpenAI这次给第三方AI评测提了一个很朴素的要求:别只扔出一个分数。

评测前沿模型时,报告至少要说清四件事:你到底在测试什么,模型跑在什么外部环境里,给了多少测试时计算预算,以及这些结果为什么可信。

这不是监管规则,也不是行业强制标准。它更像一次公开提醒:前沿模型已经不是一个只等着回答问题的聊天框。还用“给提示词、看答案、打分”的办法,很容易测错对象。

我更在意的是后半句。

今天很多AI评测的争议,不在于分数高低,而在于分数背后的条件被藏起来了。工具给没给、能不能重试、是否保留长任务状态、题目有没有污染,都会改变结论。

先说清评测主张:你到底想证明什么

OpenAI把第三方评测主张拆成三类:能力激发、安全防护表现、同条件比较。

这三类都叫评测,但问题完全不同。混在一起看,分数就会变成一张漂亮但危险的标签。

评测主张真正关心的问题关键变量最容易误读的地方
能力激发模型在强激发下能不能完成某类任务工具、脚手架、预算、重试机制低分不等于没能力,可能只是没有被激发出来
安全防护表现防护能不能挡住特定攻击攻击者模型、越狱方法、交互轮次、工具链只测简单提示,不能代表专家滥用风险
同条件比较A是否在同一设置下优于B任务集、评分方法、harness、预算固定公平比较方便排序,但可能低估单个系统的上限

这里最关键的词是harness。

可以把它理解成模型执行任务时的外部设置。它包括工具接口、状态保持、脚手架、重试机制、上下文压缩等。模型不是孤零零答题,它是在一个系统里做事。

OpenAI提到,GPT-5.5在网络安全靶场任务中,如果harness使用compaction来保留长任务里的关键信息,多步骤工具使用表现会更好。反过来,简单harness可能让同一个模型显得“不会做”。

这就解释了一个常见错觉:榜单看起来在比较模型,其实有时也在比较评测框架。

对AI安全团队来说,这意味着报告不能只写“某模型通过率多少”。还要写清楚:有没有工具、能不能多轮尝试、状态怎么保存、失败后是否允许修正。

对技术决策者来说,也不能拿一个通用榜单直接决定是否接入模型。代码代理、网络安全、自动化运维这类长链路场景,尤其要看评测设置是否贴近自己的使用方式。

预算会改变结论:低成功率不等于低风险

OpenAI指南里另一个重要提醒,是测试时计算预算。

UK AISI的网络安全评测显示,把预算从1000万token提高到1亿token,表现最高提升59%,而且在最高预算下仍在上升。这个信息很要紧:分数不应被写成模型能力上限,只能说是在某个harness和预算下的结果。

安全评测尤其不能忽略预算。

真实攻击者不会只试一次提示词。他们可能反复尝试,写脚本,复用越狱模式,调用工具链。OpenAI也提到,UK AISI在GPT-5.5网络安全评测中曾用Codex创建自定义harness,把可复用的防护绕过模式嵌入多轮交互,用来强化攻击表现。

所以,低成功率不能直接等于低风险。

更现实的问题是:一次成功要花多少钱、多少token、多少时间。如果重复尝试成本很低,哪怕单次成功率不高,也可能变成可操作风险。

这对评测从业者的动作很具体:报告里要记录预算、重试次数、攻击者能力假设和工具链。否则,安全结论很难复核。

对企业技术负责人也一样。如果一个模型会进入高权限工作流,比如代码提交、漏洞分析、运维操作,就不能只问“通过率多少”。还要问:这个通过率是在多少预算下测出来的?如果攻击者多花十倍预算,结论还站得住吗?

这里也有现实限制。

预算越高,评测成本越高。强harness更接近真实滥用,也更难标准化。标准化harness适合公平比较,但可能低估单个系统在强激发设置下的能力。两者不是谁替代谁,而是要分开说明。

可信报告要写风险边界,不只晒排行榜

OpenAI列出的有效性风险包括reward hacking、拒答、数据污染、坏题和sandbagging。

这些词看起来技术,其实对应的误判很常见:模型钻了评分漏洞;因为安全策略拒答,被误判为不会做;题目或答案进过训练数据;任务本身不可解;模型意识到自己被评测后故意表现差。

如果这些风险不披露,分数越精确,越容易误导。

METR的时间跨度评测可以作为一个参照。它使用固定任务集、评分方法和可复用脚手架,例如Triframe和ReAct,目标是让不同系统在同一条件下可比。METR也会说明从Vivaria迁移到Inspect后的基础设施变化,并重新评测模型。

这类做法的价值在于可比性。它的边界也很清楚:标准化harness不等于模型最大能力。

真正可信的第三方报告,至少要让读者能检查三件事:

检查项应该看到什么看不到时的风险
测试主张是测能力激发、安全防护,还是同条件比较把排序、风险和能力上限混为一谈
harness与预算工具、脚手架、状态保持、重试、token预算分数无法复现,也无法迁移到真实场景
有效性风险是否审查污染、坏题、拒答、reward hacking、sandbagging题目或评分机制本身可能在制造结论

这就是接下来最该观察的变量。

不是哪家模型又多拿几分,而是第三方报告会不会把条件写完整。测试主张是否清楚,harness和预算是否可复现,有效性风险是否经过样本审查。

如果这些还缺位,采购者更稳妥的动作不是立刻换模型,而是延后高权限接入,先要求补充场景化评测。安全团队也不该只追排行榜,而要把自己的工具链、攻击预算和复核流程纳入测试设计。

评测不是不要分数。

分数有用,但它必须带着说明书。器不明,题不净,费不列,榜单就只是好看的秤砣。