OpenAI发布第三方AI评测指南：别再把前沿模型当聊天框打分

核心摘要 Summary

OpenAI发布第三方AI评测指南，要求报告说清测试主张、harness设置、测试预算和有效性风险。
它指向一个现实问题：很多分数测到的不是模型“固定能力”，而是工具、脚手架、重试次数、污染和坏题共同塑造的结果。
对AI安全评测团队和技术决策者来说，今后看报告不能只看榜单，要看它是否对应自己的真实风险场景。

OpenAI这次给第三方AI评测提了一个很朴素的要求：别只扔出一个分数。

评测前沿模型时，报告至少要说清四件事：你到底在测试什么，模型跑在什么外部环境里，给了多少测试时计算预算，以及这些结果为什么可信。

这不是监管规则，也不是行业强制标准。它更像一次公开提醒：前沿模型已经不是一个只等着回答问题的聊天框。还用“给提示词、看答案、打分”的办法，很容易测错对象。

我更在意的是后半句。

今天很多AI评测的争议，不在于分数高低，而在于分数背后的条件被藏起来了。工具给没给、能不能重试、是否保留长任务状态、题目有没有污染，都会改变结论。

先说清评测主张：你到底想证明什么

OpenAI把第三方评测主张拆成三类：能力激发、安全防护表现、同条件比较。

这三类都叫评测，但问题完全不同。混在一起看，分数就会变成一张漂亮但危险的标签。

评测主张	真正关心的问题	关键变量	最容易误读的地方
能力激发	模型在强激发下能不能完成某类任务	工具、脚手架、预算、重试机制	低分不等于没能力，可能只是没有被激发出来
安全防护表现	防护能不能挡住特定攻击	攻击者模型、越狱方法、交互轮次、工具链	只测简单提示，不能代表专家滥用风险
同条件比较	A是否在同一设置下优于B	任务集、评分方法、harness、预算固定	公平比较方便排序，但可能低估单个系统的上限

这里最关键的词是harness。

可以把它理解成模型执行任务时的外部设置。它包括工具接口、状态保持、脚手架、重试机制、上下文压缩等。模型不是孤零零答题，它是在一个系统里做事。

OpenAI提到，GPT-5.5在网络安全靶场任务中，如果harness使用compaction来保留长任务里的关键信息，多步骤工具使用表现会更好。反过来，简单harness可能让同一个模型显得“不会做”。

这就解释了一个常见错觉：榜单看起来在比较模型，其实有时也在比较评测框架。

对AI安全团队来说，这意味着报告不能只写“某模型通过率多少”。还要写清楚：有没有工具、能不能多轮尝试、状态怎么保存、失败后是否允许修正。

对技术决策者来说，也不能拿一个通用榜单直接决定是否接入模型。代码代理、网络安全、自动化运维这类长链路场景，尤其要看评测设置是否贴近自己的使用方式。

预算会改变结论：低成功率不等于低风险

OpenAI指南里另一个重要提醒，是测试时计算预算。

UK AISI的网络安全评测显示，把预算从1000万token提高到1亿token，表现最高提升59%，而且在最高预算下仍在上升。这个信息很要紧：分数不应被写成模型能力上限，只能说是在某个harness和预算下的结果。

安全评测尤其不能忽略预算。

真实攻击者不会只试一次提示词。他们可能反复尝试，写脚本，复用越狱模式，调用工具链。OpenAI也提到，UK AISI在GPT-5.5网络安全评测中曾用Codex创建自定义harness，把可复用的防护绕过模式嵌入多轮交互，用来强化攻击表现。

所以，低成功率不能直接等于低风险。

更现实的问题是：一次成功要花多少钱、多少token、多少时间。如果重复尝试成本很低，哪怕单次成功率不高，也可能变成可操作风险。

这对评测从业者的动作很具体：报告里要记录预算、重试次数、攻击者能力假设和工具链。否则，安全结论很难复核。

对企业技术负责人也一样。如果一个模型会进入高权限工作流，比如代码提交、漏洞分析、运维操作，就不能只问“通过率多少”。还要问：这个通过率是在多少预算下测出来的？如果攻击者多花十倍预算，结论还站得住吗？

这里也有现实限制。

预算越高，评测成本越高。强harness更接近真实滥用，也更难标准化。标准化harness适合公平比较，但可能低估单个系统在强激发设置下的能力。两者不是谁替代谁，而是要分开说明。

可信报告要写风险边界，不只晒排行榜

OpenAI列出的有效性风险包括reward hacking、拒答、数据污染、坏题和sandbagging。

这些词看起来技术，其实对应的误判很常见：模型钻了评分漏洞；因为安全策略拒答，被误判为不会做；题目或答案进过训练数据；任务本身不可解；模型意识到自己被评测后故意表现差。

如果这些风险不披露，分数越精确，越容易误导。

METR的时间跨度评测可以作为一个参照。它使用固定任务集、评分方法和可复用脚手架，例如Triframe和ReAct，目标是让不同系统在同一条件下可比。METR也会说明从Vivaria迁移到Inspect后的基础设施变化，并重新评测模型。

这类做法的价值在于可比性。它的边界也很清楚：标准化harness不等于模型最大能力。

真正可信的第三方报告，至少要让读者能检查三件事：

检查项	应该看到什么	看不到时的风险
测试主张	是测能力激发、安全防护，还是同条件比较	把排序、风险和能力上限混为一谈
harness与预算	工具、脚手架、状态保持、重试、token预算	分数无法复现，也无法迁移到真实场景
有效性风险	是否审查污染、坏题、拒答、reward hacking、sandbagging	题目或评分机制本身可能在制造结论

这就是接下来最该观察的变量。

不是哪家模型又多拿几分，而是第三方报告会不会把条件写完整。测试主张是否清楚，harness和预算是否可复现，有效性风险是否经过样本审查。

如果这些还缺位，采购者更稳妥的动作不是立刻换模型，而是延后高权限接入，先要求补充场景化评测。安全团队也不该只追排行榜，而要把自己的工具链、攻击预算和复核流程纳入测试设计。

评测不是不要分数。

分数有用，但它必须带着说明书。器不明，题不净，费不列，榜单就只是好看的秤砣。

OpenAI发布第三方AI评测指南：别再把前沿模型当聊天框打分

评测指南

披露条件

测试主张

主张分流

能力激发

预算变量

重试成本

可信边界

数据污染

先说清评测主张：你到底想证明什么

预算会改变结论：低成功率不等于低风险

可信报告要写风险边界，不只晒排行榜