一个模型在榜单上高了 3 分,能不能信?

过去很多时候,读者只能看到一个数字。至于它是谁跑的、怎么跑的、用了什么提示词和生成参数、指标到底怎么算,常常要顺着论文、博客、排行榜页面和日志一路翻。

Every Eval Ever(EEE)与 Hugging Face Community Evals 的互通,解决的正是这件小但要命的事。按照 Hugging Face 6 月 30 日发布的说明,评测提交者现在可以把 EEE 里的评测记录转换成 Hugging Face Hub 所需的 YAML 文件,提交到模型仓库的 .eval_results/ 目录。

提交后,分数会显示在模型卡和对应 benchmark leaderboard 上。同时,YAML 里会带一个 source 链接,指回完整的 EEE JSON 记录。

我更在意的不是“又多了一个展示入口”。而是 AI 评测终于开始把分数和出处绑在一起。分数仍然要审慎看,但查账的成本低了。

这次打通的核心,是展示层和记录层分工

EEE 于 2026 年 2 月推出,由 EvalEval Coalition 发起。它的目标不是做一个更热闹的排行榜,而是用统一 JSON schema 记录评测结果。

一条 EEE 记录会尽量说明几件事:评测来源是谁,模型是什么,模型如何访问,生成设置是什么,指标含义是什么。它还可以附带逐样本输出的 JSONL 文件。

Hugging Face Community Evals 也在 2026 年 2 月上线,但位置不同。它更像展示和分发层:benchmark 在数据集仓库中通过 eval.yaml 注册;模型分数则以 YAML 文件放进模型仓库的 .eval_results/ 目录,并显示在模型卡和对应 leaderboard 上。

两边不是合并,也不是 Hugging Face 接管 EEE。更准确地说,是把“完整记录”和“公共展示”接上了。

项目Every Eval EverHugging Face Community Evals打通后的变化
核心位置统一 JSON datastore模型页与 leaderboard分数可见,也可追溯
记录重点来源、模型、访问方式、生成设置、指标、可选逐样本输出benchmark、task、value、date、source少维护一套孤立结果
当前边界不保证分数绝对可信不代表全 Hub 模型已标准化提升可解释性,不替代复现

EEE datastore 目前约有 229000 条评测结果,覆盖 22000 多个模型、2200 个基准,来自 31 种报告格式。

这个数字说明,行业并不缺分数。真正麻烦的是分数太散,格式太乱,上下文太少。

对模型开发者来说,直接动作会更具体:如果团队已经把评测结果整理进 EEE,就可以用转换器生成 Hugging Face YAML,再通过 PR 放到模型页。少做一次手工搬运,也少一点格式出错。

对第三方评测者来说,价值也很清楚。结果不只留在自己的仓库或报告里,而是有机会出现在模型页上。读者点开分数时,也能顺着 source 回到完整记录,而不是只看一张截图。

评测分数最怕脱离上下文

AI 评测里,一个小数点后两位并不总是最重要的。更关键的是,它是在什么条件下得到的。

同一个模型,同一个基准,也可能因为提示词、采样参数、评测工具版本不同,跑出不同结果。原文提到,LLaMA 65B 在 MMLU 上曾出现 63.7 和 48.8 两个分数。这类差异并不罕见。

这也是我不太买账“只看排行榜名次”的原因。排行榜能帮人快速筛选,但不能自动回答“这个分数是不是和另一个分数可比”。

EEE 与 Community Evals 的互通,把这个问题往前推了一步。模型卡上看到分数后,研究者可以继续查来源、设置和指标定义。采购或选型团队也可以先把“只有裸分、没有出处链”的结果降权,而不是立刻拿来做横向比较。

这不是吹毛求疵。模型评测已经影响论文结论、产品选型和开源模型声誉。没有上下文的分数,容易变成“刻舟求剑”:剑早就换了位置,数字还被当作同一把尺。

但边界也要说清楚。

回链到 EEE JSON,不等于分数绝对可信。它只能让读者更容易检查来源和条件。至于评测是否合理、样本是否污染、prompt 是否公平,仍然需要研究者或使用方自己判断。

转换器能省事,但还不是自动评测机器

这套转换器做的是格式映射。它会把 EEE 记录转换成 Hugging Face 需要的 YAML 字段。

例如,source_data.hf_repo 会映射为 dataset.idevaluation_name 会映射为 task_idscore_details.score 会映射为 value。转换后的 YAML 还会加入指向 EEE JSON 的 source URL。

目前支持范围不大,只覆盖四个官方基准:MMLU-Pro、GPQA、HLE 和 GSM8K。

能做什么当前限制
下载指定 EEE datastore collection只支持部分官方基准
校验对象哈希不能自动证明评测质量
检查模型仓库主分支和开放 PR 中已有的 .eval_results YAML仍依赖模型仓库接受 PR
标记 already_presentscore_conflictmissing_hf_model 等状态冲突分数仍需要人工判断
生成本地预览和 review 文件开 PR 前必须人工审阅并显式确认

这个限制很现实。工具不会悄悄把结果塞进模型页。它在开 PR 前会生成本地预览和 review 文件,需要人工审阅。提交者还要输入 OPEN PRS 和 commit message,才会真正提交。

模型作者也不是被动接受。他们仍然可以关闭 PR,或者不展示某些结果。

所以这次互通更像一条规范化通道,不是一条全自动流水线。它降低的是“把可追溯评测放到公共页面”的成本,不是消灭评测争议。

接下来要看三个变量。

第一,支持基准能不能从 MMLU-Pro、GPQA、HLE、GSM8K 扩到更多常用评测。覆盖面太窄,价值就会停在早期提交者手里。

第二,模型作者是否愿意接受第三方评测 PR。如果只接受自己跑出来的好看分数,出处链也会打折。

第三,同一模型同一 benchmark 出现冲突分数时,Hub 页面能否帮助读者看懂差异来源。比如是 prompt 不同、生成设置不同,还是评测版本不同。

如果这三件事跟不上,互通只会把分数摆得更整齐。若机制跟得上,它会让 AI 评测从“看榜”往“查账”挪一步。

回到开头那个问题:模型高了 3 分,能不能信?

现在还不能只凭一个数字下结论。但至少,读者多了一条路去问:这 3 分从哪里来。