Every Eval Ever 打通 Hugging Face：模型分数开始补“出处链”

核心摘要 Summary

Every Eval Ever 的评测记录现在可以转换成 Hugging Face Community Evals 所需 YAML，提交到模型仓库的 .eval_results/ 目录，并显示在模型卡和对应 leaderboard 上。
关键变化不是多了一个榜，而是分数能回链到完整 EEE JSON，读者可以追到来源、模型访问方式、生成设置和指标含义。
限制也很明确：目前只支持 MMLU-Pro、GPQA、HLE、GSM8K 四个官方基准，提交仍依赖 PR、人工审阅和模型仓库治理。

一个模型在榜单上高了 3 分，能不能信？

过去很多时候，读者只能看到一个数字。至于它是谁跑的、怎么跑的、用了什么提示词和生成参数、指标到底怎么算，常常要顺着论文、博客、排行榜页面和日志一路翻。

Every Eval Ever（EEE）与 Hugging Face Community Evals 的互通，解决的正是这件小但要命的事。按照 Hugging Face 6 月 30 日发布的说明，评测提交者现在可以把 EEE 里的评测记录转换成 Hugging Face Hub 所需的 YAML 文件，提交到模型仓库的 .eval_results/ 目录。

提交后，分数会显示在模型卡和对应 benchmark leaderboard 上。同时，YAML 里会带一个 source 链接，指回完整的 EEE JSON 记录。

我更在意的不是“又多了一个展示入口”。而是 AI 评测终于开始把分数和出处绑在一起。分数仍然要审慎看，但查账的成本低了。

这次打通的核心，是展示层和记录层分工

EEE 于 2026 年 2 月推出，由 EvalEval Coalition 发起。它的目标不是做一个更热闹的排行榜，而是用统一 JSON schema 记录评测结果。

一条 EEE 记录会尽量说明几件事：评测来源是谁，模型是什么，模型如何访问，生成设置是什么，指标含义是什么。它还可以附带逐样本输出的 JSONL 文件。

Hugging Face Community Evals 也在 2026 年 2 月上线，但位置不同。它更像展示和分发层：benchmark 在数据集仓库中通过 eval.yaml 注册；模型分数则以 YAML 文件放进模型仓库的 .eval_results/ 目录，并显示在模型卡和对应 leaderboard 上。

两边不是合并，也不是 Hugging Face 接管 EEE。更准确地说，是把“完整记录”和“公共展示”接上了。

项目	Every Eval Ever	Hugging Face Community Evals	打通后的变化
核心位置	统一 JSON datastore	模型页与 leaderboard	分数可见，也可追溯
记录重点	来源、模型、访问方式、生成设置、指标、可选逐样本输出	benchmark、task、value、date、source	少维护一套孤立结果
当前边界	不保证分数绝对可信	不代表全 Hub 模型已标准化	提升可解释性，不替代复现

EEE datastore 目前约有 229000 条评测结果，覆盖 22000 多个模型、2200 个基准，来自 31 种报告格式。

这个数字说明，行业并不缺分数。真正麻烦的是分数太散，格式太乱，上下文太少。

对模型开发者来说，直接动作会更具体：如果团队已经把评测结果整理进 EEE，就可以用转换器生成 Hugging Face YAML，再通过 PR 放到模型页。少做一次手工搬运，也少一点格式出错。

对第三方评测者来说，价值也很清楚。结果不只留在自己的仓库或报告里，而是有机会出现在模型页上。读者点开分数时，也能顺着 source 回到完整记录，而不是只看一张截图。

评测分数最怕脱离上下文

AI 评测里，一个小数点后两位并不总是最重要的。更关键的是，它是在什么条件下得到的。

同一个模型，同一个基准，也可能因为提示词、采样参数、评测工具版本不同，跑出不同结果。原文提到，LLaMA 65B 在 MMLU 上曾出现 63.7 和 48.8 两个分数。这类差异并不罕见。

这也是我不太买账“只看排行榜名次”的原因。排行榜能帮人快速筛选，但不能自动回答“这个分数是不是和另一个分数可比”。

EEE 与 Community Evals 的互通，把这个问题往前推了一步。模型卡上看到分数后，研究者可以继续查来源、设置和指标定义。采购或选型团队也可以先把“只有裸分、没有出处链”的结果降权，而不是立刻拿来做横向比较。

这不是吹毛求疵。模型评测已经影响论文结论、产品选型和开源模型声誉。没有上下文的分数，容易变成“刻舟求剑”：剑早就换了位置，数字还被当作同一把尺。

但边界也要说清楚。

回链到 EEE JSON，不等于分数绝对可信。它只能让读者更容易检查来源和条件。至于评测是否合理、样本是否污染、prompt 是否公平，仍然需要研究者或使用方自己判断。

转换器能省事，但还不是自动评测机器

这套转换器做的是格式映射。它会把 EEE 记录转换成 Hugging Face 需要的 YAML 字段。

例如，source_data.hf_repo 会映射为 dataset.id，evaluation_name 会映射为 task_id，score_details.score 会映射为 value。转换后的 YAML 还会加入指向 EEE JSON 的 source URL。

目前支持范围不大，只覆盖四个官方基准：MMLU-Pro、GPQA、HLE 和 GSM8K。

能做什么	当前限制
下载指定 EEE datastore collection	只支持部分官方基准
校验对象哈希	不能自动证明评测质量
检查模型仓库主分支和开放 PR 中已有的 `.eval_results` YAML	仍依赖模型仓库接受 PR
标记 `already_present`、`score_conflict`、`missing_hf_model` 等状态	冲突分数仍需要人工判断
生成本地预览和 review 文件	开 PR 前必须人工审阅并显式确认

这个限制很现实。工具不会悄悄把结果塞进模型页。它在开 PR 前会生成本地预览和 review 文件，需要人工审阅。提交者还要输入 OPEN PRS 和 commit message，才会真正提交。

模型作者也不是被动接受。他们仍然可以关闭 PR，或者不展示某些结果。

所以这次互通更像一条规范化通道，不是一条全自动流水线。它降低的是“把可追溯评测放到公共页面”的成本，不是消灭评测争议。

接下来要看三个变量。

第一，支持基准能不能从 MMLU-Pro、GPQA、HLE、GSM8K 扩到更多常用评测。覆盖面太窄，价值就会停在早期提交者手里。

第二，模型作者是否愿意接受第三方评测 PR。如果只接受自己跑出来的好看分数，出处链也会打折。

第三，同一模型同一 benchmark 出现冲突分数时，Hub 页面能否帮助读者看懂差异来源。比如是 prompt 不同、生成设置不同，还是评测版本不同。

如果这三件事跟不上，互通只会把分数摆得更整齐。若机制跟得上，它会让 AI 评测从“看榜”往“查账”挪一步。

回到开头那个问题：模型高了 3 分，能不能信？

现在还不能只凭一个数字下结论。但至少，读者多了一条路去问：这 3 分从哪里来。

Every Eval Ever 打通 Hugging Face：模型分数开始补“出处链”

评测互通

核心变化

回链溯源

页面展示

分工明确

EEE

HF

价值重心

上下文补全

裸分降权

现实边界

基准有限

人工治理

后续变量

覆盖扩展

冲突解释

这次打通的核心，是展示层和记录层分工

评测分数最怕脱离上下文

转换器能省事，但还不是自动评测机器