LLM 评测的麻烦：如果模型算“懂道德”，《帝国时代 II》也能被说成像人

核心摘要 Summary

一篇 arXiv 论文把《帝国时代 II》拉进了 LLM 评测争论。

题目很冲：《If LLMs Have Human-Like Attributes, Then So Does Age of Empires II》。大意是：如果大型语言模型因为某些输出就能被说成有类人属性，那《帝国时代 II》也可以。

这不是在说一款 1999 年的即时战略游戏真的懂道德、会理解自然语言。论文更像是在逼问一个评测习惯：当系统表现得像人时，我们测到的是能力，还是给输出套了一个人的解释？

论文编号是 arXiv:2605.31514，2026 年 5 月提交，6 月修订，归入计算语言学、人工智能、计算机与社会等领域。作者没有证明 LLM 没有理解或道德。更准确地说，他们指出：现有一些结论可能不够充分，因为测量标准没有把“行为输出”和“属性归因”分清。

论文反驳的是一种归因捷径

LLM 研究里常见一种表达：模型在道德困境、角色扮演、多轮任务里给出稳定回答，于是论文或产品说明把它写成“理解自然语言”“具备道德判断”“表现出类人代理性”。

这类写法有现实诱因。研究者需要命名现象，产品团队需要解释能力，用户也确实会用人的词去描述模型。一个客服机器人回复得体，大家很自然会说它“懂分寸”。

论文反驳的正是这一步。

它的核心论点是：相同行为输出可能出现在不同基底上，但研究者会给它们赋予不同解释。放在 LLM 上，像“理解”；放在游戏系统里，像“规则触发”。如果没有显式测量标准，这种解释差异就站不稳。

可以把问题压成一张表：

这里的关键词是“非唯一性”。同一类输出，不只有一种解释。它可以来自语言理解，也可以来自规则、统计模式、提示词结构、任务设计，或其他复杂机制。

所以这篇论文的靶心不是 LLM 本身，而是评测论文里那条太顺的推理链：像人回答，所以具有人类属性。

《帝国时代 II》这个例子有反讽味，但不是随手找的笑话。

论文声称可以证明《帝国时代 II》具备函数完备和图灵完备性。这个说法的作用，不是把游戏抬成智能主体，而是提供一个复杂基底：它有资源、单位、地图、规则、状态变化和交互机制，也能承载复杂计算。

这就把问题推到一个尴尬位置。

如果复杂性、可计算性、稳定输出足以支撑“类人属性”的说法，那么一个复杂游戏系统也会被卷进来。但我们通常不会说《帝国时代 II》有道德感。我们只会说，它按规则运行。

论文借这个距离感说明一件事：基底复杂，不等于解释成立。

这和 AI 评测史上的老问题有点相似。图灵测试看的是对话可混淆性，GLUE、SuperGLUE 把自然语言理解拆成任务和分数。后来模型分数越刷越高，基准也开始变钝。到了 ChatGPT 之后，评测扩展到偏好、价值观、多步任务和智能体行为，解释空间更大。

分数题的麻烦是会被刷。开放行为测试的麻烦是会被解释过头。

这也是我更在意的地方。论文没有给 LLM 能力判死刑，它是在要求研究者补尺子。没有尺子，“像人”就会变成一个太方便的词。

论文提出的替代立场，是把“LLM 非唯一性”作为零假设。

意思很直接：设计实验时，不要预设模型已经具备类人属性。先假定这些表现可能由多种机制产生，再说明你的测量为什么能排除替代解释。

这对两类人最有影响。

研究者要少用大词，或者给大词补定义。比如写“understanding”“morality”“agency”时，不能只展示几个任务表现。至少要说明：操作定义是什么，测量指标是什么，哪些替代解释被排除，哪些还没有排除。

产品团队也不能只拿“回答像人”当卖点。客服、法务、教育、医疗这类场景里，采购方更该问四件事：测的是正确率、一致性、风险规避，还是某种被包装成“价值观”的综合指标？失败样本怎么定义？边界场景怎么测？上线后怎么复盘？

这会带来很具体的动作。企业客户可能不会因为一篇论文立刻停采 LLM 系统，但更可能延后签约，要求供应商补评测报告，或者把“类人能力”改写成可验收指标。开发团队则要把演示话术往工程指标迁移，少说“懂”，多说“在什么测试集、什么场景、什么阈值下表现稳定”。

现实约束也要说清。不是所有产品都能做学术级测量。很多场景更在意成本、响应速度和风险控制。论文的价值不在于要求每个团队都做哲学证明，而是提醒大家：不要把一个好用的行为，直接命名成一个人的属性。

接下来最该看的，不是《帝国时代 II》会不会成为 AI 哲学新主角。更实际的变量有两个：顶会论文会不会更严格地区分“行为测量”和“属性归因”；企业采购和模型评测报告会不会把“理解、道德、代理性”这类词改成可测试条款。

如果这两个地方没变，标题再好笑也只是一个梗。若评测口径开始收紧，这篇论文击中的就是 LLM 产业里最容易被忽略的一段软肋：我们太习惯用人的词，解释机器的输出。