一篇 arXiv 论文把《帝国时代 II》拉进了 LLM 评测争论。

题目很冲:《If LLMs Have Human-Like Attributes, Then So Does Age of Empires II》。大意是:如果大型语言模型因为某些输出就能被说成有类人属性,那《帝国时代 II》也可以。

这不是在说一款 1999 年的即时战略游戏真的懂道德、会理解自然语言。论文更像是在逼问一个评测习惯:当系统表现得像人时,我们测到的是能力,还是给输出套了一个人的解释?

论文编号是 arXiv:2605.31514,2026 年 5 月提交,6 月修订,归入计算语言学、人工智能、计算机与社会等领域。作者没有证明 LLM 没有理解或道德。更准确地说,他们指出:现有一些结论可能不够充分,因为测量标准没有把“行为输出”和“属性归因”分清。

论文反驳的是一种归因捷径

LLM 研究里常见一种表达:模型在道德困境、角色扮演、多轮任务里给出稳定回答,于是论文或产品说明把它写成“理解自然语言”“具备道德判断”“表现出类人代理性”。

这类写法有现实诱因。研究者需要命名现象,产品团队需要解释能力,用户也确实会用人的词去描述模型。一个客服机器人回复得体,大家很自然会说它“懂分寸”。

论文反驳的正是这一步。

它的核心论点是:相同行为输出可能出现在不同基底上,但研究者会给它们赋予不同解释。放在 LLM 上,像“理解”;放在游戏系统里,像“规则触发”。如果没有显式测量标准,这种解释差异就站不稳。

可以把问题压成一张表:

观察对象常见解释论文提醒
LLM理解、推理、道德偏好需要说明测量标准,不能只看输出像不像人
智能体工作流计划、协作、目标追踪要区分系统行为和人格化描述
《帝国时代 II》复杂规则系统复杂性可支撑行为,不等于拥有心理属性

这里的关键词是“非唯一性”。同一类输出,不只有一种解释。它可以来自语言理解,也可以来自规则、统计模式、提示词结构、任务设计,或其他复杂机制。

所以这篇论文的靶心不是 LLM 本身,而是评测论文里那条太顺的推理链:像人回答,所以具有人类属性。

为什么偏偏拿《帝国时代 II》说事

《帝国时代 II》这个例子有反讽味,但不是随手找的笑话。

论文声称可以证明《帝国时代 II》具备函数完备和图灵完备性。这个说法的作用,不是把游戏抬成智能主体,而是提供一个复杂基底:它有资源、单位、地图、规则、状态变化和交互机制,也能承载复杂计算。

这就把问题推到一个尴尬位置。

如果复杂性、可计算性、稳定输出足以支撑“类人属性”的说法,那么一个复杂游戏系统也会被卷进来。但我们通常不会说《帝国时代 II》有道德感。我们只会说,它按规则运行。

论文借这个距离感说明一件事:基底复杂,不等于解释成立。

这和 AI 评测史上的老问题有点相似。图灵测试看的是对话可混淆性,GLUE、SuperGLUE 把自然语言理解拆成任务和分数。后来模型分数越刷越高,基准也开始变钝。到了 ChatGPT 之后,评测扩展到偏好、价值观、多步任务和智能体行为,解释空间更大。

分数题的麻烦是会被刷。开放行为测试的麻烦是会被解释过头。

这也是我更在意的地方。论文没有给 LLM 能力判死刑,它是在要求研究者补尺子。没有尺子,“像人”就会变成一个太方便的词。

对研究和产品,真正要改的是评测口径

论文提出的替代立场,是把“LLM 非唯一性”作为零假设。

意思很直接:设计实验时,不要预设模型已经具备类人属性。先假定这些表现可能由多种机制产生,再说明你的测量为什么能排除替代解释。

这对两类人最有影响。

研究者要少用大词,或者给大词补定义。比如写“understanding”“morality”“agency”时,不能只展示几个任务表现。至少要说明:操作定义是什么,测量指标是什么,哪些替代解释被排除,哪些还没有排除。

产品团队也不能只拿“回答像人”当卖点。客服、法务、教育、医疗这类场景里,采购方更该问四件事:测的是正确率、一致性、风险规避,还是某种被包装成“价值观”的综合指标?失败样本怎么定义?边界场景怎么测?上线后怎么复盘?

这会带来很具体的动作。企业客户可能不会因为一篇论文立刻停采 LLM 系统,但更可能延后签约,要求供应商补评测报告,或者把“类人能力”改写成可验收指标。开发团队则要把演示话术往工程指标迁移,少说“懂”,多说“在什么测试集、什么场景、什么阈值下表现稳定”。

现实约束也要说清。不是所有产品都能做学术级测量。很多场景更在意成本、响应速度和风险控制。论文的价值不在于要求每个团队都做哲学证明,而是提醒大家:不要把一个好用的行为,直接命名成一个人的属性。

接下来最该看的,不是《帝国时代 II》会不会成为 AI 哲学新主角。更实际的变量有两个:顶会论文会不会更严格地区分“行为测量”和“属性归因”;企业采购和模型评测报告会不会把“理解、道德、代理性”这类词改成可测试条款。

如果这两个地方没变,标题再好笑也只是一个梗。若评测口径开始收紧,这篇论文击中的就是 LLM 产业里最容易被忽略的一段软肋:我们太习惯用人的词,解释机器的输出。