AI 会做题,不等于会思考:ARC-AGI-3 想把“真正的智能差距”重新量出来

人工智能 2026年3月25日
ARC Prize 推出的 ARC-AGI-3,不再考 AI 会不会解静态题,而是考它能不能像人一样在陌生环境里边玩边学、边试边改。这件事之所以重要,是因为今天的大模型已经很会“背答案”,但距离真正可迁移、可适应、可持续学习的智能,可能还差着一道最难的门槛。

从“会答题”到“会探索”,ARC-AGI-3 换了一种出题方式

AI 测评这几年有点像高考冲刺班:题库越来越大,分数越来越高,榜单越来越热闹,但你总会隐隐觉得哪里不对。很多模型在标准基准上一路刷榜,到了真实世界里,还是会在一些人类觉得“常识级”的任务上翻车。ARC Prize 最新发布的 ARC-AGI-3,正是冲着这个尴尬来的。

它的核心变化很直接:不再让 AI 对着静态题目直接交答案,而是把它扔进一个全新的交互式环境里,让它自己观察、尝试、犯错、修正,再慢慢找到规律。换句话说,这不是考“你记住了什么”,而是考“你到了陌生地方之后,能不能自己搞明白发生了什么”。

官方把 ARC-AGI-3定义为“首个面向类人智能的交互式推理基准”。这个说法听起来有点大,但背后的设计思路其实很朴素:如果一个系统真有接近人类的智能,它就不该只会在固定格式的题面里找模式,而应该能在没有自然语言提示、没有预加载知识、反馈又很稀疏的情况下,靠经验一步步建立世界模型。人类玩一个没见过的小游戏时,大致就是这么干的。

这也是 ARC-AGI-3 最有意思的地方。它不再痴迷于最终答案本身,而是开始关注过程:AI 的规划跨度有多长,能不能压缩记忆,能不能根据新证据更新判断,学习效率是不是接近人类。说白了,它盯上的不是“算出来了没有”,而是“你到底是蒙对的,还是学会了”。

为什么这个时间点特别关键:大模型正在撞上“适应力天花板”

ARC-AGI-3 之所以值得关注,不只是因为它发布了一个新 benchmark,更因为它戳中了当下 AI 行业最敏感的一根神经:今天的模型越来越强,但大家对“这算不算通用智能”越来越没底。

过去两年,生成式 AI 的进步肉眼可见。大模型能写代码、做数学题、读论文、调用工具,甚至还能装得很像一个“全能助理”。可一旦环境变化、规则变动、任务需要多步探索,很多系统还是会暴露出明显短板。它们擅长在训练数据覆盖过的分布附近表现惊艳,却不总能在真正陌生的场景里快速适应。

这也是 François Chollet 当年提出 ARC 系列测试的初衷:如果 AI 只是靠海量数据拟合模式,而不是以高效的方式获取新技能,那它离 AGI 仍有距离。ARC-AGI-1 和 ARC-AGI-2 已经在试图测量这种差距,但它们大体仍属于“给定输入,输出答案”的范式。ARC-AGI-3 往前迈了一步,开始把“时间”作为智能的一部分纳入测量。这个变化看似技术,实则很关键。

因为现实世界从来不是一道静态题。机器人进厨房,不会收到标准化 JSON;自动驾驶上路,不会先给你一页规则说明;AI 助手接手企业流程,也不可能把所有边界条件预先写进 prompt。真正麻烦的地方,恰恰是那些需要边观察边行动、边行动边学习的情境。ARC-AGI-3 想测的,就是这种能力。

从行业角度看,这也像是对当前“刷榜文化”的一次温和反击。如今很多 benchmark 已经被做成了公开竞赛、论文配套和市场宣传的综合舞台,模型厂商越来越熟悉如何针对指标优化。分数当然重要,但如果指标本身越来越容易被“训练出熟练感”,它对智能的刻画价值就会下降。ARC-AGI-3 试图提高的,不只是难度,而是抗“套路化”的能力。

它到底在测什么:不是语言能力,而是行动中的推理能力

按 ARC Prize 的说法,ARC-AGI-3 的环境都是“100% 人类可解”的,而且目标是让 AI 最终能以接近人类的效率完成所有游戏。这里面有个很有分量的标准:不是单纯通关,而是以人类那样的学习效率通关。这个门槛,比想象中高得多。

一个人类玩家进入新游戏,往往只需要几次试探,就能意识到哪些东西可移动、哪些颜色有意义、哪些反馈代表接近目标。这个过程很难被一句 prompt 概括,因为它包含了注意力分配、短时记忆、行动后归因,以及对环境规律的逐步抽象。ARC-AGI-3 把这些能力拆进了交互流程里,让系统必须用行动来证明自己的理解。

这和当下很多主流评测形成了鲜明对比。像 MMLU、GSM8K、HumanEval 这类基准,依然主要是在测知识调用、符号推理或代码生成能力。它们很重要,但都偏“桌面考试”。ARC-AGI-3 更像把 AI 叫到操场上:别光坐着答卷,跑两圈、跳两下、看你遇到陌生规则还能不能迅速上手。

官方还提供了回放功能、开发工具包和可视化界面,这一点很讨巧。过去很多 benchmark 的问题在于,外界只能看到分数,却很难看到模型是怎么走到那个分数的。现在有了 replay,研究者可以更细致地追踪代理的决策轨迹:它是在系统探索,还是在随机乱撞?它什么时候形成了稳定策略?它为什么在某一步骤突然失败?对于一个真正关心“智能机制”的社区来说,这比排行榜前后差 0.8 分要有价值得多。

当然,ARC-AGI-3 也不是没有挑战。交互式评测天然更复杂,实验成本更高,结果复现也更难。它对 agent 框架、环境接口、运行预算都有要求,不像一道选择题那样便于快速批量比较。这意味着它可能不会像传统 benchmark 那样迅速变成全行业统一指标,但恰恰因为麻烦,它也更接近真实能力的轮廓。真正有价值的测试,通常都不会太省事。

这对大模型公司、智能体创业者和机器人赛道意味着什么

如果把 ARC-AGI-3 放进更大的产业图景里看,它其实是在给“AI Agent”这股热潮泼一盆冷水,也递上一张更靠谱的路线图。

过去一年,几乎所有大模型公司都在讲 agent:会调用工具、会自动执行流程、会自己拆解任务。演示视频看起来都很美,现实体验却经常像个实习生第一天上岗——热情很高,动作很多,关键时刻容易掉链子。问题不一定出在模型“不会说”,而是它不够会“做”:不会在动态反馈中稳住策略,不会在长任务中维持一致目标,也不会在陌生环境里迅速形成可靠认知。

ARC-AGI-3 恰好切中这些痛点。它告诉行业,下一阶段竞争不只是拼参数、拼上下文长度、拼谁的 agent demo 更丝滑,而是拼谁能让系统真正具备持续学习和环境适应能力。这对 OpenAI、Anthropic、Google DeepMind 这样的模型公司是提醒,对一大批做自动化工作流、浏览器代理、具身机器人的创业团队更是硬指标。因为只要你的产品需要“在未知中行动”,这种能力迟早要补课。

我尤其看好它对机器人领域的启发。机器人行业这些年一直被“最后一公里智能”困住:感知模块、运动控制、抓取算法都在进步,但一到开放环境里的多步骤任务,系统就容易僵住。原因之一就是,机器人不仅要推理,还要在交互中更新世界模型。ARC-AGI-3 虽然主要是数字环境,但它在方法论上和机器人面临的是同一类难题——如何让机器在不确定中学得更像人。

不过,这里也有一个值得警惕的争议点:我们究竟该不该把“接近人类”视为智能的唯一尺度?ARC-AGI-3 强调人类可解性和人类效率,这当然有助于构建清晰标准,但也可能限制我们对“非人类智能形态”的想象。有些系统也许不会像人那样学,却能以另一种方式高效完成任务。未来的关键,也许不是机械地追求人类同构,而是在可解释、可泛化、可适应的前提下,接受智能存在多种实现路径。

一个好 benchmark 的价值,不只是分数,而是逼行业面对真问题

科技行业很喜欢“发布”,因为发布意味着叙事;但真正稀缺的,其实是“测量”。没有好的测量,所谓进步就容易变成幻觉。ARC-AGI-3 最重要的意义,可能就在这里:它试图把那些过去被演示视频、漂亮 demo 和宣传口号掩盖的问题,重新摆到桌面上。

它在提醒我们,AGI 不是一个靠文案包装出来的词,而是一种能力结构。你得能在陌生环境里迅速理解规则,能在有限反馈里形成长期规划,能在多步交互中更新信念,还得把这一切做得足够高效。人类儿童玩新玩具时表现出来的那种举一反三能力,恰恰是今天 AI 最欠缺、也最难伪装出来的部分。

我很喜欢 ARC Prize 页面上的那句话:只要 AI 和人类在学习上还有差距,我们就还没有 AGI。它听上去近乎“较真”,但这个时代恰恰需要一点这样的较真。因为当资本、舆论和技术乐观主义同时涌来时,最容易被忽略的,就是那些不够耀眼却决定方向的基础问题。

ARC-AGI-3 未必会成为终极答案,它自己也不可能囊括智能的全部维度。但它至少把问题问对了。一个 benchmark 能做到这一步,已经比很多热闹的发布会更有分量。对研究者来说,这是新的试验场;对公司来说,这是更难糊弄过去的考场;对普通关注 AI 的人来说,它也提供了一个更清醒的观察角度:别只看 AI 会说什么,要看它在陌生世界里到底怎么活下去。

如果未来几年,模型公司开始更频繁地展示“交互中的学习能力”,而不是单次回答的惊艳程度,我不会意外。因为 ARC-AGI-3 这种基准正在悄悄改变行业的审美:从崇拜答案,转向尊重过程;从迷信聪明,转向验证适应力。这个变化,可能比又一个高分纪录更重要。

Summary: 在我看来,ARC-AGI-3 不只是一个新测试,而是 AI 评估范式的一次纠偏。它把注意力从“模型会不会答”拉回到“系统能不能学”,这正是通往真正通用智能最难、也最不能回避的一段路。短期内,它未必会成为最流行的 benchmark,但长期看,凡是想做智能体、机器人和复杂自动化的公司,都绕不开这类交互式测量。未来两三年,行业会越来越清楚:分数能刷,适应力很难装。
ARC-AGI-3ARC PrizeAI测评交互式推理基准类人智能大模型可持续学习世界模型探索式学习陌生环境适应