一天从 0 到 36%:一家小公司把 ARC-AGI-3 打出了点“智能体味道”

ARC 这个名字,近几年已经成了 AI 圈的一块“试金石”。谁都知道,大模型会聊天、会写代码、会背很多知识,但真把它扔进一个需要观察、试探、修正、再尝试的陌生环境里,很多时候就像一个学霸第一次进厨房:道理都懂,锅铲一拿就手忙脚乱。
这也是为什么 Symbolica 最新这篇博客会引起不少关注。它宣布,自家的 Agentica SDK 在 ARC-AGI-3 公共评测中,拿到了 36.08% 的非官方成绩,解出 182 个可玩关卡中的 113 个,并完整通关 25 个游戏中的 7 个。更刺激的是,博客拿它去对比几种纯 CoT(Chain of Thought,思维链)基线模型:Opus 4.6 Max 只有 0.2% 左右,GPT 5.4 High 约 0.3%。如果这些数字后续被验证,至少说明一件事:在 ARC-AGI-3 这类题目上,光靠“多想两步”已经不太够了,AI 需要像个真正的代理人一样去操作、去反馈、去坚持。
36% 为什么比看上去更重要
单看 36.08%,很多读者可能会觉得:也不算高啊,离“聪明得像人”还差得远。这个判断没错,但也容易低估 ARC-AGI-3 的难度。ARC 系列测试从一开始就不是冲着“语言流畅度”去的,而是冲着抽象模式归纳、陌生任务迁移和少样本推理去的。说白了,它不在乎模型会不会把答案讲得头头是道,它更关心你能不能在几乎没有提示的情况下,自己摸索出规则。
而 ARC-AGI-3 又比之前更进一步。它不只是让模型盯着静态题目做推理,而是让它在一个可交互的游戏环境里行动。这种变化看似简单,实际非常关键。因为很多 AI 系统在“说”这件事上已经很像人,但一旦要“做”,马上露馅:不会规划,不会长时间维持目标,不会根据反馈调整策略,更别提在失败后重新组织行动。
所以 Symbolica 这次成绩的含金量,不在于“36% 已经很高”,而在于它提供了一个信号:代理式 AI,也就是 agentic AI,开始在这类强调交互和试错的基准上显露出比传统提示工程更明显的优势。过去一年,行业里“AI Agent”四个字已经快被说烂了,PPT 上人人都在画自动化工作流、万能助手和数字员工。但 ARC-AGI-3 这种评测,恰恰能把幻觉和真本事拉开一点距离。
这不是更大的模型,而是更会“折腾”的系统
Symbolica 公布的数据里,最耐人寻味的不只是分数,还有成本。按照博客说法,Agentica 用约 1005 美元拿到了 36.08%,而 Opus 4.6 的 CoT 基线花了 8900 美元,分数却只有 0.25%。如果这个口径成立,那就很像一场经典的工程胜利:不是靠堆更多算力硬怼出来,而是靠系统设计把模型能力真正调动起来。
这背后的逻辑,其实和今天 AI 研发的一个大趋势高度一致。大模型本体越来越像“发动机”,但产品真正拉开差距的地方,往往在发动机外面:怎么拆解任务、怎么调用工具、怎么保留记忆、怎么利用环境反馈、怎么在多轮行动里纠错。过去两年,不少团队都发现,模型参数继续增加当然有效,但收益变得越来越贵;反而在 agent 框架、搜索机制、程序化约束和执行策略上下功夫,常常能换来更可见的提升。
从博客提供的成绩表也能看出来,这不是一个“无脑通吃”的系统。它在一些游戏上表现相当亮眼,比如 CN04 达到 97.6%,LP85 为 84.16%,AR25 为 83.28%,FT09 为 77.59%。但也有不少项目分数很低,甚至接近于零。这种参差不齐反而让我更愿意相信,这事不像营销稿里常见的“全面领先”,更像是一个还在成长中的实验系统:某些类型的任务已经找到了有效策略,另一些仍在挣扎。
换句话说,Agentica 像一个刚学会几套解题套路的玩家,遇到熟一点的图形和交互规则就越打越顺,一旦碰到特别刁钻的关卡,还是会卡住。它不是“通用智能”已经到来,而是“通往通用智能的路子”里,某种方法开始显示出潜力。
ARC 这件事,为什么总能戳中行业神经
ARC 之所以在 AI 圈里地位特殊,是因为它总爱问一些让主流路线不太舒服的问题。比如:如果一个系统见过海量互联网文本,它到底是真的学会了抽象规律,还是只是把人类世界里常见的模式压缩记住了?如果把训练语料里很少出现、甚至没出现过的陌生任务摆在它面前,它还能不能像人一样临场理解?
这也是 François Chollet 当年提出 ARC 背后的核心焦虑。很多 AI 测试其实是在比“见多识广”,而不是在比“能否举一反三”。在语言模型狂飙的时代,这个问题尤其扎心。因为一个模型可以非常会写,甚至会模仿思考的样子,但这并不等于它真正具备稳健的抽象推理能力。
ARC-AGI-3 把这个焦虑又往前推了一步:不只看你会不会归纳,还看你能不能在行动中归纳。它更接近现实世界任务的样子。现实里的 AI 助手,不会天天只被问“请总结这篇文章”;更多时候,它要订票、查错、填表、调用接口、观察页面变化,再决定下一步做什么。每一步都可能出错,每一步都需要反馈。谁能在这类环境里稳定工作,谁才更接近真正能落地的 AI Agent。
从这个角度看,Symbolica 的成绩不只是竞赛成绩,更像是行业路线图上的一个小路标:如果未来前沿模型继续卷“更大、更贵、更会说”,但在交互执行层面没有同步突破,那它们在很多真实应用场景中的价值会被打折。相反,那些擅长把模型组织成行动系统的团队,可能会在下一轮竞争里跑得更快。
惊喜之外,也别急着开香槟
当然,这条新闻最需要冷静看的地方,也恰恰在“非官方”三个字上。Symbolica 自己也写得很明白,这是 unverified competition score,也就是尚未经过官方正式确认的竞赛成绩。对于任何基准测试来说,复现、口径一致和独立验证都非常重要。尤其当结果和基线差距大到有点戏剧化时,外界天然会追问:评测设置是否一致?成本计算口径是否统一?有没有针对特定环境做特殊优化?
还有一个现实问题是,ARC-AGI-3 终究还是一个基准。再好的基准,也不等于现实世界全部。AI 行业这些年反复上演同一幕:在榜单上赢得漂亮,不代表一定能在产品上赢得用户。很多系统在封闭任务里表现惊艳,一落地就被边角情况、异常流程和用户乱操作打回原形。Agentica 今天能在 ARC-AGI-3 上打出一张漂亮成绩单,当然值得鼓掌,但它距离“稳定可靠地处理开放世界复杂任务”,中间还有一大段路。
不过,我倒觉得这种“先别神化”的态度,不应该削弱这项成果的意义。相反,正因为大家已经见过太多夸张叙事,所以任何一个在艰难基准上给出可运行代码、公开方法、展示成本结构的团队,反而更值得被认真看待。Symbolica 这次把 GitHub 仓库一并放出,也算是做了一件对社区友好的事:你不必完全相信我,但你可以自己去试。
从会聊天到会干活,AI 的下一场硬仗开始了
如果把这条新闻放到 2025 年的 AI 竞争格局里看,它其实很有代表性。大模型公司过去几年主要在追求更强的通用表达能力,聊天、写作、编程、搜索整合一路高歌猛进;但接下来,行业会越来越关心一个更朴素的问题:它到底能不能把事情办成?
这也是为什么“Agent”概念会在今年重新升温。不是因为这个词新,而是因为大家终于发现,用户真正愿意付钱的,不是一个总能侃侃而谈的聊天机器人,而是一个能帮你完成任务、节省时间、减少出错的数字执行者。对企业来说,后者比前者重要得多。能写一封邮件很好,能自动处理一串流程更值钱。
Symbolica 这次成绩像是在提醒大家:AI 的比赛,可能正在从“谁回答得更像人”切换到“谁在环境里更像一个靠谱同事”。这两者有重叠,但绝不是一回事。一个模型可以写出很漂亮的推理链,却在真实任务里一步走错、步步皆错;另一个系统也许表达没那么华丽,却能靠反复试探、调用工具和利用反馈,慢慢把问题磨出来。后者看起来笨一点,但往往更有生产力。
我对这件事最大的兴趣,恰恰在这里:它让我们重新思考“智能”到底是什么。是出口成章,还是达成目标?是一次性答对,还是在失败中修正?从人类经验看,真正有用的智能,通常不是前者,而是后者。
如果说过去两年是大模型把“语言能力”卷到了令人眼花缭乱的高度,那么接下来的两年,AI 很可能要在“行动能力”上补课。ARC-AGI-3 只是一个小而尖锐的课堂测验,而 Symbolica 这次交出的卷子,至少说明有些学生已经不满足于坐在座位上空想,他们开始站起来,真的去解题了。