3月24日的AI新闻不算热闹,没有一家头部公司甩出那种能立刻改写估值的旗舰模型。但如果把视线从“谁更大、谁更强”挪开,会发现两条更扎实的主线正在成形:一条是新的评测体系在重新定义“通用智能”该怎么测,另一条是代理(Agent)正从演示视频走向更像企业软件的交付形态。
其中最该认真看的,是 ARC Prize 和 François Chollet 推出的 ARC-AGI-3。它最刺激市场神经的地方,不是“前沿模型得分不到 1%”这句标题党式数据,而是它试图把评测从“刷题能力”拉回“陌生任务上的学习效率”。这件事重要,因为今天很多模型的强,靠的是海量见过、海量调参和越来越复杂的 harness;它不那么重要的地方也很清楚:一个评测不是 AGI 本身,更不是产品可用性的总分。
ARC-AGI-3在测什么:不是答题,而是临场适应
ARC-AGI-3是一套更偏交互式的谜题/游戏环境。官方说法是,人类可以完成 100% 任务,而当前最强一批模型得分不到 1%。真正引发争论的不是题目本身,而是计分方式:它按效率打分,会拿代理的动作步数去对比“第二优人类”步数,额外操作会被重罚。
这就解释了为什么很多研究者并不完全反对 ARC-AGI-3,却对“<1%”这个数字保持保留。因为它和早期 ARC 的“完成率”不是一回事,和 NetHack 这类开放交互 benchmark 也不是一回事。Chollet 的态度很明确:他就是要排除人类为任务量身定做系统的那部分加成,只看模型能不能在几乎零准备下自己搞明白新规则。这个标准很苛刻,但它确实戳中了今天大模型代理的痛点——一旦环境反馈稀疏、规则不在训练套路里,系统就会变得笨拙。
换句话说,ARC-AGI-3不是在问“模型会不会解题”,而是在问“模型第一次见题时像不像一个会摸索的人”。
比新模型更关键的,是代理正在变成可采购的软件
如果把当天发布放在一起看,会发现另一个更现实的趋势:行业开始把 agent 当成应用系统,而不是聊天框外挂。LangChain 发布可共享的 Fleet skills,Anthropic 解释 Claude Code 的 auto mode 如何通过分类器做审批,Cursor 推出 self-hosted cloud agents,把执行和代码留在客户网络里;Imbue 的 Keystone 自动给任意代码库生成开发容器,Sierra 的 Ghostwriter 则直接把“搭 agent 的 agent”做成客户服务流程产品。
这背后是一个行业共识在变:大家不再满足于“提示词写得好不好”,而是开始围绕权限、记忆、沙箱、工作流、复用技能这些工程问题搭底座。去年很多代理产品卡在 demo 很惊艳、上线很难看;今年的变化是,厂商开始补齐那层脏活累活。公开宣传里说的是自主执行,行业现实里拼的却是审批流、审计、隔离环境和失败回退。企业客户最后买单,看的不是 agent 会不会写诗,而是它能不能进内网、能不能留痕、能不能少惹事。
下面这张表,基本能看出当天几类动作的差别:
| 方向 | 代表动作 | 解决的问题 | 真正受益的人 |
|---|---|---|---|
| 评测标准 | ARC-AGI-3 发布 | 测陌生任务泛化,而非刷榜 | 研究团队、模型公司 |
| 代理基础设施 | LangChain Fleet skills、Claude Code auto mode | 让代理可复用、可审批 | 企业开发团队 |
| 部署形态 | Cursor self-hosted cloud agents | 代码不出网、执行留内网 | 安全敏感企业 |
| 多模态模型 | Google Lyria 3 Pro、LongCat-Next | 扩展到音乐、图像、语音统一生成 | 内容工具团队、研究者 |
| 本地硬件 | Intel Arc Pro B70 32GB、WebGPU 跑 24B 模型 | 降低本地运行门槛 | 个人开发者、小团队 |
这一天对谁最有现实影响:研究员、企业IT和本地开发者
对研究人员来说,ARC-AGI-3会带来一个不舒服但必要的压力:以后单纯靠更大的训练数据和更厚的推理脚手架刷分,未必还能轻松讲“通用性”故事。它未必会成为唯一标准,但很可能会迫使更多团队把注意力投向交互探索、稀疏反馈和学习效率。
对企业客户,影响更直接。如果你负责内部工具采购,接下来最现实的变化不是“要不要追最新模型”,而是“要不要统一代理底座”。因为从 Anthropic 到 Cursor,大家都在把同一件事做得更具体:代理要接入公司权限体系、代码仓库、浏览器环境和审计流程。很多公司今年的预算会从“试几个模型 API”转向“选一条代理工作流工具链”。这类采购一旦发生,迁移成本会比换模型更高。
对本地 AI 玩家和中小开发团队,Intel Arc Pro B70 可能是当天最接地气的一条消息。32GB 显存、949 美元,谈不上便宜,但在 VRAM/价格比上确实打到了一个过去更接近二手卡或专业卡的区间。它真正的价值不是“秒杀英伟达”,而是给 27B 级别模型的 4bit 本地部署多了一个新选项。限制也很现实:驱动、生态、推理框架兼容性,Intel 还远没到 CUDA 那种省心程度。
热闹之外的限制:很多发布还停留在“可讲故事”,没到“可替代”
Google 把 Lyria 3 Pro 从 30 秒音乐扩到最长 3 分钟,增加前奏、主歌、副歌、桥段控制,定价约 0.08 美元/首;美团发布 LongCat-Next,主打统一 token 空间里的视觉、语言、音频多模态;Sakana AI 则宣布 The AI Scientist 已发表在 Nature。单看这些消息都不小,但放在同一天里,它们更像是在填补技术版图,而不是立刻改变市场格局。
这里有个容易被忽略的约束:模型能力上去了,不等于产品替代性同步上去。音乐模型能生成三分钟,不代表就能进入专业制作链路;多模态模型统一了 token,不代表企业就愿意为复杂训练和推理成本买单;“AI Scientist”登上 Nature 也不代表科研流程已经能放心交给机器。历史参照很清楚——从 2023 年的 AutoGPT,到 2024 年的各类 AI 员工叙事,行业已经反复证明,演示上的连贯性和真实环境里的稳定性,中间隔着一整层工程和责任体系。
今天这些消息放在一起看,真正的信号不是“AI又有一堆新东西”,而是赛道正在从模型竞赛分叉成两条线:一条继续争论智能该如何定义,另一条老老实实解决部署、成本和权限问题。前者决定上限,后者决定收入。
