AI 圈有一种很迷惑的日子:没有大模型发布,没有发布会金句,也没有 CEO 上台宣布“下一代平台”。
但这类安静日子,反而更容易露出真东西。
这期 AI News 的标题像是“not much happened today”。可把碎片拼起来看,事情并不少:研究级评测在加难,训练和推理基础设施在抠成本,Agent 周边开始长出运行时和安全问题。
我的判断很简单:AI 行业的胜负手,正在从台前模型,移到台下工程账本。
评测变难:旧榜单不够用了
几条信息先压成一张速读卡。
| 方向 | 这次出现的变化 | 更像什么信号 |
|---|---|---|
| 数学评测 | Soohak 新增 439 道研究级数学题,由 64 位数学家编写,包括 38 位 faculty | 奥赛题和常规题库筛不动前沿模型了 |
| 医疗评测 | Medmarks v1.0 扩到 30 个 benchmark、61 个模型 | 医疗 AI 不能再靠单一榜单讲故事 |
| 科学 Agent | 报告称 DeepMind AI Co-Mathematician 在 FrontierMath Tier 4 达到 48% | 研究型任务开始考系统协作,而不只是单次答题 |
| 多 Agent 拆解 | 据称 Gemini 3.1 Pro 经多 Agent 拆解后,CritPt 从 17.7% 升到 31.4% | 工作流设计开始影响评测上限 |
这里要先降温。
这些数字不少来自发布方或社区转述。GPT-5.5、Opus 4.7、Gemini 3.1 Pro 这类型号,也不适合写成完全公开、完全可核验的正式产品事实。
更不能拿一个 benchmark 成绩,直接宣布通用智能跃迁。
但有一件事已经很清楚:旧评测正在饱和。
过去两年,行业喜欢用榜单高分证明“模型又会了”。现在麻烦来了。大家都高分时,榜单就不再提供区分度。真正有价值的动作,变成三件事:题更难,场景更真,过程更可追踪。
这和考试制度很像。题太简单,筛不出人;题太偏,筛不出能力。AI 评测也在这条窄路上走。
对 AI 产品负责人来说,这意味着采购和选型要慢半拍。别只看总分。要看模型在你的任务链路里怎么失败:是检索错、推理断、工具调用错,还是长上下文里丢状态。
总分好看,只能说明它适合上榜。能不能进生产,要看失败模式。
成本变细:模型能力不再单独决定胜负
另一组信号来自底层。
SOAP/Muon 类优化器在压训练步数。Lean4-to-TileLang 超优化器据称能自动发现 FlashAttention2、FlashNorm、split-k matmul 等 kernel,在 A100 上给出约 1.8× geomean 加速。Perplexity 披露 GB200 NVL72 serving 大 MoE 的一些延迟优势,比如 NVLS all-reduce 从 H200 的 586.1µs 降到 GB200 的 313.3µs。
这些数字看起来都在说“更快”。但它们不是同一种快。
| 优化位置 | 解决的问题 | 不能直接推出什么 |
|---|---|---|
| 训练优化器 | 减少训练步数或提升收敛效率 | 不能等同于完整训练成本按比例下降 |
| Kernel / 编译优化 | 提高局部算子效率 | 不能覆盖数据、调度、通信和工程复杂度 |
| Serving 硬件 | 改善大 MoE 推理延迟或通信 | 不能自动变成所有模型、所有场景都更便宜 |
| 小模型检索 | 用专用模型优化链路局部效果 | 不能替代通用模型的复杂推理能力 |
这张账必须分开算。
吞吐、延迟、部署成本、可用性,是四件事。任何把它们加总成“AI 成本线性下降”的说法,都太粗。
但方向不含糊:模型能力已经不能单独决定胜负。训练、推理、缓存、调度、checkpoint、GPU 利用率,开始接管叙事。
小模型也没被大模型吃掉。LightOn 的 Agent-ModernColBERT 只有 149M 参数,却在检索链路上继续提升。这个信号很实在:很多环节不需要巨大的通用模型硬扛。
检索、排序、查询改写、工具调用,本来就应该有专用零件。
这对工程团队的影响很直接。接下来做 AI 应用,别急着把所有问题都丢给最大模型。更现实的路线是拆账:哪一步必须用强推理,哪一步能用小模型,哪一步该交给检索或规则,哪一步应该缓存。
“天下熙熙,皆为利来。”放到 AI 基础设施里,就是算力、延迟和毛利。模型厂讲能力,客户最后付的是账单。
Agent 进生产,先补运行时,再补安全边界
Agent 这边,真正有意思的不是 demo。
是周边基础设施开始长出来。
Stanford 的 Shepherd 把 Agent 执行做得像 Git:任务、effects、scope、trace、精确 replay、branch、rollback,还用 Lean 做形式化保证。OpenAI 提到 Symphony,让每个 open task 都能跑一个 Codex agent。LangGraph 的 DeltaChannel snapshots,则在解决长任务状态管理,不再每次粗暴保存全量状态。
这些东西不性感,但很关键。
Agent 真要进生产,难点不在“会不会调用工具”。难点在出错后怎么复现,长任务怎么暂停,状态怎么回滚,多分支怎么比较,人类怎么监督。
没有这些,Agent 只是一个话很多的实习生。有了这些,它才像一个能纳入工程体系的执行单元。
风险也跟着来了。
Mini Shai-Hulud 供应链攻击就是警钟。报道称它不只命中 TanStack,还波及 OpenSearch、Mistral AI、Guardrails AI、UiPath 等 npm 和 PyPI 生态里的 AI 开发工具。更麻烦的是持久化方式:据称会挂进 Claude Code 的 .claude/settings.json 和 VS Code 的 .vscode/tasks.json。
包删了,配置还在。未来某个工具事件,仍可能重新触发。
这就是 AI 工具链的影子基础设施。平时看不见,出事时才发现它一直有权限、有入口、有记忆。
对 AI 工程负责人来说,接下来最该做的不是再收藏十个 Agent 框架,而是把四件事列进检查单:
- 依赖包能不能锁版本、审来源、做最小权限;
- CI/CD 有没有把 Agent 工具和生产凭证隔开;
- workspace 配置能不能被扫描和回滚;
- 本地 secrets、IDE task、Claude Code 配置有没有进入安全治理。
这会让开发慢一点。没办法。自动化越深,权限越大;权限越大,攻击路径越值钱。
历史上每一轮开发效率工具都会经历这一步。包管理器、浏览器插件、CI 脚本、云端 notebook,都从“方便”走到“治理”。AI 开发工具也不会例外。不同的是,这次工具更会读、更会写、更会替你执行。
这期看似平静的 AI News,真正发生的是提问方式变了。
过去问:谁的模型最大?
现在要问:谁的评测更硬,成本更低,运行时更稳,工作流更可控,出事后还能查得清?
接下来我会盯四个变量:研究级 benchmark 能不能复现;训练和 serving 提效能不能落到真实账单;Agent 运行时能不能进入主流开发栈;供应链攻击会不会从包投毒,继续钻进 IDE、配置和本地自动化脚本。
这些变量,比一次漂亮发布会更能说明 AI 行业往哪里走。
