Latent Space 与 Unsupervised Learning 做了一期年度交叉对谈。录制时间很关键:AIE Europe 之后,Cursor-xAI 交易之前。

swyx 给出的主线很直:2025 是 coding agents 之年。2026 的命题是 coding agents breaking containment。也就是编码代理不再只待在 IDE 里,而是开始进入企业流程、消费代理、电脑操作和更多垂直任务。

这篇对谈最有价值的地方,不是预测哪家模型多赢几分。它更像 AI 工程圈的温度计:热度正在从“模型能力崇拜”转向工作流、数据、记忆、推理基础设施和应用分发。模型仍然重要,但它吃不完世界。

AIE Europe 后,AI 工程圈真正盯着什么

AIE Europe 的讨论重点,已经不只是“模型会不会”。swyx 提到的关键词包括 OpenClaw、harness engineering、context engineering、evals、observability、GPU、multimodality。

翻译成人话:工程师更关心怎么让模型稳定干活。能不能评测。能不能追日志。能不能控成本。能不能在真实流程里少翻车。

变量发生了什么影响对象判断
编码代理从 IDE 写代码,外溢到更多任务开发者、内部工具团队、SaaS 产品这是最早跑通的 AI 工作流样板
应用公司帮企业把模型接进真实流程AI 创业者、产品负责人不是简单套壳,关键是懂业务和交付
专用模型先用前沿模型,再训练或蒸馏自有模型Agent lab、垂直应用公司换成本、延迟和控制权
开源与推理开源模型、非 NVIDIA 硬件更受关注基础设施团队、采购负责人不是 NVIDIA 衰退,是买方开始找备胎
记忆系统个性化、长期记忆、world models 被反复讨论代理产品、企业知识系统长上下文还没等于长期记忆

这里要加一道刹车。swyx 的判断是趋势观察,不是行业公投。它来自 AI 工程社区、会议议题和产品战场,不能写成所有企业都已经走到这一步。

现实更粗糙。很多公司连稳定调用模型、做 evals、管 token 成本、记录失败案例都没补完课。对这些团队来说,2026 年最该做的不是追最新模型,而是先把调用链路、权限、日志、回滚和评测补齐。

应用公司没死,但懒公司会被模型层碾碎

基础模型公司确实在往垂直领域走。金融、医疗、编程、办公,没有哪个大实验室会主动放弃。

但把它写成“创业公司全死”,太粗。原文的区分更有用:早期公司还有空间,因为它们可以贴着客户工作流跑;中型创业公司压力更大,因为产品形态已经暴露;传统 SaaS 最尴尬,价格高、流程重,AI 替代方案开始够用。

swyx 举了一个具体场景:活动和赞助管理软件可能花到六位数。团队自然会想,能不能用 AI 重建一套够用的内部工具。

对产品负责人来说,这不是哲学题,是预算题。续费、砍掉,还是让工程团队用 AI 拼一个替代品。采购负责人也会更犹豫:能延后的 SaaS 采购会延后,能先用内部 AI 工具试水的项目会先试水。

但“拼一个”不等于免费。快速生成的系统,最怕没人负责测试、权限、审计和长期维护。

所谓 dark factories,听起来像效率革命:代码由模型写,甚至不经人工 review 直接上线。落地时,它更像一张技术欠条。没有 evals、日志、回滚和责任人,省下来的 SaaS 费用会从事故里吐出来。

“天下熙熙,皆为利来。”这句话放在 AI 应用层很准。企业采用 AI,不是为了信仰,而是为了少买软件、少等排期、少付推理费。

所以应用公司的护城河不在“我也接了大模型”。那太薄。真正的护城河在三件事:拿到用户行为数据,嵌进客户工作流,能把通用模型压成更便宜、更快、更可控的专用系统。

这也是 Agent lab 路线的核心:先用前沿模型跑业务,积累领域数据和工作负载,再训练或蒸馏自有模型。目的不是炫技,是拿回成本、延迟和控制权。

开发者和产品团队的动作会变得很具体。选工具时,不只看 demo 多惊艳,还要看能不能导出数据、替换模型、接入评测、控制权限。不能迁移的 AI 工作流,迟早会变成新一代锁定。

2026 最该看三件事:记忆、成本、分发权

过去一年,行业很爱讲长上下文。百万 token 听起来很大,但 swyx 的判断更冷:它还没有真正改变多数工作流。

原因不复杂。长上下文不是好记忆。把材料塞进窗口,不等于模型知道优先级。更不等于它下次还能记住用户真正关心什么。

这就是记忆、个性化和 world models 被反复提起的原因。今天的模型经常奖励“被频繁提到的东西”,而不是“对任务真正重要的东西”。

一个好代理不该只会读聊天记录。它要记住项目约束、代码风格、客户偏好、组织禁忌,还要知道什么时候该忘。

铁路时代赢的不是蒸汽机参数,而是线路、时刻表、货运网络和站点控制。AI 不完全一样,但结构有相似处:模型像机车,真正收钱的常常是调度系统、网络入口和长期关系。

接下来更该盯三件事。

观察点为什么重要看什么信号
编码产品的模型选择权决定用户是否被单一模型锁住Cursor、Cognition 这类产品能否让用户主动选择或切换模型
开源模型与替代推理硬件决定推理成本和部署弹性是否带来真实体验改善,而不只是价格表好看
记忆系统产品化决定代理能否持续工作是否可评测、可迁移、可控,而不是聊天记录增强

我不太买账“模型层包打一切”的叙事。模型层会继续强,也会吞掉一批中间层。但企业真正掏钱的地方,往往不是最聪明的模型,而是最少出错、最懂流程、最能接管脏活的系统。

对 AI 创业者来说,2026 年少讲一点“我们用了最强模型”。多回答四个问题:客户流程里哪一步最贵,数据从哪里来,失败怎么评测,未来能不能把成本压下来。

对企业产品负责人来说,也别急着把每个 AI demo 都塞进采购清单。先挑高频、低风险、可回滚的流程试。能省预算就省,不能验证就别把核心流程交出去。

模型层赢的是能力竞赛。应用层赢的是责任竞赛。谁能把模型的聪明变成稳定、可审计、可替换的生产系统,谁才真的接近收账。