Latent Space 与 Unsupervised Learning 做了一期年度交叉对谈。录制时间很关键:AIE Europe 之后,Cursor-xAI 交易之前。
swyx 给出的主线很直:2025 是 coding agents 之年。2026 的命题是 coding agents breaking containment。也就是编码代理不再只待在 IDE 里,而是开始进入企业流程、消费代理、电脑操作和更多垂直任务。
这篇对谈最有价值的地方,不是预测哪家模型多赢几分。它更像 AI 工程圈的温度计:热度正在从“模型能力崇拜”转向工作流、数据、记忆、推理基础设施和应用分发。模型仍然重要,但它吃不完世界。
AIE Europe 后,AI 工程圈真正盯着什么
AIE Europe 的讨论重点,已经不只是“模型会不会”。swyx 提到的关键词包括 OpenClaw、harness engineering、context engineering、evals、observability、GPU、multimodality。
翻译成人话:工程师更关心怎么让模型稳定干活。能不能评测。能不能追日志。能不能控成本。能不能在真实流程里少翻车。
| 变量 | 发生了什么 | 影响对象 | 判断 |
|---|---|---|---|
| 编码代理 | 从 IDE 写代码,外溢到更多任务 | 开发者、内部工具团队、SaaS 产品 | 这是最早跑通的 AI 工作流样板 |
| 应用公司 | 帮企业把模型接进真实流程 | AI 创业者、产品负责人 | 不是简单套壳,关键是懂业务和交付 |
| 专用模型 | 先用前沿模型,再训练或蒸馏自有模型 | Agent lab、垂直应用公司 | 换成本、延迟和控制权 |
| 开源与推理 | 开源模型、非 NVIDIA 硬件更受关注 | 基础设施团队、采购负责人 | 不是 NVIDIA 衰退,是买方开始找备胎 |
| 记忆系统 | 个性化、长期记忆、world models 被反复讨论 | 代理产品、企业知识系统 | 长上下文还没等于长期记忆 |
这里要加一道刹车。swyx 的判断是趋势观察,不是行业公投。它来自 AI 工程社区、会议议题和产品战场,不能写成所有企业都已经走到这一步。
现实更粗糙。很多公司连稳定调用模型、做 evals、管 token 成本、记录失败案例都没补完课。对这些团队来说,2026 年最该做的不是追最新模型,而是先把调用链路、权限、日志、回滚和评测补齐。
应用公司没死,但懒公司会被模型层碾碎
基础模型公司确实在往垂直领域走。金融、医疗、编程、办公,没有哪个大实验室会主动放弃。
但把它写成“创业公司全死”,太粗。原文的区分更有用:早期公司还有空间,因为它们可以贴着客户工作流跑;中型创业公司压力更大,因为产品形态已经暴露;传统 SaaS 最尴尬,价格高、流程重,AI 替代方案开始够用。
swyx 举了一个具体场景:活动和赞助管理软件可能花到六位数。团队自然会想,能不能用 AI 重建一套够用的内部工具。
对产品负责人来说,这不是哲学题,是预算题。续费、砍掉,还是让工程团队用 AI 拼一个替代品。采购负责人也会更犹豫:能延后的 SaaS 采购会延后,能先用内部 AI 工具试水的项目会先试水。
但“拼一个”不等于免费。快速生成的系统,最怕没人负责测试、权限、审计和长期维护。
所谓 dark factories,听起来像效率革命:代码由模型写,甚至不经人工 review 直接上线。落地时,它更像一张技术欠条。没有 evals、日志、回滚和责任人,省下来的 SaaS 费用会从事故里吐出来。
“天下熙熙,皆为利来。”这句话放在 AI 应用层很准。企业采用 AI,不是为了信仰,而是为了少买软件、少等排期、少付推理费。
所以应用公司的护城河不在“我也接了大模型”。那太薄。真正的护城河在三件事:拿到用户行为数据,嵌进客户工作流,能把通用模型压成更便宜、更快、更可控的专用系统。
这也是 Agent lab 路线的核心:先用前沿模型跑业务,积累领域数据和工作负载,再训练或蒸馏自有模型。目的不是炫技,是拿回成本、延迟和控制权。
开发者和产品团队的动作会变得很具体。选工具时,不只看 demo 多惊艳,还要看能不能导出数据、替换模型、接入评测、控制权限。不能迁移的 AI 工作流,迟早会变成新一代锁定。
2026 最该看三件事:记忆、成本、分发权
过去一年,行业很爱讲长上下文。百万 token 听起来很大,但 swyx 的判断更冷:它还没有真正改变多数工作流。
原因不复杂。长上下文不是好记忆。把材料塞进窗口,不等于模型知道优先级。更不等于它下次还能记住用户真正关心什么。
这就是记忆、个性化和 world models 被反复提起的原因。今天的模型经常奖励“被频繁提到的东西”,而不是“对任务真正重要的东西”。
一个好代理不该只会读聊天记录。它要记住项目约束、代码风格、客户偏好、组织禁忌,还要知道什么时候该忘。
铁路时代赢的不是蒸汽机参数,而是线路、时刻表、货运网络和站点控制。AI 不完全一样,但结构有相似处:模型像机车,真正收钱的常常是调度系统、网络入口和长期关系。
接下来更该盯三件事。
| 观察点 | 为什么重要 | 看什么信号 |
|---|---|---|
| 编码产品的模型选择权 | 决定用户是否被单一模型锁住 | Cursor、Cognition 这类产品能否让用户主动选择或切换模型 |
| 开源模型与替代推理硬件 | 决定推理成本和部署弹性 | 是否带来真实体验改善,而不只是价格表好看 |
| 记忆系统产品化 | 决定代理能否持续工作 | 是否可评测、可迁移、可控,而不是聊天记录增强 |
我不太买账“模型层包打一切”的叙事。模型层会继续强,也会吞掉一批中间层。但企业真正掏钱的地方,往往不是最聪明的模型,而是最少出错、最懂流程、最能接管脏活的系统。
对 AI 创业者来说,2026 年少讲一点“我们用了最强模型”。多回答四个问题:客户流程里哪一步最贵,数据从哪里来,失败怎么评测,未来能不能把成本压下来。
对企业产品负责人来说,也别急着把每个 AI demo 都塞进采购清单。先挑高频、低风险、可回滚的流程试。能省预算就省,不能验证就别把核心流程交出去。
模型层赢的是能力竞赛。应用层赢的是责任竞赛。谁能把模型的聪明变成稳定、可审计、可替换的生产系统,谁才真的接近收账。
