Poolside 发布 Laguna 系列首批两个模型 Laguna M.1 和 Laguna XS.2,并同步放出用于训练和运行智能体的 agent harness。XS.2 已可通过 Poolside API、OpenRouter 和 Ollama 使用,官方称限时免费,权重以 Apache 2.0 许可开放;XS.2-base 将随后发布。

这家公司此前更强调政府和公共部门客户,尤其是本地部署、隔离环境等高安全场景。现在它把 XS.2 推向开放权重生态,说明 Poolside 不再只把能力藏在封闭交付里,而是要让开发者、部署团队和研究社区一起验证它的长程编码路线。判断它是否已进入核心牌桌,要看两个问题:模型是否足够能打,训练栈是否可持续放大。

Laguna 发布的不是聊天模型,而是长程编码智能体底座

Laguna M.1 是 Poolside 目前最强模型,225B 总参数、23B 激活参数,基于 30T tokens 训练,使用 6144 张 NVIDIA Hopper GPU 从零训练。它在 SWE-bench Pro 得分 46.9%,Terminal-Bench 2.0 得分 40.7%。

Laguna XS.2 更小,33B 总参数、3B 激活参数,同样训练 30T tokens。它在 SWE-bench Pro 得分 44.5%,Terminal-Bench 2.0 得分 30.1%。在 Poolside 的叙事里,XS.2 的意义不只是“小模型能跑”,而是“小激活参数也能承担较长链路的软件任务”。

模型参数与开放状态关键成绩直接影响
Laguna M.1225B 总参数、23B 激活;未开放权重SWE-bench Pro 46.9%,Terminal-Bench 2.0 40.7%展示 Poolside 自研大模型训练能力
Laguna XS.233B 总参数、3B 激活;Apache 2.0 开放权重SWE-bench Pro 44.5%,Terminal-Bench 2.0 30.1%开发者可下载、微调、量化和自部署

这里要把“开放权重”和“完全开源”分开。Poolside 只确认 XS.2 权重采用 Apache 2.0,并未说明训练数据、完整训练代码和后训练流程全部开放。对企业部署团队来说,这仍然有价值:能在自有环境里做推理、压缩和适配。但对研究者来说,可复现实验的边界仍有限。

性能信号有亮点,但还不能写成全面胜出

Poolside 把 Laguna 放在 SWE-bench、SWE-bench Multilingual、SWE-bench Pro 和 Terminal-Bench 2.0 上对比 Qwen、DeepSeek、GLM、Claude、Devstral 等模型。结果并不支持“Laguna 全面超过主流模型”的说法。

以 M.1 为例,它在 SWE-bench Verified 为 72.5,接近 Devstral 2 的 72.2,但低于 DeepSeek-V4-Flash 的 79.0、Qwen3.5 的 76.2 和 Claude Sonnet 4.6 的 79.6。Terminal-Bench 2.0 上,M.1 的 40.7 也明显低于 Claude Sonnet 4.6 的 59.1、DeepSeek-V4-Flash 的 56.9 和 Qwen3.5 的 52.5。

XS.2 的看点在参数效率。3B 激活参数做到 SWE-bench Pro 44.5,几乎贴近 Qwen3.5 35B-A3B 的 44.6,超过 Claude Haiku 4.5 官方公开的 39.5;但在 Terminal-Bench 2.0 上,XS.2 的 30.1 低于 Qwen3.5 35B-A3B 的 40.5、Qwen3.6 35B-A3B 的 51.5 和 GPT-5.4 Nano 的 46.3。

这意味着 Laguna 更像是一张“可入场”的票,而不是一张“已登顶”的成绩单。对 AI 开发者来说,XS.2 最现实的价值,是在预算、延迟和私有部署约束下,多了一个可改造的编码智能体底座;对已经采购 Claude、Qwen 或 DeepSeek API 的团队,它暂时更适合作为评测和局部替代,而非一键迁移。

真正值得盯的是训练栈,而不是一次榜单排名

Poolside 花了不少篇幅解释自研训练体系:Titan 训练代码栈、30T+ 数据、约 4.4T+ 合成 tokens、AutoMixer 数据配比、Muon 优化器,以及异步 on-policy RL。这里的信号比单次发布更重要。

在大模型竞争里,单个模型会很快被新榜单覆盖,训练工厂才决定更新频率。Poolside 称 AutoMixer 会用约 60 个代理模型测试不同数据配比,再拟合数据比例与代码、数学、STEM、常识等能力之间的关系;Muon 优化器在早期预训练消融中比 AdamW 少约 15% 步数达到同等 loss,M.1 训练时优化器开销低于 1%。这些细节至少说明,Poolside 在试图掌握从数据、预训练到智能体强化学习的整条链路。

行业现实也很冷硬。长程编码智能体的门槛不只在模型,还在运行环境、沙箱、安全策略、工具调用、评测可复现和成本控制。Poolside 这次发布 agent harness,是把模型放进任务执行框架里一起交付,这比只发布一个聊天接口更贴近开发团队的真实工作流。

接下来最该观察三件事:XS.2-base 何时发布、开放权重社区能否产出高质量微调和量化版本、Poolside 后续模型是否能在 Terminal-Bench 这类更接近终端操作的任务上缩小与 Claude、Qwen、DeepSeek 的差距。若这些变量没有改善,Laguna 会是一款有技术含量的开放权重模型;若改善速度够快,它才可能成为长程智能体编码市场里真正难绕开的选项。