Poolside 发布 Laguna 编码模型：小型 MoE 开放权重，能否挤进智能体核心牌桌

核心摘要 Summary

Poolside 发布 Laguna M.1 与 Laguna XS.2 两个面向长程智能体编码的 MoE 模型，并将 XS.2 权重以 Apache 2.0 许可开放。
真正的看点不是它全面压过闭源大模型，而是 Poolside 用小激活参数、开放权重和自研训练栈，开始争夺 agentic coding 的开发者入口。

内容导图 Mind Map

Laguna入场

争夺编码智能体入口

发布重点

小型MoE开放权重

M.1

展示自研训练能力

XS.2

Apache 2.0可部署

定位变化

从封闭交付转向生态验证

开发者入口

可下载微调量化

开源边界

训练细节仍未开放

性能判断

可入场但未登顶

参数效率

XS.2编码成绩接近强敌

终端短板

Terminal Bench差距明显

核心变量

训练栈决定放大能力

自研链路

覆盖数据到强化学习

Agent框架

贴近真实工作流

后续硬仗

坐稳牌桌仍待验证

社区产出

看微调量化质量

任务追赶

缩小终端操作差距

Poolside 发布 Laguna 系列首批两个模型 Laguna M.1 和 Laguna XS.2，并同步放出用于训练和运行智能体的 agent harness。XS.2 已可通过 Poolside API、OpenRouter 和 Ollama 使用，官方称限时免费，权重以 Apache 2.0 许可开放；XS.2-base 将随后发布。

这家公司此前更强调政府和公共部门客户，尤其是本地部署、隔离环境等高安全场景。现在它把 XS.2 推向开放权重生态，说明 Poolside 不再只把能力藏在封闭交付里，而是要让开发者、部署团队和研究社区一起验证它的长程编码路线。判断它是否已进入核心牌桌，要看两个问题：模型是否足够能打，训练栈是否可持续放大。

Laguna 发布的不是聊天模型，而是长程编码智能体底座

Laguna M.1 是 Poolside 目前最强模型，225B 总参数、23B 激活参数，基于 30T tokens 训练，使用 6144 张 NVIDIA Hopper GPU 从零训练。它在 SWE-bench Pro 得分 46.9%，Terminal-Bench 2.0 得分 40.7%。

Laguna XS.2 更小，33B 总参数、3B 激活参数，同样训练 30T tokens。它在 SWE-bench Pro 得分 44.5%，Terminal-Bench 2.0 得分 30.1%。在 Poolside 的叙事里，XS.2 的意义不只是“小模型能跑”，而是“小激活参数也能承担较长链路的软件任务”。

模型	参数与开放状态	关键成绩	直接影响
Laguna M.1	225B 总参数、23B 激活；未开放权重	SWE-bench Pro 46.9%，Terminal-Bench 2.0 40.7%	展示 Poolside 自研大模型训练能力
Laguna XS.2	33B 总参数、3B 激活；Apache 2.0 开放权重	SWE-bench Pro 44.5%，Terminal-Bench 2.0 30.1%	开发者可下载、微调、量化和自部署

这里要把“开放权重”和“完全开源”分开。Poolside 只确认 XS.2 权重采用 Apache 2.0，并未说明训练数据、完整训练代码和后训练流程全部开放。对企业部署团队来说，这仍然有价值：能在自有环境里做推理、压缩和适配。但对研究者来说，可复现实验的边界仍有限。

性能信号有亮点，但还不能写成全面胜出

Poolside 把 Laguna 放在 SWE-bench、SWE-bench Multilingual、SWE-bench Pro 和 Terminal-Bench 2.0 上对比 Qwen、DeepSeek、GLM、Claude、Devstral 等模型。结果并不支持“Laguna 全面超过主流模型”的说法。

以 M.1 为例，它在 SWE-bench Verified 为 72.5，接近 Devstral 2 的 72.2，但低于 DeepSeek-V4-Flash 的 79.0、Qwen3.5 的 76.2 和 Claude Sonnet 4.6 的 79.6。Terminal-Bench 2.0 上，M.1 的 40.7 也明显低于 Claude Sonnet 4.6 的 59.1、DeepSeek-V4-Flash 的 56.9 和 Qwen3.5 的 52.5。

XS.2 的看点在参数效率。3B 激活参数做到 SWE-bench Pro 44.5，几乎贴近 Qwen3.5 35B-A3B 的 44.6，超过 Claude Haiku 4.5 官方公开的 39.5；但在 Terminal-Bench 2.0 上，XS.2 的 30.1 低于 Qwen3.5 35B-A3B 的 40.5、Qwen3.6 35B-A3B 的 51.5 和 GPT-5.4 Nano 的 46.3。

这意味着 Laguna 更像是一张“可入场”的票，而不是一张“已登顶”的成绩单。对 AI 开发者来说，XS.2 最现实的价值，是在预算、延迟和私有部署约束下，多了一个可改造的编码智能体底座；对已经采购 Claude、Qwen 或 DeepSeek API 的团队，它暂时更适合作为评测和局部替代，而非一键迁移。

真正值得盯的是训练栈，而不是一次榜单排名

Poolside 花了不少篇幅解释自研训练体系：Titan 训练代码栈、30T+ 数据、约 4.4T+ 合成 tokens、AutoMixer 数据配比、Muon 优化器，以及异步 on-policy RL。这里的信号比单次发布更重要。

在大模型竞争里，单个模型会很快被新榜单覆盖，训练工厂才决定更新频率。Poolside 称 AutoMixer 会用约 60 个代理模型测试不同数据配比，再拟合数据比例与代码、数学、STEM、常识等能力之间的关系；Muon 优化器在早期预训练消融中比 AdamW 少约 15% 步数达到同等 loss，M.1 训练时优化器开销低于 1%。这些细节至少说明，Poolside 在试图掌握从数据、预训练到智能体强化学习的整条链路。

行业现实也很冷硬。长程编码智能体的门槛不只在模型，还在运行环境、沙箱、安全策略、工具调用、评测可复现和成本控制。Poolside 这次发布 agent harness，是把模型放进任务执行框架里一起交付，这比只发布一个聊天接口更贴近开发团队的真实工作流。

接下来最该观察三件事：XS.2-base 何时发布、开放权重社区能否产出高质量微调和量化版本、Poolside 后续模型是否能在 Terminal-Bench 这类更接近终端操作的任务上缩小与 Claude、Qwen、DeepSeek 的差距。若这些变量没有改善，Laguna 会是一款有技术含量的开放权重模型；若改善速度够快，它才可能成为长程智能体编码市场里真正难绕开的选项。

锐评 Commentary

Poolside 这步棋胜在清醒：不争口号，先交权重。牌桌已近，坐稳还要靠下一轮硬仗。

PoolsideLaguna编码模型MoE智能体编码开放权重Laguna M.1Laguna XS.2Apache 2.0SWE-bench Pro