Cohere 这次没有端出一个“什么都能聊”的大模型。

它在 Hugging Face 发布了 North Mini Code。30B 总参数,MoE 架构,但每个 token 只激活 3B 参数。128 个 experts,每次激活 8 个。Apache 2.0 许可。

反常点就在这里:它不靠“更大”讲故事,而是靠“更会干活”讲故事。

这也是 Cohere 新模型家族的第一个模型。更具体一点,它是 Cohere 首个明确面向开发者的代码模型。主战场不是闲聊,不是文案,不是通用问答,而是 agentic coding、终端任务和软件工程工作流。

North Mini Code 到底发布了什么

先把信息压平。

项目信息
模型North Mini Code
架构30B 总参数 MoE,单 token 激活 3B
专家设置128 experts,每次激活 8 个
许可Apache 2.0,发布在 Hugging Face
定位agentic coding、终端式软件工程任务
训练两阶段 SFT + RLVR,70k+ 可验证任务,约 5k 个仓库
上下文64K / 128K 训练上下文
榜单官方称 Artificial Analysis Coding Index 得分 33.4

官方称,North Mini Code 在 Artificial Analysis Coding Index 得分 33.4,超过一些同尺寸开源模型,也超过部分更大模型。

这句话要踩住刹车读。

它是官方引用的榜单结果,不等于生产环境里已经稳赢。更不能顺手写成“超过 Claude、GPT、Gemini 这类闭源顶级代码代理”。材料支撑不到那里。

真正有意思的不是这个分数,而是 Cohere 把模型训练推向了更接近真实开发的地方。

它提到 SWE-Agent、mini-SWE-agent、OpenCode、Terminal-Bench 等不同 harness。这里的关键不只是名字多,而是工具形态不一样:有的给结构化工具,有的更接近 bash,有的返回 JSON,有的靠纯文本交互。

真实开发也是这样。不是在考场里写一段答案,而是在日志、报错、测试、依赖和上下文里找路。

关键不是 30B,而是能不能进工作流

如果只看 30B,很容易把 North Mini Code 看成“小模型挑战大模型”的老故事。

我不太买这个读法。

它的关键变量有三个:小激活 MoE、长上下文、跨 harness 泛化。

小激活 MoE 解决的是成本。30B 总参数听起来不小,但每个 token 只激活 3B。对本地部署、企业私有化和高频代码代理场景来说,这比“参数量听起来更壮”更现实。

长上下文解决的是脏活。真实仓库不是算法题。改一个 bug,往往要读 issue、看测试、翻依赖、找历史文件。64K / 128K 上下文训练,至少说明 Cohere 知道战场不在单轮补全。

跨 harness 训练更关键。很多代码模型在一个评测壳里很强,换个工具链就发懵。Cohere 这次强调不同 agent scaffold 之间的泛化,本质上是在承认一件事:代码代理不是模型单兵作战,而是模型、工具、沙箱、反馈回路一起工作。

“工欲善其事,必先利其器。”今天的“器”,不只是模型参数。还包括终端、文件系统、测试框架、权限边界和失败恢复。

这对两类人最直接。

读者该怎么判断
关注开源代码模型的开发者可以下载试用,但别急着替换主力工具。更适合先放进小仓库、脚本修复、测试补全、issue 复现这类低风险任务里跑。
评估本地或企业级代码代理底座的技术负责人可以把它列入候选,但采购或迁移要延后到内部基准之后。重点测真实 repo、CI、权限、代码规范和失败回滚。

Apache 2.0 降低了使用门槛,但它不等于训练数据完全开放,也不等于商业风险自动清零。企业要看的不是许可证四个字,而是数据边界、供应链审计、输出责任和内部安全策略能不能接住。

方向选对了,稳定性还没结账

我更认可 Cohere 这次的方向。

过去一年,代码模型竞争有点像早期铁路公司比车头马力。马力重要,但货能不能准时送到,还要看轨道、调度、站点和维修。这个类比不完全一样,但有一层很像:工程系统的胜负,很少只由核心机器决定。

代码代理也是这样。

生成一段代码不难。难的是在真实 repo 里读懂、修改、验证、回滚。难的是遇到测试失败时不乱改。难的是知道什么时候该停手。

North Mini Code 的价值,不在于宣布“开源代码模型又赢了谁”。它更像在提醒行业:下一轮代码模型竞争,会从 completion model 转向 execution model。

但这条路也更难验收。

agentic coding 的失败,经常不是一句答案错了。它可能改了不该改的文件,误读了测试信号,绕过了权限边界,或者在长链路里越走越偏。模型越像“同事”,越不能只看演示里的聪明。

接下来最该观察三件事。

观察点为什么重要
真实仓库稳定性能不能跨语言、跨目录、跨依赖完成修改,而不是只在样例任务里表现好
工具链适配换到不同终端、CI、测试框架和 agent scaffold 后,能力掉不掉
企业风险控制权限、审计、数据边界、失败回滚能不能做成产品能力

所以我的判断很简单:Cohere 这次少见地避开了通用模型的流量泥潭,去啃代码代理真正难啃的部分。方向对,姿态也克制。

只是代码代理这门生意,最后拼的不是谁说得更像未来。

要看它在终端里少犯多少错。