JetBrains 这次没有讲“全能 AI”。

它发布的 Mellum2,是一个 12B 参数的 MoE 文本与代码模型。每个 token 只激活 2.5B 参数。这个数字看着像模型圈的参数话术,但落到工程里,意思很直接:别什么活都请大模型。

真正值得看的是它的摆放位置。Mellum2 不像是奔着 GPT-4、Claude 这类前沿大模型去的。它更像要被塞进 IDE、RAG、agent 链路和企业私有部署里,做那些调用频繁、延迟敏感、又不能太贵的中间活。

Mellum2 是什么:一个面向代码和文本的开源 MoE 组件

JetBrains 称,Mellum2 是从零训练的模型,面向自然语言和代码任务。它不是多模态模型。

几个关键事实可以压到一张表里:

项目信息
模型Mellum2
架构Mixture-of-Experts,MoE
参数规模总参数 12B,每 token 激活 2.5B
能力范围自然语言与代码,不是多模态
许可Apache 2.0
获取方式Hugging Face 可下载,JetBrains 提供技术报告
官方说法相比同等规模开源模型有竞争力,推理速度超过 2 倍

这里要留一手。

“有竞争力”和“推理速度超过 2 倍”来自 JetBrains 技术报告。它不是独立第三方评测。benchmark 好看,不等于进生产环境就一定好用。

尤其是 MoE。每 token 只激活 2.5B 参数,不等于账单自动变低。真实成本还要看服务栈、并发、batch、显存、路由开销和工程团队水平。

但方向是清楚的。Mellum2 瞄准的不是万能聊天助手,而是软件工程系统里的高频中间层。

使用位置可能承担的任务谁最该看
IDE / 代码助手补全、摘要、轻量代码理解做开发工具、插件、内部 IDE 的团队
RAG 管线上下文压缩、检索后处理、摘要AI 平台和知识库团队
Agent 工作流子任务拆分、格式转换、验证、工具选择做工程 agent 的团队
企业私有部署处理内部代码和私有数据对数据出境敏感的企业

这些任务不炫,但很贵。

贵不一定贵在单次调用。贵在每天调用太多次。补全、摘要、检索后处理、agent 中间步骤,都是这种活。单次多花一点,规模上来就是预算洞。

真正的变化:大模型做难题,小模型管流水线

JetBrains 的特殊之处,不只是它开源了一个模型。

它手里有 IntelliJ IDEA、PyCharm、WebStorm 这类 IDE。它知道开发者在哪些地方愿意等,哪些地方一秒都不想等。

代码 AI 的入口也不只在聊天框。它还在编辑器、索引、构建系统、测试、重构、代码搜索、权限管理里。

这些地方有三条硬约束:

  • 延迟要低.补全卡住 3 秒,用户会烦。
  • 成本要稳.高频调用不能每次都走最贵模型。
  • 数据要可控.内部代码库不一定能交给闭源 API。

所以 Mellum2 的价值,不是“又一个 12B 模型”。它更像 IDE 和企业工程 AI 里的廉价执行单元。

大模型负责难题。小模型负责跑腿。前者要聪明,后者要快、稳、可部署。

这和工业生产线有点像。不完全一样,但结构相似。早期工厂依赖中心化动力,后来小电机分布到各个工位,生产线才真的灵活起来。

软件工程 AI 也在走这条路。能力从一个中心化巨物,拆成可编排、可替换、可控的组件。

“天下熙熙,皆为利来。”放在这里很贴切。每一次模型调用,最后都会回到账本上。

对 AI 平台团队,动作应该很具体:别急着把 Mellum2 当主模型替换闭源大模型。更现实的做法,是把现有链路里的中间任务拆出来,先试补全、摘要、RAG 后处理、agent 子步骤。

对企业技术决策者,也别只问“它强不强”。该问的是:哪些内部代码任务不能出域?哪些调用成本最高?哪些环节对延迟最敏感?如果这三类问题里有重叠,Mellum2 才值得进入 PoC。

该兴奋,也该把问号写在前面

专用模型不是退步。它说明生产系统开始算账。

过去一年,AI 叙事太爱谈“大”:更大上下文、更强推理、更像人。可生产环境不按发布会逻辑付费。

企业更关心几件小事:能不能私有化,延迟能不能压住,吞吐能不能上去,出错边界能不能控制,换模型时系统会不会散架。

Mellum2 的机会就在这里。它不需要回答所有问题。只要把一批高频、低到中等复杂度的软件工程任务做得便宜、稳定、可控,就有位置。

但我不太买账的是,把 MoE 和开源许可直接等同于“部署省钱”。这中间隔着一整套工程现实。

最该观察三件事:

观察点为什么重要
第三方评测能否复现 JetBrains 技术报告里的优势官方 benchmark 只能当起点,不能当采购结论
真实 IDE 和企业代码库里的延迟、吞吐、稳定性代码场景对交互体验很敏感,慢一点就会被弃用
社区和企业集成是否跟上开源模型没有生态,只会停在“下载试试”

它也不适合所有人。

如果团队只是偶尔用代码问答,现成闭源大模型可能更省事。如果没有模型部署能力,没有推理服务经验,也没有明确的高频任务,贸然上 Mellum2 可能只是把 API 成本换成运维成本。

更适合它的,是已有 AI 平台、调用量不低、对私有代码敏感、愿意把工作流拆成多模型协作的团队。

这也是 Mellum2 最有意思的地方:它不试图赢下所有任务。它只想在系统里占一个高频、具体、可算账的位置。

代码 AI 的竞争,正在从模型炫技转向系统调度。谁能把大模型、小模型、检索、工具、权限和私有数据缝成一台顺手的工程机器,谁才会留在开发者工作流里。

模型看着更小,问题反而更现实了。