IBM 开源 Granite 4.1：小模型竞赛的重点不再只是参数

核心摘要 Summary

IBM 在 Hugging Face 发布 Granite 4.1 系列技术说明，3B、8B、30B 三款均为稠密 decoder-only Transformer，并以 Apache 2.0 开源。
真正有看点的不是模型规模变大，而是约 15T token 预训练、长上下文扩展、SFT 与强化学习流程被系统化摊开。
IBM 称 8B instruct 可匹敌或超过上一代 32B-A9B MoE，但这仍是厂商口径，企业选型不能当成第三方验证结论。

内容导图 Mind Map

Granite 4.1

小模型重在工艺

稠密路线

不靠 MoE 扩张

三档规模

3B、8B、30B 覆盖

开源许可

Apache 2.0 降门槛

数据工程

15T token 分阶段

配比移动

数学代码权重提高

长上下文

最高扩到 512K

后训练

胜负手更清晰

SFT 清洗

样本评审和去重

强化学习

覆盖代码数学指令

企业选型

看可复现成本

部署友好

法务运维阻力较低

验证变量

性能与长上下文待证

IBM 4 月 29 日在 Hugging Face 发布 Granite 4.1 系列大语言模型技术说明，披露 3B、8B、30B 三款稠密模型的架构、训练数据配比、后训练流程，并将模型以 Apache 2.0 许可开放。

这次发布的核心不在“更大”。Granite 4.1 更像是 IBM 对企业级开源模型的一次工艺展示：用可复用的数据工程、长上下文训练和多阶段后训练，去逼近更大模型或上一代 MoE 模型的可用性。

Granite 4.1 的主线是稠密小模型，而不是 MoE 扩张

Granite 4.1 家族包括 3B、8B、30B 三个 decoder-only 稠密 Transformer。三款模型采用 GQA、RoPE、SwiGLU、RMSNorm，并共享输入/输出嵌入。这些设计并不新奇，但胜在成熟，部署和推理路径也比 MoE 更直接。

项目	Granite 4.1 做法	对企业团队的含义
模型形态	3B、8B、30B 稠密模型	推理成本和部署复杂度更可控
开源许可	Apache 2.0	商业使用门槛较低，便于内部分发
架构组件	GQA、RoPE、SwiGLU、RMSNorm	属于行业成熟组合，风险较小
长上下文	从 4K 扩到最高 512K	适合长文档、代码库、合规材料处理

IBM 在原文中强调，Granite 4.1-8B instruct 可匹敌或超过上一代 Granite 4.0-H-Small（32B-A9B MoE）。这是一条很容易被放大的信息，但更稳妥的读法是：IBM 认为新的数据和后训练流程，让 8B 稠密模型在部分指标上追上了旧一代 MoE。它还不是独立评测结论。

约 15T token 背后，真正变化是数据配比在移动

Granite 4.1 从头训练约 15T token，分为五个阶段。前两阶段偏基础预训练，后两阶段转向高质量数据退火，第五阶段做长上下文扩展。这个流程说明，IBM 把“训多少”之外的“什么时候喂什么数据”摆到了更高位置。

第一阶段约 10T token，以 CommonCrawl、代码、数学、技术文档、多语和领域数据为主。第二阶段约 2T token，明显提高数学和代码比例。第三、第四阶段继续用约 2T 和 0.5T token 做高质量数据退火，引入长链思维、语言指令和代码指令数据。

长上下文训练是另一条关键线索。Granite 4.1 从 4K 逐步扩到 32K、128K，最高到 512K。但 512K 阶段只适用于 8B 和 30B，3B 并非全量支持；512K 阶段的数据也很窄，使用 80% 书籍和 20% 代码仓库。这意味着它适合长文本和代码场景，却不等于所有长上下文任务都会稳。

后训练部分，IBM 使用约 4.1M 高质量 SFT 样本，经过 LLM-as-Judge、规则过滤和全局去重。随后进入多阶段强化学习，采用 on-policy GRPO 与 DAPO loss，目标覆盖数学、代码、指令遵循和通用聊天。对训练从业者来说，这部分比参数表更有参考价值，因为它把数据清洗、样本评审和 RL 目标拆得更细。

企业选型要看可复现成本，而不只看榜单分数

Granite 4.1 的直接受众不是普通聊天机器人用户，而是要在本地、私有云或受控环境中部署模型的企业技术团队。Apache 2.0 许可、稠密架构和中等参数规模，能降低法务和运维阻力；3B 与 8B 也更适合做内部助手、RAG、代码辅助和文档处理的试点。

横向看，Meta Llama、Mistral、Qwen 等开源模型已经把企业可选项拉得很满。IBM 的差异不在社区声量，而在它更愿意把训练管线写成工程说明。这对金融、制造、咨询和政企客户有实际意义：他们常常不是缺一个最高分模型，而是缺一个能解释来源、流程和限制的模型。

接下来最该观察三件事：独立评测是否支持 IBM 对 8B 的性能说法；512K 长上下文在真实 RAG、代码库检索和长文档问答中是否稳定；企业团队能否在自有数据上复现相近的后训练收益。若这三点站不住，Granite 4.1 就只是一次漂亮的技术披露；若站得住，它会给小模型路线增加一个有分量的样本。

锐评 Commentary

小模型要成事，靠的不是虚张声势，而是细工慢活。Granite 4.1 的胜负手，在数据与后训练。

IBM Granite 4.1大语言模型开源模型Hugging Face稠密模型Transformer长上下文训练SFT强化学习Apache 2.0