IBM 4 月 29 日在 Hugging Face 发布 Granite 4.1 系列大语言模型技术说明,披露 3B、8B、30B 三款稠密模型的架构、训练数据配比、后训练流程,并将模型以 Apache 2.0 许可开放。
这次发布的核心不在“更大”。Granite 4.1 更像是 IBM 对企业级开源模型的一次工艺展示:用可复用的数据工程、长上下文训练和多阶段后训练,去逼近更大模型或上一代 MoE 模型的可用性。
Granite 4.1 的主线是稠密小模型,而不是 MoE 扩张
Granite 4.1 家族包括 3B、8B、30B 三个 decoder-only 稠密 Transformer。三款模型采用 GQA、RoPE、SwiGLU、RMSNorm,并共享输入/输出嵌入。这些设计并不新奇,但胜在成熟,部署和推理路径也比 MoE 更直接。
| 项目 | Granite 4.1 做法 | 对企业团队的含义 |
|---|---|---|
| 模型形态 | 3B、8B、30B 稠密模型 | 推理成本和部署复杂度更可控 |
| 开源许可 | Apache 2.0 | 商业使用门槛较低,便于内部分发 |
| 架构组件 | GQA、RoPE、SwiGLU、RMSNorm | 属于行业成熟组合,风险较小 |
| 长上下文 | 从 4K 扩到最高 512K | 适合长文档、代码库、合规材料处理 |
IBM 在原文中强调,Granite 4.1-8B instruct 可匹敌或超过上一代 Granite 4.0-H-Small(32B-A9B MoE)。这是一条很容易被放大的信息,但更稳妥的读法是:IBM 认为新的数据和后训练流程,让 8B 稠密模型在部分指标上追上了旧一代 MoE。它还不是独立评测结论。
约 15T token 背后,真正变化是数据配比在移动
Granite 4.1 从头训练约 15T token,分为五个阶段。前两阶段偏基础预训练,后两阶段转向高质量数据退火,第五阶段做长上下文扩展。这个流程说明,IBM 把“训多少”之外的“什么时候喂什么数据”摆到了更高位置。
第一阶段约 10T token,以 CommonCrawl、代码、数学、技术文档、多语和领域数据为主。第二阶段约 2T token,明显提高数学和代码比例。第三、第四阶段继续用约 2T 和 0.5T token 做高质量数据退火,引入长链思维、语言指令和代码指令数据。
长上下文训练是另一条关键线索。Granite 4.1 从 4K 逐步扩到 32K、128K,最高到 512K。但 512K 阶段只适用于 8B 和 30B,3B 并非全量支持;512K 阶段的数据也很窄,使用 80% 书籍和 20% 代码仓库。这意味着它适合长文本和代码场景,却不等于所有长上下文任务都会稳。
后训练部分,IBM 使用约 4.1M 高质量 SFT 样本,经过 LLM-as-Judge、规则过滤和全局去重。随后进入多阶段强化学习,采用 on-policy GRPO 与 DAPO loss,目标覆盖数学、代码、指令遵循和通用聊天。对训练从业者来说,这部分比参数表更有参考价值,因为它把数据清洗、样本评审和 RL 目标拆得更细。
企业选型要看可复现成本,而不只看榜单分数
Granite 4.1 的直接受众不是普通聊天机器人用户,而是要在本地、私有云或受控环境中部署模型的企业技术团队。Apache 2.0 许可、稠密架构和中等参数规模,能降低法务和运维阻力;3B 与 8B 也更适合做内部助手、RAG、代码辅助和文档处理的试点。
横向看,Meta Llama、Mistral、Qwen 等开源模型已经把企业可选项拉得很满。IBM 的差异不在社区声量,而在它更愿意把训练管线写成工程说明。这对金融、制造、咨询和政企客户有实际意义:他们常常不是缺一个最高分模型,而是缺一个能解释来源、流程和限制的模型。
接下来最该观察三件事:独立评测是否支持 IBM 对 8B 的性能说法;512K 长上下文在真实 RAG、代码库检索和长文档问答中是否稳定;企业团队能否在自有数据上复现相近的后训练收益。若这三点站不住,Granite 4.1 就只是一次漂亮的技术披露;若站得住,它会给小模型路线增加一个有分量的样本。
