IBM 这次发的不是聊天模型,而是两个 embedding 模型。
这类模型不上热搜,但对做 RAG、企业搜索、多语言知识库的人,往往更要命。大模型负责“说话”,embedding 负责“找东西”。找错了,后面生成得再漂亮,也只是把错误包装得更顺。
Granite Embedding Multilingual R2 的看点不在“又多了一个向量模型”。它更像 IBM 把几件企业最头疼的事压到了一起:Apache 2.0、多语言、32K 上下文、小模型部署、ONNX/OpenVINO,以及训练数据使用边界。
两个模型,差别先看清
这次 R2 有两个版本:97M 和 311M。
两者都支持 200+ 语言,增强检索训练覆盖 52 种语言,也支持 9 种编程语言的代码检索。R1 基于 XLM-R,窗口是 512 token;R2 换到 ModernBERT,上下文拉到 32,768 token,窗口扩大 64 倍。
关键差别如下:
| 模型 | 关键规格 | 公开跑分位置 | 更适合谁 |
|---|---|---|---|
| granite-embedding-97m-multilingual-r2 | 97M 参数,384 维 | MTEB Multilingual Retrieval 60.3;IBM 称其为开放 sub-100M 多语言 embedding 最高;比 multilingual-e5-small 高 9.4 分 | 成本敏感的 RAG、CPU 推理、边缘部署、小团队知识库 |
| granite-embedding-311m-multilingual-r2 | 311M 参数,768 维,支持 Matryoshka 维度裁剪 | MTEB Multilingual Retrieval 65.2;开放 500M 以下模型中靠前;LongEmbed 71.7 | 长文档、多语言企业搜索、质量优先的检索系统 |
这里有两个限制,必须说在前面。
第一,311M 不是总榜第一。MTEB Multilingual Retrieval 里,harrier-oss-v1-270m 是 66.4,高于 Granite 311M R2 的 65.2。IBM 的强,要放在“开放模型、参数规模、多语言检索、长上下文、企业许可”这些条件里看。
第二,200+ 语言覆盖不等于 200+ 语言都经过同等强度训练。公开信息里,增强检索训练是 52 种语言。对小语种业务来说,这个差别很现实。覆盖和效果,中间隔着数据量、语料质量和任务分布。
所以这不是一句“IBM 又领先了”能讲完的事。更准确的说法是:Granite R2 在几个企业关心的约束里,给了一个比较均衡的开放选项。
真正有分量的是企业约束
我更在意的不是 65.2 还是 66.4。
企业用 embedding,最麻烦的常常不是模型能不能跑,而是能不能进流程。
许可证能不能商用?训练数据有没有明显非商用限制?能不能本地部署?CPU 推理是否可接受?能不能接现有框架?替换成本多高?这些问题不适合发布会炫技,但每一个都能卡住采购、法务、平台团队。
IBM 这次给的答案比较务实:Apache 2.0;避用 MS-MARCO 和明确非商用限制数据;提供 ONNX 和 OpenVINO;可以接 sentence-transformers、transformers,也更容易进入 LangChain、LlamaIndex、Haystack、Milvus 这类链路。
这不代表版权、隐私和合规风险被彻底清零。没有模型能一句话洗干净这些问题。但它确实降低了企业试用前的摩擦。
对两类团队,动作会不一样。
| 团队处境 | 更可能的选择 | 原因 |
|---|---|---|
| 已有 RAG 系统,成本和延迟压力大 | 先评估 97M | 参数小,部署轻,适合做替换测试;如果召回率接近现有模型,省下来的推理成本更直接 |
| 多语言长文档、合同、手册、代码库检索 | 优先测 311M | 32K 上下文和更高检索分数更有意义,Matryoshka 维度裁剪也方便在质量和存储之间取舍 |
| 法务或采购对许可敏感 | 可以把 Granite R2 放进候选池 | Apache 2.0 和训练数据边界更清楚,但仍要做内部合规审查 |
97M 小模型尤其值得看。
它的 MTEB 多语言检索是 60.3,低于 311M 的 65.2。但参数量只有三分之一左右。很多内部知识库不需要榜单上每一分都拿满,它们更在乎吞吐、延迟、索引成本、维护成本。
这就是 embedding 的现实:它不需要在演示里惊艳。它只要在每天大量检索里少花钱、少翻车。
企业 AI 开始争“地基”
过去两年,行业太爱盯着大模型的上限。谁会推理,谁会写代码,谁能多模态,谁能当 agent。
热闹归热闹。企业落地时,很多项目死在更底层的零件上。
向量模型就是这种零件。
它有点像铁路时代的轨距,或者互联网时代的搜索索引。平时没人夸,出问题时全员停工。“工欲善其事,必先利其器”,放在 RAG 里,器不只是聊天窗口,更是检索底座。
IBM 这次路线也很 IBM:不抢最炫的叙事中心,而是把合规、部署、替换、治理这些老派企业问题做成卖点。
这是一种更冷的竞争。
谁能成为企业搜索、RAG 框架、多语言知识库里的默认 embedding,谁就拿到 AI 工作流的一段入口。入口不一定显眼,但很黏。天下熙熙,皆为利来;在企业 AI 里,很多“利”不是来自模型会不会聊天,而是来自谁能被默认接入、默认采购、默认留在架构里。
当然,别把 Granite R2 神化。
项目里还要看语言分布、文档长度、chunk 策略、召回指标、重排模型、业务数据质量。benchmark 能帮你筛掉明显不合适的选项,不能替代自己的评测。
接下来最该观察的也不是 IBM 还会不会发更大模型,而是三件小事:97M 在 CPU 和边缘场景里的真实延迟;311M 在长文档检索里能否稳定胜过现有方案;企业框架和向量数据库会不会把它纳入默认推荐路径。
如果这三件事跑通,Granite R2 就不只是一个模型发布。它会变成企业 RAG 栈里一个更容易被批准、更容易被替换进去的基础件。
这条路没那么性感。
但企业 AI 本来就不是只靠性感活着。
