Hugging Face 这次没发新模型,也没说自己推理能力大升级。
它只是把 DeepInfra 接进了 Inference Providers。
但这个动作对开发者很实际:以后在 Hugging Face 的模型页、Python/JS SDK,或者 OpenAI 兼容接口里,可以直接调用 DeepInfra 托管的部分开源大模型推理服务。
更关键的是,Hugging Face 又往“默认入口”上钉了一颗钉子。模型在它这里被发现,请求从它这里被路由,账单也可以从它这里结。
接入了什么,哪些还没接入
DeepInfra 是一个 serverless AI inference 平台,主打较低 token 成本,模型目录超过 100 个。它本身覆盖 LLM、文生图、文生视频、embedding 等任务。
但放到 Hugging Face 这次接入里,范围要收窄看。
| 问题 | 当前信息 | 需要注意的限制 |
|---|---|---|
| 接入对象 | DeepInfra 成为 Hugging Face Inference Provider | 不是 Hugging Face 自研推理升级 |
| 调用入口 | Hub 模型页、Python/JS SDK、OpenAI 兼容接口 | 需要具体模型支持 DeepInfra |
| 首批任务 | conversational、text-generation | 图像、视频、embedding 等是后续计划 |
| 模型例子 | DeepSeek V4、Kimi-K2.6、GLM-5.1 等开放权重大模型 | 不等于 DeepInfra 全部模型都能在 HF 直接用 |
| 付费方式 | DeepInfra API key 直连;或 HF token 经 Hugging Face 路由 | routed requests 目前不加价,未来可能有 revenue-sharing |
用法也简单。
你可以用 DeepInfra 自己的 API key,费用走 DeepInfra 账户。也可以用 Hugging Face token,请求经 https://router.huggingface.co/v1 转到 DeepInfra,费用走 Hugging Face 账户。
Hugging Face 的说法是,routed requests 不额外加价,只透传 provider API rates。
这句话要按字面读:现在不加价,不代表永远不抽成。原文也留了口子,未来可能和供应商做收入分成。
还有一个小但有用的点:Hugging Face PRO 用户每月有 2 美元 Inference credits,免费登录用户也有小额度免费推理。
对个人开发者、早期项目和做 demo 的团队,这会降低试模型的摩擦。不是省下大钱,而是少注册一个账户、少改一套鉴权、少踩一次接入坑。
Hugging Face 没吃掉推理,它在拿住路由
我更在意的不是 DeepInfra 多了一个入口。
我更在意 Hugging Face 的选择:它没有把所有推理都揽到自己机器上跑,而是把供应商接进来,把开发者留在自己的界面、SDK、token 和账单体系里。
这条路更轻,也更像平台生意。
自己做重推理,要面对 GPU 成本、调度效率、价格战、SLA 和峰值容量。接 provider,则是另一套打法:我不一定拥有飞机,但我控制登机口。
这个比喻不复杂。航空公司可以很多,航线可以很多,机场入口就那么几个。开发者流量在哪里,供应商就愿意靠近哪里。
“天下熙熙,皆为利来。”放到这里很直白:开发者为低摩擦而来,DeepInfra 为分发而来,Hugging Face 为默认路径而来。
这件事对两类人最直接。
| 对象 | 眼前怎么做 | 真正要盯什么 |
|---|---|---|
| 个人开发者 / 小团队 | 先用 HF token 和 OpenAI 兼容接口试模型,减少切换成本 | 模型覆盖、账单口径、是否仍按 provider API rates 透传 |
| 有稳定流量的团队 | 可以继续评估 DeepInfra API key 直连,保留计费和供应商关系的控制 | 延迟、稳定性、SLA、成本核算,不要只看入口方便 |
这就是现实约束。
如果你只是试 DeepSeek V4、Kimi-K2.6、GLM-5.1 这类开放权重大模型,Hugging Face 路由很顺手。尤其是已有 HF 工作流的团队,迁移成本会低很多。
如果你已经有生产流量,别急着把所有请求都塞进统一入口。路由层多一层,便利是真的,依赖也是真的。账单、排障、速率限制、供应商支持,最后都要算进系统成本。
平台最厉害的地方,从来不是一开始收费。
它先帮你省麻烦。等你习惯了默认路径,谈判位置就变了。
开源模型的分水岭,正在从权重移到使用路径
过去谈开源大模型,大家最爱问:权重开不开?参数多不多?榜单高不高?
这些问题还重要,但不够用了。
模型越来越多,开放权重大模型也越来越多。开发者真正卡住的地方,常常不是模型名字,而是四件事:部署麻不麻烦,token 成本压不压得住,调用稳不稳定,出了账单和故障找谁。
DeepInfra 接入 Hugging Face,说明这条线在变粗。
对 DeepInfra,它拿到的是 Hugging Face 的分发场。对 Hugging Face,它拿到的是开发者路径。对开发者,它拿到的是更低接入摩擦,但也多了一个路由层选择题。
这和过去的平台战争有一点像,但不完全一样。
PC 时代争操作系统,移动互联网争应用商店,云时代争控制台和 API。AI 时代看起来更开放,因为权重能下载、模型能替换、接口也更兼容。
可一旦进入真实使用,入口仍会集中。
谁出现在模型页,谁被默认推荐,谁能接入统一 SDK,谁能进入账单体系,都会变成商业变量。技术强弱还在,但“离用户近”会越来越值钱。
我不太买账的是把这类动作只说成“生态更丰富”。生态当然更丰富,但平台不是慈善厨房。
菜单越完整,用户越不愿意出门。默认路径越顺,供应商越要接受平台规则。
接下来最该观察的不是口号,而是几个硬变量:DeepInfra 在 Hugging Face 上的模型覆盖会不会扩大;图像、视频、embedding 等任务何时接入;routed requests 的“不加价”会维持多久;收入分成落地后,provider 价格和排序会不会变化。
这些变量,比“又多一家 provider”重要。
开源 AI 的下一段竞争,会更多发生在模型页按钮、API base_url、账单归属和 token 单价里。
权重决定你能不能上桌。入口决定你离饭碗有多近。
