Models.dev 开源：AI 模型太多以后，开发者需要一张明账

核心摘要 Summary

Models.dev 在 GitHub 开源了一个社区维护的 AI 模型规格数据库，用 TOML 记录价格、上下文、模态、工具调用、结构化输出等字段，并通过 https://models.dev/api.json 输出。
它的价值不在做模型排行榜，而在给多模型应用提供一层可机器读取、可协作更新的基础账本。
真正要观察的是：数据能否跟上厂商定价和接口变化，能否被更多工具链消费。

AI 模型现在多到一个尴尬程度：发布会越来越密，官网文档越来越散，真正写应用的人却常常卡在几个小问题上。

这个模型多少钱？上下文能塞多少？支不支持工具调用？结构化输出稳不稳？音频、图片、PDF 到底算不算一等能力？

Models.dev 做的事不大，但踩在痛点上。它在 GitHub 开源了一个社区维护的 AI 模型规格数据库，数据以 TOML 存在仓库里，再通过 API 输出 JSON。入口很直接：https://models.dev/api.json。

这不是又一个“模型大全”。更准确地说，它是一张给工具链读的模型账本。

它记录什么：规格事实，不是性能排名

Models.dev 收的不是评测分数，也不是“哪个模型最强”的主观推荐。

它收的是开发接入时最常用、也最容易散落在各家文档里的规格事实。

字段	记录内容	对开发者的用处
价格	输入、输出、reasoning、缓存读写、音频 token 等	算成本，不靠人工翻文档
限制	上下文窗口、最大输入、最大输出	避免上线后才发现塞不进去
能力	工具调用、结构化输出、temperature、文件附件	判断能不能接进 agent 流程
模态	text、image、audio、video、pdf 等输入输出	判断是否适合多模态任务
元信息	知识截止、发布日期、更新时间、开源权重、状态	做版本治理和模型选择

数据按 provider 和 model 组织。社区可以提 PR。GitHub Action 会做 schema 校验，检查字段、类型和 TOML 语法。

这类校验不性感，但很关键。机器要读，字段就不能随便写。工具要接，格式就不能天天变。

它还提供 provider logo 的 SVG 接口，比如 https://models.dev/logos/{provider}.svg。这点很小，却说明目标不是只做展示页，而是让产品和开发工具复用这些数据。

还有一个细节值得留意：Models.dev 被 opencode 内部使用。至少这表明，它不是只给人看的 README，而是已经在工具链里被消费的数据源。

谁最受影响：应用开发者和技术负责人

对 AI 应用开发者来说，Models.dev 解决的是接入前的脏活。

以前要切模型，往往得开一堆文档，手动查价格、上下文、输入输出限制，再把结果写进配置。现在至少多了一个统一入口，可以把模型规格拉进脚本、配置系统或内部控制台。

这不会让模型变好用，但能让试错变便宜。

对技术负责人来说，价值更直接：成本估算、模型路由、供应商切换，都需要一份能比较的底表。

比如一个团队要做多模型编排：便宜模型处理常规请求，强模型处理复杂推理，长上下文模型处理文档，多模态模型处理图片和音频。到了这一步，靠发布会截图和人工记忆管理模型，就是给事故留门。

更现实的动作是：

对象	可以怎么用	仍然要自己补什么
应用开发者	用 API 拉取模型规格，生成配置或做接入检查	实测质量、异常处理、具体 SDK 适配
技术负责人	用统一字段比较成本、能力和限制，辅助模型选型	定价复核、供应商 SLA、内部用量模型

这里要说清楚：Models.dev 不是 LiteLLM，也不是 OpenRouter。

LiteLLM 更像统一调用层，帮你用相似接口访问不同模型。OpenRouter 更像模型访问和路由平台。Models.dev 更底层一些，像一份开放的模型元数据表。

三者不在同一个位置上竞争。真正有意思的组合是：调用层、路由层、账本层互相接上。模型越多，底层元数据越重要。

真正稀缺的是可比性，不是信息

AI 行业从来不缺信息。缺的是同一口径的信息。

模型厂商当然会告诉你自己支持什么。但每家文档写法不同，价格单位不同，能力命名不同，限制藏的位置也不同。你能找到资料，不等于系统能读懂资料。

Models.dev 的价值就在这里：把分散文档压成结构化事实。

这有点像早期软件包索引，也像云服务价格表。不完全一样，但相似处在于：目录本身不稀奇，稀缺的是标准化后的可比性。

云厂商都有价格页。可一旦工程系统能自动读、自动算、自动切换，价格就不再只是网页信息，而是调度参数。

AI 模型也在走这条路。

单模型时代，大家盯着“谁最强”。多模型时代，问题变成“哪个任务该用哪个模型、花多少钱、失败后切到哪里”。这时候，规格字段比发布会金句更有用。

冷冰冰，才好接入。

开源账本有用，但别把它当裁判

我更在意的是边界。

Models.dev 记录的是规格和价格，不是实测质量。一个模型标着支持 reasoning，不等于推理稳定；标着大上下文，不等于长文检索不丢；标着结构化输出，不等于复杂 schema 下不会翻车。

这张账本能回答三类问题：它声称支持什么，官方价格大概是什么，接口层面有哪些限制。

它不能替你回答：这个模型在你的业务里到底好不好用。

还有几个现实约束绕不开。

供应商定价会变。模型会下线。wrapper provider 可能和原始模型存在细微差异。社区维护也不等于永远准确。GitHub Action 能校验 schema，不能校验现实世界。

所以它更像底账，不是审计报告。

“天下熙熙，皆为利来。”这句话放在这里不玄。模型厂商频繁改价格、改套餐、改上下文、改命名，本质上都是商业激励在推产品形态。开发者如果只靠官网页面和发布新闻做决策，很快会被噪音拖住。

接下来最该观察两件事。

一是更新速度。模型价格和能力变得太快，如果账本落后，机器可读也没用。

二是采用范围。opencode 内部使用是一个信号，但还不够。只有更多开发工具、成本面板、模型路由系统开始消费这份数据，它才会从“好用项目”变成基础设施的一块。

Models.dev 少见地抓住了一个基础问题：AI 应用进入多模型时代后，行业需要一层公开、可机器读取、可协作修订的模型元数据。

不华丽，但很实用。

模型看着越来越像魔法，开发却越来越需要会计。价格、限制、模态、能力、版本，最后都会落进工程系统的参数表里。谁把账算清，谁才有资格谈自动化。

Models.dev 开源：AI 模型太多以后，开发者需要一张明账

模型明账

开源账本

数据形态

核心价值

非排行榜

受益对象

应用开发

边界变量

质量缺口

它记录什么：规格事实，不是性能排名

谁最受影响：应用开发者和技术负责人

真正稀缺的是可比性，不是信息

开源账本有用，但别把它当裁判