Simon Willison 在 2026 年 5 月 12 日发布命令行大模型工具 LLM 0.32a2 alpha。LLM 的定位很清楚:让开发者从终端访问不同大语言模型,而这次 alpha 更新里,最关键的变化是多数 reasoning-capable OpenAI 模型从 /v1/chat/completions 转向 /v1/responses。
这不是一次普通的端点替换。对使用 OpenAI 推理模型写自动化脚本、工具调用流程和轻量代理的开发者来说,Responses API 更接近“模型边思考边用工具”的产品形态。LLM 0.32a2 把这层变化带进了命令行。
LLM 0.32a2 把 OpenAI 推理模型接到 Responses API
原文给出的关键说明是:多数支持推理的 OpenAI 模型现在使用 /v1/responses,而不是 /v1/chat/completions。这使 GPT-5 class 模型能够在跨工具调用时进行交错推理。
| 项目 | 过去做法 | 0.32a2 alpha 的变化 | 开发者影响 |
|---|---|---|---|
| OpenAI 接口 | /v1/chat/completions | 多数推理模型改用 /v1/responses | 更适合复杂工具调用流程 |
| 推理呈现 | 主要看到最终输出 | 可看到 summarized reasoning tokens | 更容易调试模型为何调用工具 |
| 显示控制 | 无这一层显式展示 | -R 或 --hide-reasoning 可隐藏 | 适合脚本、日志和安静模式 |
这里要把边界说清:LLM 0.32a2 是 alpha,不是稳定正式版;切换也不是“所有 OpenAI 模型”都完成迁移。它更像一次面向早期开发者的接口适配,适合试用和反馈,不适合未经验证就塞进关键生产链路。
Responses API 的意义在工具调用,不在版本号
/v1/chat/completions 是聊天接口时代的产物,围绕一轮轮消息组织交互。/v1/responses 则更像 OpenAI 为多模态、工具调用、推理输出和代理式流程准备的新入口。两者差异不只是 URL 不同,而是抽象层不同。
与上一代“给模型一段上下文、拿回一段回答”的模式相比,代理式流程要求模型能在调用搜索、数据库、代码执行器或内部工具时保留推理状态。所谓 interleaved reasoning across tool calls,指的正是模型在多次工具调用之间继续推进推理,而不是每次调用后像重新开一局。
行业里类似方向并不孤立。Anthropic 的 Claude 工具调用、Google Gemini 的 function calling、OpenAI 自己的 Assistants/Responses 路线,都在处理同一个问题:模型不再只是聊天窗口,而是工作流里的决策节点。Willison 的 LLM 工具把这种变化压缩到终端里,影响虽小众,却很贴近工程师真实用法。
推理摘要可见,但不是公开完整思维链
开发者运行提示词时,现在可以看到用不同颜色显示到标准错误输出的 summarized reasoning tokens。它的价值在调试:模型为什么选择调用某个工具、为什么走到某个中间方向,能有一点线索。
但这不等于完整思维链公开。OpenAI 和多数模型提供商近年都在收紧原始 chain-of-thought 的直接暴露,通常只给摘要或可审计片段。对企业团队来说,这个限制很现实:可解释性增加了,但不能把它当成完整审计日志。
受影响最直接的是两类人。其一是已经用 LLM 命令行工具串联脚本的开发者,他们可能要检查日志输出、CI 环境和插件兼容性。其二是做 AI agent 原型的工程师,他们会更关心跨工具调用是否稳定、推理摘要是否足够帮助定位失败。
接下来最该盯的不是“有没有更聪明”,而是三个变量:哪些 OpenAI 推理模型最终稳定迁到 Responses API;LLM 插件生态是否跟上新输出结构;推理摘要在真实项目里是降低调试成本,还是给日志和安全审查添新负担。目前原文没有给出价格、速度或准确率变化,不能替它补戏。
