LLM 0.32a2 发布：真正要看的是 OpenAI 推理模型接口换轨

核心摘要 Summary

Simon Willison 发布命令行大模型工具 LLM 0.32a2 alpha，多数支持推理的 OpenAI 模型改用 /v1/responses 端点。
这个版本的重点不在 alpha 版本号，而在推理模型开始为代理式工具调用暴露更合适的接口与可见推理摘要。

内容导图 Mind Map

接口换轨

推理模型转向 Responses

版本核心

LLM 0.32a2 适配新端点

迁移范围

多数 OpenAI 推理模型

版本边界

alpha 不宜直接上生产

工具调用

更适合代理式流程

交错推理

跨工具调用保持推理

抽象升级

从聊天转向工作流

推理摘要

调试线索变多

可见范围

只给摘要非完整链

输出控制

可隐藏推理显示

影响对象

脚本与 agent 开发先受影响

兼容检查

日志与插件需验证

稳定性

跨工具调用待检验

后续变量

别急着补价格性能戏

迁移节奏

模型覆盖仍未确定

调试成本

摘要可能增加审查负担

Simon Willison 在 2026 年 5 月 12 日发布命令行大模型工具 LLM 0.32a2 alpha。LLM 的定位很清楚：让开发者从终端访问不同大语言模型，而这次 alpha 更新里，最关键的变化是多数 reasoning-capable OpenAI 模型从 /v1/chat/completions 转向 /v1/responses。

这不是一次普通的端点替换。对使用 OpenAI 推理模型写自动化脚本、工具调用流程和轻量代理的开发者来说，Responses API 更接近“模型边思考边用工具”的产品形态。LLM 0.32a2 把这层变化带进了命令行。

LLM 0.32a2 把 OpenAI 推理模型接到 Responses API

原文给出的关键说明是：多数支持推理的 OpenAI 模型现在使用 /v1/responses，而不是 /v1/chat/completions。这使 GPT-5 class 模型能够在跨工具调用时进行交错推理。

项目	过去做法	0.32a2 alpha 的变化	开发者影响
OpenAI 接口	`/v1/chat/completions`	多数推理模型改用 `/v1/responses`	更适合复杂工具调用流程
推理呈现	主要看到最终输出	可看到 summarized reasoning tokens	更容易调试模型为何调用工具
显示控制	无这一层显式展示	`-R` 或 `--hide-reasoning` 可隐藏	适合脚本、日志和安静模式

这里要把边界说清：LLM 0.32a2 是 alpha，不是稳定正式版；切换也不是“所有 OpenAI 模型”都完成迁移。它更像一次面向早期开发者的接口适配，适合试用和反馈，不适合未经验证就塞进关键生产链路。

Responses API 的意义在工具调用，不在版本号

/v1/chat/completions 是聊天接口时代的产物，围绕一轮轮消息组织交互。/v1/responses 则更像 OpenAI 为多模态、工具调用、推理输出和代理式流程准备的新入口。两者差异不只是 URL 不同，而是抽象层不同。

与上一代“给模型一段上下文、拿回一段回答”的模式相比，代理式流程要求模型能在调用搜索、数据库、代码执行器或内部工具时保留推理状态。所谓 interleaved reasoning across tool calls，指的正是模型在多次工具调用之间继续推进推理，而不是每次调用后像重新开一局。

行业里类似方向并不孤立。Anthropic 的 Claude 工具调用、Google Gemini 的 function calling、OpenAI 自己的 Assistants/Responses 路线，都在处理同一个问题：模型不再只是聊天窗口，而是工作流里的决策节点。Willison 的 LLM 工具把这种变化压缩到终端里，影响虽小众，却很贴近工程师真实用法。

推理摘要可见，但不是公开完整思维链

开发者运行提示词时，现在可以看到用不同颜色显示到标准错误输出的 summarized reasoning tokens。它的价值在调试：模型为什么选择调用某个工具、为什么走到某个中间方向，能有一点线索。

但这不等于完整思维链公开。OpenAI 和多数模型提供商近年都在收紧原始 chain-of-thought 的直接暴露，通常只给摘要或可审计片段。对企业团队来说，这个限制很现实：可解释性增加了，但不能把它当成完整审计日志。

受影响最直接的是两类人。其一是已经用 LLM 命令行工具串联脚本的开发者，他们可能要检查日志输出、CI 环境和插件兼容性。其二是做 AI agent 原型的工程师，他们会更关心跨工具调用是否稳定、推理摘要是否足够帮助定位失败。

接下来最该盯的不是“有没有更聪明”，而是三个变量：哪些 OpenAI 推理模型最终稳定迁到 Responses API；LLM 插件生态是否跟上新输出结构；推理摘要在真实项目里是降低调试成本，还是给日志和安全审查添新负担。目前原文没有给出价格、速度或准确率变化，不能替它补戏。

锐评 Commentary

接口换轨，胜过版本热闹；能让工具链少一点盲飞，才是真进步。

LLM 0.32a2OpenAIResponses API推理模型Simon Willison命令行工具/v1/responses/v1/chat/completions工具调用代理式工作流