llm-gemini 0.32a0 又小更：Gemini 3.5 Flash 之后，重点变成推理 token 的流式可见

核心摘要 Summary

Simon Willison 的 llm-gemini 从 0.32 到 0.32a0，主线仍然不是“Gemini 变强了”，而是 LLM CLI 生态给 Gemini 补上更细的试用和可观测入口。
相比 0.32 支持 Gemini 3.5 Flash，0.32a0 额外补强了 streaming reasoning tokens，但它依赖 llm>=0.32a0 alpha，适合开发者试，不适合直接当稳定生产能力。

一个插件的小版本更新，最容易被误读成模型新闻。

llm-gemini 0.32 支持 Gemini 3.5 Flash，已经给了开发者一个更方便的试用入口。5 月 19 日，Simon Willison 又发了 llm-gemini 0.32a0，变化更窄：兼容 llm>=0.32a0 alpha，并支持 streaming reasoning tokens。

这不是 Gemini 模型能力官宣。没有新价格。没有新上下文窗口。没有准确率对比。也没有说 Gemini 3.5 Flash 因此更聪明。

真正变化在工具链：通过 LLM CLI 调 Gemini 时，推理相关 token 可以更早、更连续地流出来。

发生了什么：从模型入口，走到可观测性入口

把信息压短看：

项目	信息	判断
项目	`llm-gemini`	Simon Willison 的 LLM CLI Gemini 插件
旧线索	0.32 支持 Gemini 3.5 Flash	重点是让开发者更方便试用新模型入口
新线索	0.32a0 支持 streaming reasoning tokens	重点变成推理 token 的流式输出
依赖	`llm>=0.32a0` alpha	仍在 alpha 通道，不是稳定能力
影响对象	LLM CLI 用户、内部工具维护者	普通 Gemini 用户基本无感

相比 0.32 对 Gemini 3.5 Flash 的接入，0.32a0 多给出一个更具体的变量：不只是“能不能调到模型”，而是“调用过程中能不能看到更多中间信号”。

这就是增量。

不是模型升级，而是模型接入方式变得更透明一点。

为什么重要：流式 reasoning tokens 不是花活，是少一点黑箱

在命令行里用大模型，最怕的不是慢。

最怕的是不知道它在干什么。

任务卡住时，开发者要判断延迟来自哪里：模型端、网络、插件封装，还是上层脚本处理。流式输出至少能给一个早期信号：请求还活着，模型还在吐东西，调用链没有完全断。

reasoning tokens 的流式支持，价值就在这里。

它不保证答案更好。它也不自动等于“可解释 AI”。别把接口信号神化。很多时候，所谓 reasoning tokens 只是产品和接口层暴露出来的一部分推理相关输出，不等于完整脑内过程。

但对工程师够用了。

能记录、能转发、能显示、能调试，就已经比纯等结果强。

这类小更新常常没有发布会，也没有漂亮 benchmark。可它进入日常脚本后，效率是真实的。铁路时代真正改变运输的不只是火车头，还有时刻表、信号灯、调度规则。AI 工具链也一样，模型是火车头，插件和流式接口是信号系统。

不完全一样，但道理相通：没有信号系统，马力越大，越像撞运气。

谁受影响：不是普通用户，是终端党和工具维护者

最该看这条更新的是两类人。

一类是经常用 LLM CLI 调 Gemini 的开发者。你可能在终端里做快速验证，写脚本，批处理文本，跑原型。0.32 给你 Gemini 3.5 Flash 的入口，0.32a0 则让交互过程更连续。

另一类是内部 AI 工具维护者。很多团队不会直接把模型 API 暴露给所有人，而是包一层 CLI、服务或自动化脚本。streaming reasoning tokens 可能影响日志、前端展示、任务状态、异常排查。

普通 Gemini 用户不用兴奋。

企业采购者也别拿它当模型选型证据。它说明插件生态在跟进 Gemini 的调用能力，不说明 Gemini 本身更便宜、更准，或更适合你的业务。

这点要分清。

模型强不强，看模型指标和场景实测。工具好不好用，看接入、稳定性、日志、错误处理、回滚成本。

llm-gemini 0.32a0 属于后者。

我更在意 alpha 这个后缀

0.32a0 里的 a0 很关键。

它兼容的是 llm>=0.32a0 alpha。alpha 的意思很朴素：接口和行为还有变化空间。今天能跑，不代表明天不会改格式。今天日志解析没问题，不代表下个 alpha 不会让你的上层封装多掉几行判断。

所以合理动作不是把生产脚本全迁过去。

更像这样：

在非关键脚本里试用；
锁定 llm 和 llm-gemini 版本；
看 reasoning tokens 的输出格式是否稳定；
测一下长任务、失败请求、网络抖动时的表现；
再决定要不要接进内部工具。

“兵马未动，粮草先行。”放在 AI 工程里，粮草就是版本锁、日志格式、异常路径和回滚方案。

现在很多 AI 产品的问题，不是模型不能演示，而是工具链撑不住日常使用。Demo 里一切顺滑，进了真实工作流，就开始遇到超时、重试、并发、审计、权限、成本归因。

这也是我对这类小版本更新更感兴趣的原因。

它不响，但它碰的是使用现场。

小版本更新，别给它镀金，也别轻看它

llm-gemini 0.32 的重点，是 Gemini 3.5 Flash 的试用入口。0.32a0 把重点往前推了一步：调用过程也要更可见。

这条线很清楚。

模型厂商负责把能力做出来。CLI、插件、SDK、日志系统负责把能力变成可用的工作流。中间少一层，开发者就多一层黑箱。

我不太买账那种把每个插件更新都吹成生态拐点的写法。太轻浮。

但我也不轻看这种小修小补。AI 工具真正进入生产，不靠一条发布会标题，靠的是这些边角被磨平：能流式、能观测、能锁版本、能回滚、能解释失败。

这次更新少见地干净。

它没有替 Gemini 3.5 Flash 讲模型神话，只是在 LLM CLI 这条路上补了一块工程地板。地板不迷人，但摔过的人都知道它要紧。

接下来只看两个变量：LLM 0.32 alpha 的接口何时稳定，llm-gemini 对 reasoning tokens 的流式输出在不同 Gemini 场景里是否一致。

如果这两点站住，它才从“可以试”变成“可以依赖”。

llm-gemini 0.32a0 又小更：Gemini 3.5 Flash 之后，重点变成推理 token 的流式可见

插件小更

更新主线

0.32

工程价值

早期信号

影响范围

终端用户

能力边界

无关指标

发生了什么：从模型入口，走到可观测性入口

为什么重要：流式 reasoning tokens 不是花活，是少一点黑箱

谁受影响：不是普通用户，是终端党和工具维护者

我更在意 alpha 这个后缀

小版本更新，别给它镀金，也别轻看它