一个插件的小版本更新,最容易被误读成模型新闻。

llm-gemini 0.32 支持 Gemini 3.5 Flash,已经给了开发者一个更方便的试用入口。5 月 19 日,Simon Willison 又发了 llm-gemini 0.32a0,变化更窄:兼容 llm>=0.32a0 alpha,并支持 streaming reasoning tokens。

这不是 Gemini 模型能力官宣。没有新价格。没有新上下文窗口。没有准确率对比。也没有说 Gemini 3.5 Flash 因此更聪明。

真正变化在工具链:通过 LLM CLI 调 Gemini 时,推理相关 token 可以更早、更连续地流出来。

发生了什么:从模型入口,走到可观测性入口

把信息压短看:

项目信息判断
项目llm-geminiSimon Willison 的 LLM CLI Gemini 插件
旧线索0.32 支持 Gemini 3.5 Flash重点是让开发者更方便试用新模型入口
新线索0.32a0 支持 streaming reasoning tokens重点变成推理 token 的流式输出
依赖llm>=0.32a0 alpha仍在 alpha 通道,不是稳定能力
影响对象LLM CLI 用户、内部工具维护者普通 Gemini 用户基本无感

相比 0.32 对 Gemini 3.5 Flash 的接入,0.32a0 多给出一个更具体的变量:不只是“能不能调到模型”,而是“调用过程中能不能看到更多中间信号”。

这就是增量。

不是模型升级,而是模型接入方式变得更透明一点。

为什么重要:流式 reasoning tokens 不是花活,是少一点黑箱

在命令行里用大模型,最怕的不是慢。

最怕的是不知道它在干什么。

任务卡住时,开发者要判断延迟来自哪里:模型端、网络、插件封装,还是上层脚本处理。流式输出至少能给一个早期信号:请求还活着,模型还在吐东西,调用链没有完全断。

reasoning tokens 的流式支持,价值就在这里。

它不保证答案更好。它也不自动等于“可解释 AI”。别把接口信号神化。很多时候,所谓 reasoning tokens 只是产品和接口层暴露出来的一部分推理相关输出,不等于完整脑内过程。

但对工程师够用了。

能记录、能转发、能显示、能调试,就已经比纯等结果强。

这类小更新常常没有发布会,也没有漂亮 benchmark。可它进入日常脚本后,效率是真实的。铁路时代真正改变运输的不只是火车头,还有时刻表、信号灯、调度规则。AI 工具链也一样,模型是火车头,插件和流式接口是信号系统。

不完全一样,但道理相通:没有信号系统,马力越大,越像撞运气。

谁受影响:不是普通用户,是终端党和工具维护者

最该看这条更新的是两类人。

一类是经常用 LLM CLI 调 Gemini 的开发者。你可能在终端里做快速验证,写脚本,批处理文本,跑原型。0.32 给你 Gemini 3.5 Flash 的入口,0.32a0 则让交互过程更连续。

另一类是内部 AI 工具维护者。很多团队不会直接把模型 API 暴露给所有人,而是包一层 CLI、服务或自动化脚本。streaming reasoning tokens 可能影响日志、前端展示、任务状态、异常排查。

普通 Gemini 用户不用兴奋。

企业采购者也别拿它当模型选型证据。它说明插件生态在跟进 Gemini 的调用能力,不说明 Gemini 本身更便宜、更准,或更适合你的业务。

这点要分清。

模型强不强,看模型指标和场景实测。工具好不好用,看接入、稳定性、日志、错误处理、回滚成本。

llm-gemini 0.32a0 属于后者。

我更在意 alpha 这个后缀

0.32a0 里的 a0 很关键。

它兼容的是 llm>=0.32a0 alpha。alpha 的意思很朴素:接口和行为还有变化空间。今天能跑,不代表明天不会改格式。今天日志解析没问题,不代表下个 alpha 不会让你的上层封装多掉几行判断。

所以合理动作不是把生产脚本全迁过去。

更像这样:

  • 在非关键脚本里试用;
  • 锁定 llmllm-gemini 版本;
  • 看 reasoning tokens 的输出格式是否稳定;
  • 测一下长任务、失败请求、网络抖动时的表现;
  • 再决定要不要接进内部工具。

“兵马未动,粮草先行。”放在 AI 工程里,粮草就是版本锁、日志格式、异常路径和回滚方案。

现在很多 AI 产品的问题,不是模型不能演示,而是工具链撑不住日常使用。Demo 里一切顺滑,进了真实工作流,就开始遇到超时、重试、并发、审计、权限、成本归因。

这也是我对这类小版本更新更感兴趣的原因。

它不响,但它碰的是使用现场。

小版本更新,别给它镀金,也别轻看它

llm-gemini 0.32 的重点,是 Gemini 3.5 Flash 的试用入口。0.32a0 把重点往前推了一步:调用过程也要更可见。

这条线很清楚。

模型厂商负责把能力做出来。CLI、插件、SDK、日志系统负责把能力变成可用的工作流。中间少一层,开发者就多一层黑箱。

我不太买账那种把每个插件更新都吹成生态拐点的写法。太轻浮。

但我也不轻看这种小修小补。AI 工具真正进入生产,不靠一条发布会标题,靠的是这些边角被磨平:能流式、能观测、能锁版本、能回滚、能解释失败。

这次更新少见地干净。

它没有替 Gemini 3.5 Flash 讲模型神话,只是在 LLM CLI 这条路上补了一块工程地板。地板不迷人,但摔过的人都知道它要紧。

接下来只看两个变量:LLM 0.32 alpha 的接口何时稳定,llm-gemini 对 reasoning tokens 的流式输出在不同 Gemini 场景里是否一致。

如果这两点站住,它才从“可以试”变成“可以依赖”。