小米这次给出的数字很硬:1T 参数模型,单个标准 8-GPU 通用节点,解码速度突破 1000 tokens/s,演示最高约 1200 tokens/s。

更有意思的是路线。它没有强调 Cerebras、Groq 那类专用硬件,而是说在通用 GPU 上,通过模型、解码和推理系统一起压延迟。

这件事的看点不在“又一个大模型跑分”。而在于:大模型竞争开始从参数和榜单,挪到真实产品里那几秒等待。

发布了什么,谁会受影响

MiMo-V2.5-Pro-UltraSpeed 是 MiMo-V2.5-Pro 的高速推理版本。官方开放 API 限时申请,时间是 2026 年 6 月 9 日到 6 月 23 日,北京时间 23:59 截止。

它不是全面开放。资源有限,申请制,优先企业和有真实业务需求的专业开发者。Chat 体验试用期免费,但有排队次数、会话时长和空闲释放规则。

关键信息具体内容该怎么理解
模型MiMo-V2.5-Pro-UltraSpeed1T 参数模型的高速版本
速度1000+ tokens/s,演示最高约 1200 tokens/s不代表所有场景、所有用户稳定可得
硬件单个标准 8-GPU 通用节点重点是通用 GPU 路线,不是专用硬件路线
开放2026 年 6 月 9 日至 6 月 23 日 23:59 申请有资源门槛,不是常规上架
价格MiMo-V2.5-Pro 的 3 倍官方称约 10 倍生成体验,但账要按场景算
能力官方表述为能力基本持平速度提升不等于模型智力提升

最相关的人不是普通聊天用户,而是两类团队。

一类是做 Coding Agent 的开发者。模型每一步生成、检查、调用工具都要等,延迟会直接切断协作感。速度上来,Agent 才更像一个能连续接话的搭档,而不是一个慢窗口。

另一类是做低延迟 AI 应用的团队。比如实时补全、交互式代码修改、多轮任务规划。它们要评估的动作很具体:要不要申请试用,要不要把部分高价值链路迁过去,要不要为 3 倍价格重算 ROI。

如果只是普通客服闲聊,或者用户对延迟不敏感,这条路线未必立刻划算。快有价值,但不是所有地方都值得为快多付钱。

1000 TPS 靠的不是一个按钮

这次的技术锚点有三块:MoE Experts FP4 量化、DFlash 推测解码、TileRT 系统优化。

MoE Experts FP4 量化解决的是“搬不动”的问题。1T 模型太大,瓶颈不只是算力,还有显存、带宽和数据搬运。把 MoE Experts 压到 FP4,可以减小体积和带宽压力;其他模块保留原精度,是为了尽量守住推理、代码和逻辑能力。

DFlash 解决的是“一个 token 一个 token 吐太慢”的问题。它用块级 masked parallel prediction,一次预测一组 token,再交给大模型验证。

原文给出的接受长度很关键:Coding 场景平均 6.30,数学/推理 5.56,Agent 4.29。这说明结构化任务更容易吃到红利。一般对话场景的接受率仍在优化,不能把演示速度直接套到所有使用场景。

TileRT 做的是底层系统压榨。persistent kernel、warp specialization 这些词不花哨,本质是减少 kernel 启动、算子边界和同步缝隙。

到了 1000 tokens/s 这个级别,浪费会被放大。以前可以忽略的微小开销,会变成产品体验里的卡顿。

所以这次真正值得看的是组合能力。模型结构、量化策略、解码算法、推理系统必须咬在一起。单点优化不够,系统协同才是门槛。

快不是能力,但会改产品账本

我更在意的是这句话:能力基本持平。

这把边界划清了。UltraSpeed 不是把模型变聪明,而是让原本已有的能力更快进入交互循环。它改变的是等待成本,不是智力上限。

对企业开发者来说,判断标准也要变。不要只问“模型强不强”,还要问三件事:

决策问题适合尝试先观望
延迟是否影响成交或留存代码 Agent、实时生成、交互式工作流低频后台生成、非实时分析
3 倍价格能否被效率抵消高价值任务、专业用户、高频调用链路免费用户、大规模低毛利调用
场景是否适合推测解码代码、推理、Agent 等结构化任务开放闲聊、强随机表达场景

这不是唱衰。相反,我觉得这次少见地抓住了真问题:大模型产品最大的不适,不总是“不够聪明”,很多时候是“太慢”。

用户不会按论文指标感知智能。用户感知的是等多久、改几次、能不能跟上自己的节奏。延迟一旦压不下来,模型再强,也会被产品体验折损。

但账不能被营销话术带跑。1000 TPS 是重要信号,不是普惠承诺。申请制说明资源稀缺。3 倍价格说明成本还在。一般对话接受率仍在优化,说明场景边界还没抹平。

铁路刚出现时,改变商业的不只是火车跑得快。更要紧的是库存、工厂、城市和交易节奏都被重新排布。AI 推理不完全一样,但相似点在这里:速度一旦稳定、可买、可接入,它就会改写流程,而不只是刷新指标。

眼下最该观察的也很明确。

一看申请制之后能不能扩大供给。二看 3 倍价格下,开发者是否真的愿意把高价值链路迁过去。三看 Coding Agent 之外,一般对话和复杂工具调用能不能保持高接受率。

如果这三件事跑通,1000 TPS 就不只是演示数字。它会变成新一轮产品门槛。

模型看着更强,不稀奇。强到让人不想切走,才是产品真正开始的地方。