小米这次给出的数字很硬:1T 参数模型,单个标准 8-GPU 通用节点,解码速度突破 1000 tokens/s,演示最高约 1200 tokens/s。
更有意思的是路线。它没有强调 Cerebras、Groq 那类专用硬件,而是说在通用 GPU 上,通过模型、解码和推理系统一起压延迟。
这件事的看点不在“又一个大模型跑分”。而在于:大模型竞争开始从参数和榜单,挪到真实产品里那几秒等待。
发布了什么,谁会受影响
MiMo-V2.5-Pro-UltraSpeed 是 MiMo-V2.5-Pro 的高速推理版本。官方开放 API 限时申请,时间是 2026 年 6 月 9 日到 6 月 23 日,北京时间 23:59 截止。
它不是全面开放。资源有限,申请制,优先企业和有真实业务需求的专业开发者。Chat 体验试用期免费,但有排队次数、会话时长和空闲释放规则。
| 关键信息 | 具体内容 | 该怎么理解 |
|---|---|---|
| 模型 | MiMo-V2.5-Pro-UltraSpeed | 1T 参数模型的高速版本 |
| 速度 | 1000+ tokens/s,演示最高约 1200 tokens/s | 不代表所有场景、所有用户稳定可得 |
| 硬件 | 单个标准 8-GPU 通用节点 | 重点是通用 GPU 路线,不是专用硬件路线 |
| 开放 | 2026 年 6 月 9 日至 6 月 23 日 23:59 申请 | 有资源门槛,不是常规上架 |
| 价格 | MiMo-V2.5-Pro 的 3 倍 | 官方称约 10 倍生成体验,但账要按场景算 |
| 能力 | 官方表述为能力基本持平 | 速度提升不等于模型智力提升 |
最相关的人不是普通聊天用户,而是两类团队。
一类是做 Coding Agent 的开发者。模型每一步生成、检查、调用工具都要等,延迟会直接切断协作感。速度上来,Agent 才更像一个能连续接话的搭档,而不是一个慢窗口。
另一类是做低延迟 AI 应用的团队。比如实时补全、交互式代码修改、多轮任务规划。它们要评估的动作很具体:要不要申请试用,要不要把部分高价值链路迁过去,要不要为 3 倍价格重算 ROI。
如果只是普通客服闲聊,或者用户对延迟不敏感,这条路线未必立刻划算。快有价值,但不是所有地方都值得为快多付钱。
1000 TPS 靠的不是一个按钮
这次的技术锚点有三块:MoE Experts FP4 量化、DFlash 推测解码、TileRT 系统优化。
MoE Experts FP4 量化解决的是“搬不动”的问题。1T 模型太大,瓶颈不只是算力,还有显存、带宽和数据搬运。把 MoE Experts 压到 FP4,可以减小体积和带宽压力;其他模块保留原精度,是为了尽量守住推理、代码和逻辑能力。
DFlash 解决的是“一个 token 一个 token 吐太慢”的问题。它用块级 masked parallel prediction,一次预测一组 token,再交给大模型验证。
原文给出的接受长度很关键:Coding 场景平均 6.30,数学/推理 5.56,Agent 4.29。这说明结构化任务更容易吃到红利。一般对话场景的接受率仍在优化,不能把演示速度直接套到所有使用场景。
TileRT 做的是底层系统压榨。persistent kernel、warp specialization 这些词不花哨,本质是减少 kernel 启动、算子边界和同步缝隙。
到了 1000 tokens/s 这个级别,浪费会被放大。以前可以忽略的微小开销,会变成产品体验里的卡顿。
所以这次真正值得看的是组合能力。模型结构、量化策略、解码算法、推理系统必须咬在一起。单点优化不够,系统协同才是门槛。
快不是能力,但会改产品账本
我更在意的是这句话:能力基本持平。
这把边界划清了。UltraSpeed 不是把模型变聪明,而是让原本已有的能力更快进入交互循环。它改变的是等待成本,不是智力上限。
对企业开发者来说,判断标准也要变。不要只问“模型强不强”,还要问三件事:
| 决策问题 | 适合尝试 | 先观望 |
|---|---|---|
| 延迟是否影响成交或留存 | 代码 Agent、实时生成、交互式工作流 | 低频后台生成、非实时分析 |
| 3 倍价格能否被效率抵消 | 高价值任务、专业用户、高频调用链路 | 免费用户、大规模低毛利调用 |
| 场景是否适合推测解码 | 代码、推理、Agent 等结构化任务 | 开放闲聊、强随机表达场景 |
这不是唱衰。相反,我觉得这次少见地抓住了真问题:大模型产品最大的不适,不总是“不够聪明”,很多时候是“太慢”。
用户不会按论文指标感知智能。用户感知的是等多久、改几次、能不能跟上自己的节奏。延迟一旦压不下来,模型再强,也会被产品体验折损。
但账不能被营销话术带跑。1000 TPS 是重要信号,不是普惠承诺。申请制说明资源稀缺。3 倍价格说明成本还在。一般对话接受率仍在优化,说明场景边界还没抹平。
铁路刚出现时,改变商业的不只是火车跑得快。更要紧的是库存、工厂、城市和交易节奏都被重新排布。AI 推理不完全一样,但相似点在这里:速度一旦稳定、可买、可接入,它就会改写流程,而不只是刷新指标。
眼下最该观察的也很明确。
一看申请制之后能不能扩大供给。二看 3 倍价格下,开发者是否真的愿意把高价值链路迁过去。三看 Coding Agent 之外,一般对话和复杂工具调用能不能保持高接受率。
如果这三件事跑通,1000 TPS 就不只是演示数字。它会变成新一轮产品门槛。
模型看着更强,不稀奇。强到让人不想切走,才是产品真正开始的地方。
