小米 1T 模型跑到 1000 TPS：大模型开始比谁更少让人等

核心摘要 Summary

小米 MiMo 联合 TileRT 发布 MiMo-V2.5-Pro-UltraSpeed，宣称 1T 参数模型首次在单个标准 8-GPU 通用节点上突破 1000 tokens/s，演示最高约 1200 tokens/s。
关键不只是跑得快，而是它把竞争点推向推理延迟、系统协同和产品可用性。
资源申请、3 倍价格和场景限制也说明：这还不是人人可用的高速通道。

小米这次给出的数字很硬：1T 参数模型，单个标准 8-GPU 通用节点，解码速度突破 1000 tokens/s，演示最高约 1200 tokens/s。

更有意思的是路线。它没有强调 Cerebras、Groq 那类专用硬件，而是说在通用 GPU 上，通过模型、解码和推理系统一起压延迟。

这件事的看点不在“又一个大模型跑分”。而在于：大模型竞争开始从参数和榜单，挪到真实产品里那几秒等待。

发布了什么，谁会受影响

MiMo-V2.5-Pro-UltraSpeed 是 MiMo-V2.5-Pro 的高速推理版本。官方开放 API 限时申请，时间是 2026 年 6 月 9 日到 6 月 23 日，北京时间 23:59 截止。

它不是全面开放。资源有限，申请制，优先企业和有真实业务需求的专业开发者。Chat 体验试用期免费，但有排队次数、会话时长和空闲释放规则。

最相关的人不是普通聊天用户，而是两类团队。

一类是做 Coding Agent 的开发者。模型每一步生成、检查、调用工具都要等，延迟会直接切断协作感。速度上来，Agent 才更像一个能连续接话的搭档，而不是一个慢窗口。

另一类是做低延迟 AI 应用的团队。比如实时补全、交互式代码修改、多轮任务规划。它们要评估的动作很具体：要不要申请试用，要不要把部分高价值链路迁过去，要不要为 3 倍价格重算 ROI。

如果只是普通客服闲聊，或者用户对延迟不敏感，这条路线未必立刻划算。快有价值，但不是所有地方都值得为快多付钱。

这次的技术锚点有三块：MoE Experts FP4 量化、DFlash 推测解码、TileRT 系统优化。

MoE Experts FP4 量化解决的是“搬不动”的问题。1T 模型太大，瓶颈不只是算力，还有显存、带宽和数据搬运。把 MoE Experts 压到 FP4，可以减小体积和带宽压力；其他模块保留原精度，是为了尽量守住推理、代码和逻辑能力。

DFlash 解决的是“一个 token 一个 token 吐太慢”的问题。它用块级 masked parallel prediction，一次预测一组 token，再交给大模型验证。

原文给出的接受长度很关键：Coding 场景平均 6.30，数学/推理 5.56，Agent 4.29。这说明结构化任务更容易吃到红利。一般对话场景的接受率仍在优化，不能把演示速度直接套到所有使用场景。

TileRT 做的是底层系统压榨。persistent kernel、warp specialization 这些词不花哨，本质是减少 kernel 启动、算子边界和同步缝隙。

到了 1000 tokens/s 这个级别，浪费会被放大。以前可以忽略的微小开销，会变成产品体验里的卡顿。

所以这次真正值得看的是组合能力。模型结构、量化策略、解码算法、推理系统必须咬在一起。单点优化不够，系统协同才是门槛。

我更在意的是这句话：能力基本持平。

这把边界划清了。UltraSpeed 不是把模型变聪明，而是让原本已有的能力更快进入交互循环。它改变的是等待成本，不是智力上限。

对企业开发者来说，判断标准也要变。不要只问“模型强不强”，还要问三件事：

这不是唱衰。相反，我觉得这次少见地抓住了真问题：大模型产品最大的不适，不总是“不够聪明”，很多时候是“太慢”。

用户不会按论文指标感知智能。用户感知的是等多久、改几次、能不能跟上自己的节奏。延迟一旦压不下来，模型再强，也会被产品体验折损。

但账不能被营销话术带跑。1000 TPS 是重要信号，不是普惠承诺。申请制说明资源稀缺。3 倍价格说明成本还在。一般对话接受率仍在优化，说明场景边界还没抹平。

铁路刚出现时，改变商业的不只是火车跑得快。更要紧的是库存、工厂、城市和交易节奏都被重新排布。AI 推理不完全一样，但相似点在这里：速度一旦稳定、可买、可接入，它就会改写流程，而不只是刷新指标。

眼下最该观察的也很明确。

一看申请制之后能不能扩大供给。二看 3 倍价格下，开发者是否真的愿意把高价值链路迁过去。三看 Coding Agent 之外，一般对话和复杂工具调用能不能保持高接受率。

如果这三件事跑通，1000 TPS 就不只是演示数字。它会变成新一轮产品门槛。

模型看着更强，不稀奇。强到让人不想切走，才是产品真正开始的地方。