4000亿参数模型跑上 iPhone？这条演示最震撼的，不是速度，而是方向变了

人工智能 2026年3月24日

Anemll 在 X 上放出的一段演示视频声称：一台 iPhone 跑起了 400B 级大模型，速度约 0.6 token/s。这个数字离“人人可用”还很远，但它释放出的信号非常清晰——手机端 AI 的竞争，正从“能不能跑”进入“能跑多大、压得多狠、隐私值不值得”新阶段。

一条只有几个字的帖子，为什么让圈内人坐不住了

科技圈这两年最不缺的就是“大模型上设备端”的新闻：有人把 7B、13B 塞进手机，有人把语音助手搬到手表，有人把图像模型做进相册。但 Anemll 这条发在 X 上的帖子，还是让我停下来多看了几遍。原因很简单：它写的是“Running 400B model on iPhone! 0.6 t/s”。翻成人话，一台 iPhone，在本地跑一个 4000 亿参数级别的模型，速度大约每秒 0.6 个 token。

先别急着鼓掌，也别急着质疑。这个数字本身已经足够戏剧化。400B 是什么概念？它不是“比 70B 大一点”，而是直接跨进了另一种体量。过去大家谈手机端模型，默认语境通常是“小模型如何做得更聪明”；而这条演示给人的冲击是：原来移动设备也开始碰“大得离谱”的模型了。哪怕速度并不快，哪怕它更像技术秀肌肉而不是一款立刻能普及的产品，这个方向变化依然很重要。

更有意思的是，Anemll 没写长篇论文式说明，没有大段 benchmark，只是配了一段视频和几个致谢账号。那种“我先把东西跑起来给你看”的工程师气质，反而比发布会 PPT 更有说服力。科技史上很多拐点都不是在舞台上宣布的，而是某个团队先把一件看上去不可能的事硬做出来，然后行业才慢慢跟上。

0.6 token/s 很慢吗？坦白说，慢。但别因此看轻它

如果你把它当成今天就能替代云端助手的体验，0.6 token/s 当然称不上丝滑。按照这个速度，生成一段稍微像样的回答，用户可能要等上几十秒甚至更久。你问它“帮我写封邮件”，它的思考节奏可能比你家里那位打字很慢但特别认真的长辈还慢。对于日常聊天、即时问答、实时协作，这种速度显然不够。

但工程演示的价值，从来不只是“能不能马上用”。更关键的问题是：它证明了什么。一个 400B 级模型能在 iPhone 上被运行，背后一定不是蛮力，而是极端压缩、量化、分层加载、缓存复用，甚至可能还有针对 Apple 芯片架构做过的非常激进的适配。换句话说，这条视频真正展示的，未必是 iPhone 有多强，而是端侧 AI 的“工程魔法”已经进展到什么程度。

这里要补一层背景。过去一年，行业对大模型的判断正在悄悄分叉。一条路是继续堆更大的云端模型，拼训练规模、拼数据中心、拼算力账本；另一条路则是把模型做小、做精、做专用，让它能跑在笔记本、手机、耳机乃至汽车座舱里。Anemll 这个演示妙就妙在，它把两条路拧在了一起：不是简单做小模型，而是想办法让“超大模型的能力”以某种压缩形态落到个人设备上。这种思路如果继续成熟，行业竞争的尺度就会变。

真正重要的，不是炫技，而是 AI 正在从“云服务”变成“个人设备能力”

为什么这件事值得关注？因为它触碰了今天 AI 行业最现实的三件事：成本、隐私和控制权。

先说成本。现在每次你在云端调用一个强模型，背后都有一笔算力账。用户觉得自己只是问了一个问题，服务商看到的却是 GPU 时间、带宽、显存和电费。AI 越普及，这笔账越沉重。于是大家都在找一个答案：能不能把一部分推理搬回终端，让手机、PC、自有设备分担工作？如果 400B 这样的模型都能以某种形式在手机端运转，那么很多过去必须联网完成的事，未来就有机会本地化。对厂商来说，这是省钱；对用户来说，这是更低延迟和更少等待。

再说隐私。手机是最贴身的计算设备，里面装着你的照片、聊天记录、位置轨迹、通讯录和日历。过去很多 AI 功能之所以让人又爱又怕，就是因为它很聪明，但它也需要把你的内容送到远端服务器。端侧模型最大的诱惑，从来不是“炫”，而是“放心”。如果总结邮件、整理日程、分析相册、做个人知识库这些任务能尽可能在本地完成，用户对 AI 的接受度会明显提高。苹果这些年一直强调设备端计算，不是因为它反云端，而是它非常清楚：在消费电子市场，隐私就是产品的一部分。

最后是控制权。今天大模型能力越来越集中在少数云平台手里，谁有算力、谁有 API、谁有数据中心，谁就掌握分发权。但当模型逐步进入终端，游戏规则会重新洗牌。手机厂商、芯片厂商、操作系统平台、模型优化团队，都会从配角变成关键角色。未来我们买一部手机，看的可能不只是摄像头和续航，还会问一句：它本地到底能跑多大的模型，跑得多稳，能不能离线处理我的工作流？这听上去像极客问题，但很可能会变成主流消费问题。

这条路也没那么浪漫：散热、电量、真假“400B”，每一个都是问号

当然，我对这类演示的第一反应从来不是“神迹降临”，而是“细节呢？”一台 iPhone 跑 400B 模型，究竟是完整常驻内存，还是分块加载？模型是怎样量化的，是 1-bit、2-bit 还是更复杂的混合精度？上下文长度是多少？首 token 延迟多少？是不是依赖外部存储，或者只完成了某种有限条件下的推理？这些问题不弄清楚，演示再惊艳，也只能算一个令人兴奋的样片。

还有一个不能回避的现实：手机不是机房。它有电池焦虑，有温控墙，有持续性能衰减，也有用户最朴素的需求——别烫手、别掉电、别卡死。很多端侧 AI demo 看上去都像未来已来，但你真让它在通勤路上跑 20 分钟，体验可能立刻变成“未来先别来了”。所以 0.6 token/s 背后，除了算法和系统优化，最终还得回答一个残酷的问题：它是否能在真实生活场景里稳定存在？

另一个值得讨论的点是，“400B”到底等于什么能力。参数规模从来不是全部。今天行业已经越来越清楚，大模型的效果并不只由参数决定，训练数据、后训练、推理优化、路由机制、上下文工程都很关键。一个被高度压缩的 400B，不见得就一定优于一个优化成熟的 30B 或 70B。参数数字很有传播力，但真正影响用户体验的，往往是回答质量、工具调用、响应延迟和稳定性。换句话说，跑起来是一回事，好不好用是另一回事。

接下来会发生什么：手机厂商、模型公司、芯片团队会更像“绑在一起打仗”

这条演示让我想到一个越来越清晰的趋势：AI 正在从“谁训练出最大的模型”转向“谁能把能力高效送到用户手里”。在这个阶段，硬件、系统和模型不再是三条平行线，而是必须一起设计。苹果、谷歌、高通、联发科、各类模型创业公司，接下来比拼的不是单点性能，而是整个链路的协同：芯片 NPU 怎么设计，内存带宽怎么配，操作系统如何调度，模型又如何为硬件特性反向优化。

这也是为什么我觉得 Anemll 这类团队会越来越有存在感。大模型时代，最容易被忽视的一群人，不是造模型的人，而是让模型真正“落地”的工程团队。他们不一定是流量中心，却决定了技术什么时候从实验室走进你的口袋。过去我们总把“模型能力”理解为云端公司之间的战争，未来几年，真正精彩的部分可能发生在设备端：一部手机、一台笔记本、一个车机，究竟能装下多少 AI，又能把这些能力调教得像水电一样自然。

如果让我做一个不那么保守的判断：今天的这类演示，像是 2000 年代早期智能手机上的网页浏览——慢、卡、远不完美，但方向已经定了。当年的人也会嘲笑“这能叫上网？”后来谁都离不开它。端侧大模型也许会经历同样的阶段：先从能跑开始，再进入能用，最后变成默认存在。等到那一天，我们回头看今天这 0.6 token/s，可能会像看第一代拍照手机一样，笨拙，但意义巨大。

而这正是这条短短帖子最迷人的地方：它不一定立刻改变你的手机，却可能提前剧透了下一轮 AI 竞争的剧本。

Summary: 我的判断是，这次演示的价值不在于“iPhone 已经能流畅跑 400B”，而在于它提醒整个行业：端侧 AI 的上限正在被重新定义。短期内，这类能力仍会受限于速度、功耗和工程复杂度，不会马上走进大众日常；但未来两三年，手机本地跑更大模型、承担更多隐私敏感任务，会成为厂商争夺高端市场的新筹码。真正值得盯着看的，不是参数神话，而是谁能把这些能力做成普通人愿意每天打开的功能。

端侧大模型iPhone400B参数模型Anemll本地推理移动端AI模型压缩隐私保护token/sX