把大模型塞进手机里，Prism ML想用“1比特AI”改写算力游戏

人工智能 2026年4月1日

Prism ML 发布了一组名为 Bonsai 的 1-bit 模型，试图用极端压缩的方式，把原本属于数据中心的大模型能力推进手机、机器人和边缘设备。它真正打动行业的地方，不只是“更小更快”，而是在大模型军备竞赛愈发昂贵的今天，重新把问题改写成：同样一瓦电、同样一GB内存，到底能换来多少智能？

大模型越来越大，Prism ML偏要反着来

这几年看 AI 行业，很容易产生一种错觉：模型越大，就越先进；机房越大，就越接近未来。参数规模、训练卡数、融资金额，几乎成了新一代科技公司最爱摆上台面的“肌肉照”。可现实也越来越尴尬——大模型确实聪明了，但它们也更像一头头胃口惊人的鲸鱼，吃电、吃显存、吃带宽，最后把“人人可用的 AI”变成了“谁家云账单更扛得住”。

Prism ML 选择了另一条路。它在官网上线了所谓“Concentrating intelligence（浓缩智能）”的主张，并发布了 Bonsai 系列 1-bit 模型：1-bit Bonsai 8B、4B 和 1.7B。按官方说法，其中 8B 版本只需要 1.15GB 内存，相比标准的全精度 8B 模型，内存占用减少 14 倍，速度提升 8 倍，能耗降低 5 倍，而且在多项基准测试上能追平主流 8B 模型。4B 版本只需 0.57GB 内存，在 M4 Pro 上达到 132 tokens/s；1.7B 版本更是压到 0.24GB，官方宣称在 iPhone 17 Pro Max 上可跑到 130 tokens/s。

如果这些数字在真实场景里也站得住，它的意义不只是“又一家模型公司发了新模型”，而是一个更现实的问题终于被认真回答了：手机、机器人、可穿戴设备、车载终端，到底有没有机会摆脱对云端大模型的持续依赖？Prism ML 的答案很直接——有，但前提不是继续堆参数，而是把“单位比特里的智能密度”做到极致。

1-bit到底是什么？这不是魔术，更像是一场精打细算的工程革命

所谓 1-bit 权重，简单理解，就是把传统模型里需要更多位数表示的参数，极度压缩到接近“非黑即白”的状态。过去主流模型常见的是 16-bit、8-bit 甚至 4-bit 量化，而 1-bit 已经属于非常激进的路线。它的诱惑显而易见：内存需求骤降，带宽压力变小，芯片搬运参数的成本也显著降低，于是速度更快、功耗更低。

但这件事真正难的地方，也恰恰在这里。模型不是压缩包，不是随手打个 zip 就能继续保持智商。参数位宽压得越狠，精度越容易塌，推理效果、稳定性和泛化能力都可能一起掉下去。过去业界并非没人尝试超低比特量化，问题往往是：论文里很惊艳，演示也不错，可一到商用环境就露馅，尤其在复杂推理、代码生成、多轮对话这类场景里，损失会非常明显。

所以 Prism ML 这次最值得看的，不是“1-bit”这个标签本身，而是它把自己定义为“first commercially viable model with 1-bit weights”——第一批具备商业可行性的 1-bit 模型。这个表述相当聪明，也相当大胆。它等于在暗示：我们不是实验室里的花活，而是能真正跑在设备上、为实际任务服务的模型。官方还抛出了一个颇有传播力的概念——“intelligence density”，也就是智能密度。说白了，不只比模型有多聪明，还要比它在有限内存、有限能耗里有多聪明。这种评价框架，很可能会越来越重要。

因为今天的大模型竞争，已经不只是拼榜单分数了。数据中心的电力、散热、资本开支，正在把整个行业推向一种不太可持续的状态。越聪明越昂贵，这当然没错；可如果只能靠越来越昂贵来换越来越聪明，AI 的普及速度和商业边界都会被拖住。

手机上的AI、机器人里的AI，为什么偏偏在这个时间点变得关键

Prism ML 把 Bonsai 8B 定位给机器人、实时智能体和边缘计算，这其实很符合产业眼下的焦虑。过去两年，大家都在谈 AI Agent、端侧助手、具身智能，仿佛下一代计算平台已经呼之欲出。但真落到产品层面，瓶颈总会撞回同一个词：延迟。

你可以想象一个场景。机器人在仓库里拐弯，视觉系统刚识别到前面有人，如果还要把请求发回云端，再等模型给出决策，它的反应时间可能就不够“像个聪明机器”。手机上的实时翻译、眼镜里的视觉理解、车里的本地语音助手也是一样。很多体验一旦不能本地完成，就会出现卡顿、掉线、隐私担忧，甚至根本无法在无网环境使用。

这也是为什么苹果、谷歌、高通、联发科、英特尔、英伟达都在过去几年不断强调“on-device AI”与“edge AI”。行业并不缺模型，缺的是适合设备形态的模型。Prism ML 这次给出的 1.7B 和 4B 版本，某种意义上正切中这个空档：它们不是为了在排行榜上震惊世界，而是为了让“模型真的能住进设备里，而且住得不挤”。

尤其是 1.7B 版本，如果真能在 iPhone 17 Pro Max 上稳定跑到 130 tokens/s，这个指标已经足以让很多本地交互体验发生变化。对普通用户来说，感知不一定是“啊，这是 1-bit 技术真伟大”，而是“这个助手终于没那么慢了”“翻译终于能边说边出字了”“离线也能用，不用看网脸色”。科技产业里很多关键突破都不是惊天动地的，而是把一个功能从“勉强可用”推进到“顺手可用”。

它的野心不只是在模型，更是在重新定义行业价值观

Prism ML 在官网上反复强调一句话：成功的 AI 研究，不只是让模型更大，也要让模型更聪明。这话听起来像口号，但放在今天，其实带着一点对主流路线的温和反驳。大厂当然还会继续训练更大的基础模型，这条路短期内不会停。可另一条路也越来越清晰：既然无限堆算力已经越来越贵，那就把“效率”重新抬回舞台中央。

这让我想到芯片行业过去几十年的演化。单纯拉高主频不再奏效之后，业界转向多核、异构、封装、能效比优化。AI 领域也在进入类似阶段。模型架构、训练策略、量化方案、推理引擎、编译优化，正在成为同等重要的战场。谁能把每一度电、每一MB 内存用得更值，谁就更可能拿到真正的大规模落地。

从这个角度看，Prism ML 并不是在和 OpenAI、Google DeepMind、Anthropic 正面比“谁家旗舰模型更全能”，它更像是在开辟一个新赛道：不是最大的脑子，而是最耐用、最省电、最容易装进现实世界的脑子。这个方向和当前机器人热潮、AI 手机热潮、智能眼镜回潮是合拍的。很多设备并不需要一个“全球最强”的模型，它们需要的是一个“今天就能在本机跑起来”的模型。

不过，我对它也保留一点职业性的谨慎。官方展示的数据主要基于自家 whitepaper 和基准集合，外界最终还是得看开发者上手后的实际反馈。1-bit 模型会不会在长上下文、复杂工具调用、边缘场景鲁棒性上暴露短板？不同硬件平台上的优化是否足够普适，还是高度依赖特定芯片和运行时？这些问题都不是一页官网就能回答清楚的。

真正的悬念：AI会走向“无处不在”，还是“无处联网”？

Prism ML 这次让我最感兴趣的，不是某个跑分数字，而是它背后的一个趋势：未来几年，AI 很可能会从“你去访问一个大模型服务”，变成“很多设备自己就带着一个足够聪明的小模型”。这两种世界观并不一样。

前一种世界，中心在云。能力强、统一更新、商业模式清晰，但成本高、延迟高，也更依赖持续联网。后一种世界，中心在设备本身。它可能没那么全能，却更即时、更便宜、更尊重隐私，也更适合嵌入到机器人、汽车、工业终端和消费电子里。过去我们谈“AI 普及”，很多时候默认它是云服务的普及；而像 Prism ML 这样的公司，试图推动的是“本地智能的普及”。

这件事也会引出一个新争议：当模型被压缩到极致，行业究竟应该怎样衡量“够用的智能”？如果一个模型在 90% 的日常任务里表现都接近主流 8B，但成本只要零头，它是不是比一个更强却贵得多的模型更有价值？商业世界通常会给出很现实的答案。用户也一样——多数人要的不是学术上最强，而是打开就能用、不会烫手、不会耗电、不会每次都要连云。

Prism ML 背后有 Caltech 研究背景，也获得了 Khosla Ventures、Cerberus、Google、Caltech 等支持，这说明资本和学术界都在认真看待“智能密度”这件事。它未必会在一夜之间改写大模型格局，但很可能会悄悄改变很多终端设备的技术路线图。就像当年没人会把“更省电的芯片”当成头条，直到有一天，整个移动互联网都建立在那件不起眼的事情上。

如果说过去两年的 AI 关键词是“更大”，那从 Prism ML 开始，也许下一个关键词会变成“更浓”。这听上去像一句广告词，但说不定，它恰恰是 AI 从炫技走向实用的路标。

Summary: 我对 Prism ML 的判断是：它未必会成为下一个“全民皆知”的大模型明星公司，但很可能会成为端侧 AI 时代很关键的底层推动者。1-bit 模型如果能经受住开发者和真实场景检验，行业对模型价值的衡量标准就会被改写——从“谁更大”转向“谁更值”。接下来一两年，手机、机器人和可穿戴设备上的本地模型竞争会明显升温，而 Prism ML 这类强调智能密度的公司，正站在一个很有可能爆发的位置上。

Prism ML1-bit AIBonsai大模型压缩边缘设备端侧推理手机 AI模型量化iPhone 17 Pro MaxM4 Pro