把大模型塞进手机里,Prism ML想用“1比特AI”改写算力游戏

人工智能 2026年4月1日
把大模型塞进手机里,Prism ML想用“1比特AI”改写算力游戏
Prism ML 发布了一组名为 Bonsai 的 1-bit 模型,试图用极端压缩的方式,把原本属于数据中心的大模型能力推进手机、机器人和边缘设备。它真正打动行业的地方,不只是“更小更快”,而是在大模型军备竞赛愈发昂贵的今天,重新把问题改写成:同样一瓦电、同样一GB内存,到底能换来多少智能?

大模型越来越大,Prism ML偏要反着来

这几年看 AI 行业,很容易产生一种错觉:模型越大,就越先进;机房越大,就越接近未来。参数规模、训练卡数、融资金额,几乎成了新一代科技公司最爱摆上台面的“肌肉照”。可现实也越来越尴尬——大模型确实聪明了,但它们也更像一头头胃口惊人的鲸鱼,吃电、吃显存、吃带宽,最后把“人人可用的 AI”变成了“谁家云账单更扛得住”。

Prism ML 选择了另一条路。它在官网上线了所谓“Concentrating intelligence(浓缩智能)”的主张,并发布了 Bonsai 系列 1-bit 模型:1-bit Bonsai 8B、4B 和 1.7B。按官方说法,其中 8B 版本只需要 1.15GB 内存,相比标准的全精度 8B 模型,内存占用减少 14 倍,速度提升 8 倍,能耗降低 5 倍,而且在多项基准测试上能追平主流 8B 模型。4B 版本只需 0.57GB 内存,在 M4 Pro 上达到 132 tokens/s;1.7B 版本更是压到 0.24GB,官方宣称在 iPhone 17 Pro Max 上可跑到 130 tokens/s。

如果这些数字在真实场景里也站得住,它的意义不只是“又一家模型公司发了新模型”,而是一个更现实的问题终于被认真回答了:手机、机器人、可穿戴设备、车载终端,到底有没有机会摆脱对云端大模型的持续依赖?Prism ML 的答案很直接——有,但前提不是继续堆参数,而是把“单位比特里的智能密度”做到极致。

1-bit到底是什么?这不是魔术,更像是一场精打细算的工程革命

所谓 1-bit 权重,简单理解,就是把传统模型里需要更多位数表示的参数,极度压缩到接近“非黑即白”的状态。过去主流模型常见的是 16-bit、8-bit 甚至 4-bit 量化,而 1-bit 已经属于非常激进的路线。它的诱惑显而易见:内存需求骤降,带宽压力变小,芯片搬运参数的成本也显著降低,于是速度更快、功耗更低。

但这件事真正难的地方,也恰恰在这里。模型不是压缩包,不是随手打个 zip 就能继续保持智商。参数位宽压得越狠,精度越容易塌,推理效果、稳定性和泛化能力都可能一起掉下去。过去业界并非没人尝试超低比特量化,问题往往是:论文里很惊艳,演示也不错,可一到商用环境就露馅,尤其在复杂推理、代码生成、多轮对话这类场景里,损失会非常明显。

所以 Prism ML 这次最值得看的,不是“1-bit”这个标签本身,而是它把自己定义为“first commercially viable model with 1-bit weights”——第一批具备商业可行性的 1-bit 模型。这个表述相当聪明,也相当大胆。它等于在暗示:我们不是实验室里的花活,而是能真正跑在设备上、为实际任务服务的模型。官方还抛出了一个颇有传播力的概念——“intelligence density”,也就是智能密度。说白了,不只比模型有多聪明,还要比它在有限内存、有限能耗里有多聪明。这种评价框架,很可能会越来越重要。

因为今天的大模型竞争,已经不只是拼榜单分数了。数据中心的电力、散热、资本开支,正在把整个行业推向一种不太可持续的状态。越聪明越昂贵,这当然没错;可如果只能靠越来越昂贵来换越来越聪明,AI 的普及速度和商业边界都会被拖住。

手机上的AI、机器人里的AI,为什么偏偏在这个时间点变得关键

Prism ML 把 Bonsai 8B 定位给机器人、实时智能体和边缘计算,这其实很符合产业眼下的焦虑。过去两年,大家都在谈 AI Agent、端侧助手、具身智能,仿佛下一代计算平台已经呼之欲出。但真落到产品层面,瓶颈总会撞回同一个词:延迟。

你可以想象一个场景。机器人在仓库里拐弯,视觉系统刚识别到前面有人,如果还要把请求发回云端,再等模型给出决策,它的反应时间可能就不够“像个聪明机器”。手机上的实时翻译、眼镜里的视觉理解、车里的本地语音助手也是一样。很多体验一旦不能本地完成,就会出现卡顿、掉线、隐私担忧,甚至根本无法在无网环境使用。

这也是为什么苹果、谷歌、高通、联发科、英特尔、英伟达都在过去几年不断强调“on-device AI”与“edge AI”。行业并不缺模型,缺的是适合设备形态的模型。Prism ML 这次给出的 1.7B 和 4B 版本,某种意义上正切中这个空档:它们不是为了在排行榜上震惊世界,而是为了让“模型真的能住进设备里,而且住得不挤”。

尤其是 1.7B 版本,如果真能在 iPhone 17 Pro Max 上稳定跑到 130 tokens/s,这个指标已经足以让很多本地交互体验发生变化。对普通用户来说,感知不一定是“啊,这是 1-bit 技术真伟大”,而是“这个助手终于没那么慢了”“翻译终于能边说边出字了”“离线也能用,不用看网脸色”。科技产业里很多关键突破都不是惊天动地的,而是把一个功能从“勉强可用”推进到“顺手可用”。

它的野心不只是在模型,更是在重新定义行业价值观

Prism ML 在官网上反复强调一句话:成功的 AI 研究,不只是让模型更大,也要让模型更聪明。这话听起来像口号,但放在今天,其实带着一点对主流路线的温和反驳。大厂当然还会继续训练更大的基础模型,这条路短期内不会停。可另一条路也越来越清晰:既然无限堆算力已经越来越贵,那就把“效率”重新抬回舞台中央。

这让我想到芯片行业过去几十年的演化。单纯拉高主频不再奏效之后,业界转向多核、异构、封装、能效比优化。AI 领域也在进入类似阶段。模型架构、训练策略、量化方案、推理引擎、编译优化,正在成为同等重要的战场。谁能把每一度电、每一MB 内存用得更值,谁就更可能拿到真正的大规模落地。

从这个角度看,Prism ML 并不是在和 OpenAI、Google DeepMind、Anthropic 正面比“谁家旗舰模型更全能”,它更像是在开辟一个新赛道:不是最大的脑子,而是最耐用、最省电、最容易装进现实世界的脑子。这个方向和当前机器人热潮、AI 手机热潮、智能眼镜回潮是合拍的。很多设备并不需要一个“全球最强”的模型,它们需要的是一个“今天就能在本机跑起来”的模型。

不过,我对它也保留一点职业性的谨慎。官方展示的数据主要基于自家 whitepaper 和基准集合,外界最终还是得看开发者上手后的实际反馈。1-bit 模型会不会在长上下文、复杂工具调用、边缘场景鲁棒性上暴露短板?不同硬件平台上的优化是否足够普适,还是高度依赖特定芯片和运行时?这些问题都不是一页官网就能回答清楚的。

真正的悬念:AI会走向“无处不在”,还是“无处联网”?

Prism ML 这次让我最感兴趣的,不是某个跑分数字,而是它背后的一个趋势:未来几年,AI 很可能会从“你去访问一个大模型服务”,变成“很多设备自己就带着一个足够聪明的小模型”。这两种世界观并不一样。

前一种世界,中心在云。能力强、统一更新、商业模式清晰,但成本高、延迟高,也更依赖持续联网。后一种世界,中心在设备本身。它可能没那么全能,却更即时、更便宜、更尊重隐私,也更适合嵌入到机器人、汽车、工业终端和消费电子里。过去我们谈“AI 普及”,很多时候默认它是云服务的普及;而像 Prism ML 这样的公司,试图推动的是“本地智能的普及”。

这件事也会引出一个新争议:当模型被压缩到极致,行业究竟应该怎样衡量“够用的智能”?如果一个模型在 90% 的日常任务里表现都接近主流 8B,但成本只要零头,它是不是比一个更强却贵得多的模型更有价值?商业世界通常会给出很现实的答案。用户也一样——多数人要的不是学术上最强,而是打开就能用、不会烫手、不会耗电、不会每次都要连云。

Prism ML 背后有 Caltech 研究背景,也获得了 Khosla Ventures、Cerberus、Google、Caltech 等支持,这说明资本和学术界都在认真看待“智能密度”这件事。它未必会在一夜之间改写大模型格局,但很可能会悄悄改变很多终端设备的技术路线图。就像当年没人会把“更省电的芯片”当成头条,直到有一天,整个移动互联网都建立在那件不起眼的事情上。

如果说过去两年的 AI 关键词是“更大”,那从 Prism ML 开始,也许下一个关键词会变成“更浓”。这听上去像一句广告词,但说不定,它恰恰是 AI 从炫技走向实用的路标。

Summary: 我对 Prism ML 的判断是:它未必会成为下一个“全民皆知”的大模型明星公司,但很可能会成为端侧 AI 时代很关键的底层推动者。1-bit 模型如果能经受住开发者和真实场景检验,行业对模型价值的衡量标准就会被改写——从“谁更大”转向“谁更值”。接下来一两年,手机、机器人和可穿戴设备上的本地模型竞争会明显升温,而 Prism ML 这类强调智能密度的公司,正站在一个很有可能爆发的位置上。
Prism ML1-bit AIBonsai大模型压缩边缘设备端侧推理手机 AI模型量化iPhone 17 Pro MaxM4 Pro