PhantaField 这份 PFG-1“Sophon”白皮书,最刺眼的不是 4200 TFLOPS FP8,而是 330GB 内存。

它宣称把 330GB 可读写 DRAM 直接做进 750mm² die 里,不用 HBM。若成立,这不是多一颗 AI 加速器,而是在正面挑战过去几年 AI 服务器里最贵、最紧、最难绕开的东西:权重搬运。

模型越大,batch 又不总能堆高,GPU 就越容易在等内存喂数据。算力峰值写得很漂亮,token 不一定真跑得出来。Sophon 抓住的,就是这道缝。

牌面很大,但它还只是白皮书

白皮书称,Sophon 采用 32-tier 2D-TMD Monolithic 3D 架构,把逻辑和存储单片堆叠。权重不走 HBM,也不走全局 NoC,而是通过本地垂直 MIV,从片上 DRAM 喂给 CIM tile。

核心参数可以压成一张表:

项目白皮书宣称
Die 面积750mm²
片上存储330GB on-die 2T0C 2D-TMD DRAM
架构32-tier 2D-TMD M3D,数字 CIM
算力2100 TFLOPS BF16,4200 TFLOPS FP8
功耗约 373W FP8 decode
对比路线NVIDIA Rubin R200、AMD MI455X 的 HBM4 方案

它还宣称,在 80B 模型低 batch decode 场景里,Sophon 可明显压过 Rubin R200 和 AMD MI455X。理由是后两者仍受 HBM4 带宽限制。白皮书还给出 174× tokens/W、48-53× decode、9.9×/11.6× BOM 等对比。

这些数字很猛,但不能直接当行业结论。

到目前为止,它们主要来自厂商白皮书和模型计算,不是独立硅片实测,更不是大规模交付数据。这里的正确读法是:PhantaField 提出了一条激进路线,不是已经证明 GPU 被终结。

对推理服务商来说,这意味着什么?不是马上换卡。更现实的动作是,把“低 batch、80B 级模型、tokens/W、单机内存容量”列进下一轮评估表,要求供应商给出可复现实测,而不是只看峰值 TFLOPS。

它问对了问题:HBM 不是免费午餐

Sophon 最有价值的地方,不是喊“无 HBM”。口号没用。真正有价值的是,它把问题从“怎样堆更贵的外置显存”改成了“为什么权重要一遍遍搬”。

低 batch 推理很残酷。每生成一个 token,都要读大量权重。batch 高时还能摊薄,batch 低时,内存带宽账单直接摊到每个 token 上。

HBM4 很强,但它仍是片外通道。它贵,热,供应紧,还吃先进封装能力。AI 公司买的不是显卡,是每秒 token、每瓦 token、每美元 token。

训练更麻烦。它不只是读取权重,还要写梯度、写优化器状态、更新参数。很多存内计算方案能做推理展示,却卡在可写性、耐久、校准和误差控制上。

Sophon 的主张是:把权重、梯度、优化器状态尽量留在片上;用本地垂直互连减少搬运;让 CIM tile 在离数据最近的地方算。

这条路线的吸引力很清楚:

场景HBM4 GPU 路线的压力Sophon 白皮书想解决的点
低 batch 推理权重反复从片外读,带宽摊不薄权重在片上,就近喂给计算单元
80B 级模型部署显存容量、带宽、封装成本一起上升用 330GB on-die DRAM 降低外部依赖
训练写入、优化器状态、能耗都重宣称用可读写片上 DRAM 承接更多状态
集群采购HBM 供应和价格影响交付节奏若成立,可降低对 HBM 供应链的暴露

“天下熙熙,皆为利来。”放到 AI 芯片里,这个“利”已经不只是 FLOPS,而是内存成本和交付确定性。

训练集群采购方会更保守。它们不会因为一份白皮书重写采购计划,但会多问一句:未来两三年,HBM 供给、封装产能和推理成本是不是仍要绑在同一条船上?如果答案是肯定的,内存优先架构就会进入备选池。

我的判断:方向对,生死线在制造业

我更愿意把 Sophon 看成一个“内存优先架构”的激进样本,而不是 GPU 终结者。

它抓准了 AI 芯片的痛点。今天很多系统不是缺算力名义值,而是缺把数据便宜、稳定、低功耗送到计算单元的能力。模型看着更强,产品反而更贵,问题常常就卡在这里。

但纸面优势最怕工程结算。

2D-TMD 器件一致性、32 层单片堆叠、2T0C DRAM 保持时间、CIM 校准、热路径、坏点冗余、测试覆盖、良率损失,任何一项出问题,BOM 优势都可能被制造、封装、测试和报废率吃掉。

若以后继续推到更高层数,比如 64-tier,问题只会更尖。层数越多,互连、热、缺陷管理和验证成本越难藏。半导体从来不奖励漂亮架构图,只奖励可制造、可测试、可交付。

“无 HBM”也不自动等于便宜。HBM 确实贵,但它有产业链,有验证路径,有产能爬坡经验。单片 3D 如果良率差,省下的 HBM 账单会从另一张发票里回来。

接下来最该看的不是发布会,也不是新一轮对比图,而是四件事:

  • 有没有独立硅片实测,尤其是 80B 低 batch decode 的 tokens/W;
  • 330GB on-die DRAM 的保持时间、可写寿命和错误率怎么公开验证;
  • 750mm² 大 die 加 32-tier 堆叠后的良率和热设计能不能站住;
  • 软件栈能不能让现有训练和推理框架少改代码就跑起来。

推理服务商可以观望,但不该忽略。它们真正该做的是拿自己的 workload 去压测:低 batch、长上下文、80B 级模型、真实 SLA。跑不出这些,白皮书再漂亮也只是论文味的成本优化。

GPU/HBM 供应链也不会立刻被掀桌。更可能发生的是,采购谈判多了一个筹码:如果内存优先架构能拿出实测,HBM 溢价就会被重新定价。不是明天崩,但会被逼着解释为什么还这么贵。

Sophon 把问题问对了。它没有证明 GPU 过时,却提醒所有人:AI 芯片的胜负,已经从“谁峰值更高”挪到“谁能少搬数据”。

这一步若做成,是另起炉灶。若做不成,也会把 HBM 路线的真实成本照得更清楚。