PhantaField 这份 PFG-1“Sophon”白皮书,最刺眼的不是 4200 TFLOPS FP8,而是 330GB 内存。
它宣称把 330GB 可读写 DRAM 直接做进 750mm² die 里,不用 HBM。若成立,这不是多一颗 AI 加速器,而是在正面挑战过去几年 AI 服务器里最贵、最紧、最难绕开的东西:权重搬运。
模型越大,batch 又不总能堆高,GPU 就越容易在等内存喂数据。算力峰值写得很漂亮,token 不一定真跑得出来。Sophon 抓住的,就是这道缝。
牌面很大,但它还只是白皮书
白皮书称,Sophon 采用 32-tier 2D-TMD Monolithic 3D 架构,把逻辑和存储单片堆叠。权重不走 HBM,也不走全局 NoC,而是通过本地垂直 MIV,从片上 DRAM 喂给 CIM tile。
核心参数可以压成一张表:
| 项目 | 白皮书宣称 |
|---|---|
| Die 面积 | 750mm² |
| 片上存储 | 330GB on-die 2T0C 2D-TMD DRAM |
| 架构 | 32-tier 2D-TMD M3D,数字 CIM |
| 算力 | 2100 TFLOPS BF16,4200 TFLOPS FP8 |
| 功耗 | 约 373W FP8 decode |
| 对比路线 | NVIDIA Rubin R200、AMD MI455X 的 HBM4 方案 |
它还宣称,在 80B 模型低 batch decode 场景里,Sophon 可明显压过 Rubin R200 和 AMD MI455X。理由是后两者仍受 HBM4 带宽限制。白皮书还给出 174× tokens/W、48-53× decode、9.9×/11.6× BOM 等对比。
这些数字很猛,但不能直接当行业结论。
到目前为止,它们主要来自厂商白皮书和模型计算,不是独立硅片实测,更不是大规模交付数据。这里的正确读法是:PhantaField 提出了一条激进路线,不是已经证明 GPU 被终结。
对推理服务商来说,这意味着什么?不是马上换卡。更现实的动作是,把“低 batch、80B 级模型、tokens/W、单机内存容量”列进下一轮评估表,要求供应商给出可复现实测,而不是只看峰值 TFLOPS。
它问对了问题:HBM 不是免费午餐
Sophon 最有价值的地方,不是喊“无 HBM”。口号没用。真正有价值的是,它把问题从“怎样堆更贵的外置显存”改成了“为什么权重要一遍遍搬”。
低 batch 推理很残酷。每生成一个 token,都要读大量权重。batch 高时还能摊薄,batch 低时,内存带宽账单直接摊到每个 token 上。
HBM4 很强,但它仍是片外通道。它贵,热,供应紧,还吃先进封装能力。AI 公司买的不是显卡,是每秒 token、每瓦 token、每美元 token。
训练更麻烦。它不只是读取权重,还要写梯度、写优化器状态、更新参数。很多存内计算方案能做推理展示,却卡在可写性、耐久、校准和误差控制上。
Sophon 的主张是:把权重、梯度、优化器状态尽量留在片上;用本地垂直互连减少搬运;让 CIM tile 在离数据最近的地方算。
这条路线的吸引力很清楚:
| 场景 | HBM4 GPU 路线的压力 | Sophon 白皮书想解决的点 |
|---|---|---|
| 低 batch 推理 | 权重反复从片外读,带宽摊不薄 | 权重在片上,就近喂给计算单元 |
| 80B 级模型部署 | 显存容量、带宽、封装成本一起上升 | 用 330GB on-die DRAM 降低外部依赖 |
| 训练 | 写入、优化器状态、能耗都重 | 宣称用可读写片上 DRAM 承接更多状态 |
| 集群采购 | HBM 供应和价格影响交付节奏 | 若成立,可降低对 HBM 供应链的暴露 |
“天下熙熙,皆为利来。”放到 AI 芯片里,这个“利”已经不只是 FLOPS,而是内存成本和交付确定性。
训练集群采购方会更保守。它们不会因为一份白皮书重写采购计划,但会多问一句:未来两三年,HBM 供给、封装产能和推理成本是不是仍要绑在同一条船上?如果答案是肯定的,内存优先架构就会进入备选池。
我的判断:方向对,生死线在制造业
我更愿意把 Sophon 看成一个“内存优先架构”的激进样本,而不是 GPU 终结者。
它抓准了 AI 芯片的痛点。今天很多系统不是缺算力名义值,而是缺把数据便宜、稳定、低功耗送到计算单元的能力。模型看着更强,产品反而更贵,问题常常就卡在这里。
但纸面优势最怕工程结算。
2D-TMD 器件一致性、32 层单片堆叠、2T0C DRAM 保持时间、CIM 校准、热路径、坏点冗余、测试覆盖、良率损失,任何一项出问题,BOM 优势都可能被制造、封装、测试和报废率吃掉。
若以后继续推到更高层数,比如 64-tier,问题只会更尖。层数越多,互连、热、缺陷管理和验证成本越难藏。半导体从来不奖励漂亮架构图,只奖励可制造、可测试、可交付。
“无 HBM”也不自动等于便宜。HBM 确实贵,但它有产业链,有验证路径,有产能爬坡经验。单片 3D 如果良率差,省下的 HBM 账单会从另一张发票里回来。
接下来最该看的不是发布会,也不是新一轮对比图,而是四件事:
- 有没有独立硅片实测,尤其是 80B 低 batch decode 的 tokens/W;
- 330GB on-die DRAM 的保持时间、可写寿命和错误率怎么公开验证;
- 750mm² 大 die 加 32-tier 堆叠后的良率和热设计能不能站住;
- 软件栈能不能让现有训练和推理框架少改代码就跑起来。
推理服务商可以观望,但不该忽略。它们真正该做的是拿自己的 workload 去压测:低 batch、长上下文、80B 级模型、真实 SLA。跑不出这些,白皮书再漂亮也只是论文味的成本优化。
GPU/HBM 供应链也不会立刻被掀桌。更可能发生的是,采购谈判多了一个筹码:如果内存优先架构能拿出实测,HBM 溢价就会被重新定价。不是明天崩,但会被逼着解释为什么还这么贵。
Sophon 把问题问对了。它没有证明 GPU 过时,却提醒所有人:AI 芯片的胜负,已经从“谁峰值更高”挪到“谁能少搬数据”。
这一步若做成,是另起炉灶。若做不成,也会把 HBM 路线的真实成本照得更清楚。
