一台2RU服务器,塞进接近10PB全闪存。
这个数字放在几年前,听起来更像定制存储柜的宣传语。现在它出现在戴尔PowerEdge R7725xd里:AMD EPYC 9005平台,40块Kioxia LC9 E3.L 245.76TB QLC NVMe SSD,整机原始容量约9.8PB,网络侧最高支持5个400Gbps NIC。
我更在意的不是单盘容量又大了一圈,而是这类245TB到256TB级QLC SSD,开始被放进标准服务器形态里讨论。它不再只是一张路线图,也不只是厂商秀肌肉。
这会影响一批很具体的人:企业存储架构师要重新算容量层怎么分;AI基础设施采购和运维团队要判断,哪些数据池可以从近线硬盘迁到高密度全闪存,哪些还应该继续等。
2RU约9.8PB,容量只是第一层信息
PowerEdge R7725xd是戴尔面向高密度存储的服务器。此次配置的核心,是40块Kioxia LC9 E3.L 245.76TB NVMe SSD。
按标称容量算,单机原始容量接近9.8PB。如果一个机架放满20台,理论原始容量约196PB。
| 项目 | 配置 | 对架构的含义 |
|---|---|---|
| 服务器 | Dell PowerEdge R7725xd | 标准2RU服务器形态 |
| 处理器平台 | AMD EPYC 9005 | 面向高I/O和高密度节点 |
| SSD | 40块Kioxia LC9 E3.L 245.76TB NVMe | 单机约9.8PB原始容量 |
| 满机架容量 | 20台约196PB | 机房占用大幅压缩 |
| 网络 | 最高5个400Gbps NIC | 不只堆容量,也考虑数据进出 |
这里容易被忽略的是网络。
近10PB数据放在一台服务器里,如果网卡跟不上,节点会变成一个很贵的仓库。最高5个400Gbps NIC,说明这个配置瞄准的不是“能存就行”,而是要让数据进得来、出得去。
这对AI数据摄取尤其关键。训练前的数据清洗、格式转换、样本分发,很多时候卡在数据搬运,而不只是卡在GPU。对备份系统也一样,窗口期越短,吞吐越重要。
谁会先动:AI数据池、数据湖和备份库
Kioxia和戴尔指向的场景,主要是AI数据摄取、数据湖和大规模备份。它们有一个共同点:容量很大,访问模式相对可预测,对机房空间和运维复杂度敏感。
企业存储架构师可以先做一件事:把现有容量层拆成三类。
| 数据类型 | 更可能适合高密度QLC SSD | 仍可能留在HDD或其他层 |
|---|---|---|
| AI原始数据和预处理数据 | 需要较快读取、频繁批量扫描 | 长期冷归档 |
| 数据湖活跃分区 | 查询和批处理较多 | 很少访问的历史分区 |
| 备份与快速恢复库 | 重视恢复窗口和占地 | 极低成本离线留存 |
| 核心交易数据库 | 未必适合直接迁移 | 更看重延迟、耐久和稳定写入 |
对AI基础设施采购负责人,动作会更直接:不要只问“每TB多少钱”。还要问每机架能提供多少可用吞吐、能省多少机柜和交换端口、恢复或重建时会不会拖垮业务。
对运维团队,重点是少节点带来的两面性。节点少,机柜、布线、电力和维护对象都会减少。但单盘容量变大后,故障重建的风险也会集中。
这就是高密度的代价。
一块245.76TB SSD失效,不等于过去一块小盘失效。纠删码、校验、重建限速、后台任务调度,都会变成设计题。软件栈如果没有跟上,硬件密度反而会把风险放大。
所以这类配置更适合先进入容量型全闪存池,而不是被拿去替代所有TLC SSD或低延迟存储。QLC通常更适合读多写少、批量访问、写入放大可控的负载。把它和DRAM级存储比较延迟,没有意义。
近线硬盘会被挤压,但不会立刻出局
256TB级QLC SSD的竞争已经排开。
Micron有6600 ION,Sandisk有UltraQLC SN670,SK Hynix和Solidigm也在推进高容量QLC路线。三星也被Scality提到在规划近线级SSD,路线甚至指向1PB级单盘。
| 厂商 | 相关产品或路线 | 主要看点 |
|---|---|---|
| Kioxia | LC9 245.76TB QLC | 已进入戴尔PowerEdge配置展示 |
| Micron | 6600 ION | 面向快速访问容量层 |
| Sandisk | UltraQLC SN670 | 256TB级AI负载SSD路线 |
| SK Hynix / Solidigm | 高容量QLC SSD | 延续数据中心QLC布局 |
| Samsung | 未来近线SSD路线 | 可能瞄准HDD容量层 |
这并不等于HDD马上被淘汰。
近线硬盘仍有自己的位置。每TB成本、供应规模、冷数据归档、既有运维体系,都是现实优势。很多企业也不会因为一台2RU服务器能装下近10PB,就立刻改掉整套容量层架构。
真正先被挤压的,是中间地带:嫌HDD慢,又嫌传统全闪存太贵;数据不是最冷,也不是最高性能负载。AI数据池、活跃归档、快速备份库、部分对象存储热层,都在这个区间。
采购上,我不建议只盯单机容量下单。更稳的做法是把观察点压到四个变量上:
- 这类配置是否形成可稳定采购的正式SKU,而不只是展示配置;
- 245TB/256TB级QLC的实际价格、DWPD和保修条款;
- 单盘数百TB时代,存储软件的故障重建时间和性能退化;
- 最高5个400Gbps NIC能否在真实业务里被CPU、PCIe、网络和软件栈一起喂满。
容量数字已经足够吸引人。接下来要看账本。
如果每TB成本、电费、机柜、交换机端口和运维人力合在一起,比近线硬盘更划算,QLC就会吃掉一批容量层需求。若价格和重建风险压不下来,它会先留在少数高价值场景里。
