当显卡学会“越狱”:两项新型 Rowhammer 攻击把 Nvidia GPU 变成了攻陷整机的跳板

安全 2026年4月3日
当显卡学会“越狱”:两项新型 Rowhammer 攻击把 Nvidia GPU 变成了攻陷整机的跳板
研究人员发现,两种针对 Nvidia Ampere 架构显卡的新型 Rowhammer 攻击,已经不再只是“把 GPU 算坏一点”那么简单,而是能一路越过边界,直接拿下宿主机 root 权限。这件事真正可怕的地方,不在于它今天是否已被大规模利用,而在于它提醒整个行业:我们过去把 CPU 和 GPU 当作两套安全世界的习惯,可能已经过时了。

一次不只是“翻转比特”的安全警报

过去十年里,Rowhammer 一直像硬件安全领域那只打不死的小强:你以为它已经被研究透了,它转头又换个地方钻出来。最早它攻击的是 CPU 使用的 DRAM 内存,通过对某些内存行进行高频访问,制造电气干扰,让原本存着 0 和 1 的比特悄悄“变心”。这类比特翻转看起来像物理层的小毛病,但在攻击者手里,它能一步步撬开权限边界,最后从普通用户爬成 root。

如今,这只“小强”爬进了 GPU,而且不是普通消费显卡跑分翻车那么轻松的故事。两支研究团队分别提出了名为 GDDRHammer 和 GeForge 的新攻击,目标直指 Nvidia Ampere 架构的 RTX 6000 与 RTX 3060。它们证明了一件此前行业多少有点不愿面对的事:GPU 显存里的比特翻转,不再只是影响神经网络推理结果,也能反向打穿 CPU 侧的内存边界,最终获得整台主机的完全控制权。

这件事之所以让云计算和 AI 基础设施圈子紧张,是因为高性能 GPU 本来就很少“独居”。一张动辄数千美元甚至上万美元的卡,往往在云环境里被多个租户共享。大家原本担心的是数据泄露、侧信道、资源争抢,现在研究人员等于补了一刀:如果底层配置不当,恶意用户甚至可能借着 GPU 这块跳板,把宿主机直接拿下。这个风险,显然比“让你的模型准确率掉一点”严重得多。

从 CPU 老漏洞,到 GPU 新战场

Rowhammer 并不新,真正新的,是它终于完成了一次“跨组件升级”。早年这类攻击主要盯着 DDR3,后来研究陆续证明,DDR4、带 ECC 的内存,甚至带 Target Row Refresh 等防护的内存,也并非绝对安全。学界和产业界围绕 CPU 内存的防御,已经堆起了厚厚一摞补丁、缓解机制和检测手段。

问题在于,行业过去对 GPU 的安全想象,明显滞后于 GPU 在现实世界中的地位变化。十年前,GPU 更像是游戏玩家的性能玩具;今天,它已经是 AI 训练、推理、科学计算、云渲染和高性能计算的关键基础设施。换句话说,GPU 早就不是一个“外挂加速器”,而是现代计算机系统里的第二颗心脏。可很多安全设计仍然沿用老观念,把 GPU 看成一个相对隔离、风险可控的外设。

去年,研究人员已经证明 Nvidia 的 GDDR 显存也会遭遇 Rowhammer,但当时造成的比特翻转数量有限,更多是让 GPU 上运行的神经网络输出变差,有点像“给 AI 模型使坏”。而这次,GDDRHammer 和 GeForge 把故事推进到更危险的一幕:攻击者不仅能在 GPU 内存里翻比特,还能借此篡改 GPU 页表,获得对 GPU 内存空间的任意读写能力,进一步把映射指向主机的 CPU 物理内存。到了这一步,GPU 就不再是受害者,而成了帮凶。

这也是这项研究最刺痛行业的地方。你辛辛苦苦在 CPU 上做了一堆 Rowhammer 防御,结果攻击者绕路去 hammer GPU,再从 GPU 反手捅进 CPU。像极了你把前门、后门和窗户都加固了,结果有人从地下车库的通风管道进来了。

GDDRHammer 和 GeForge,为什么让人后背发凉

先看 GDDRHammer。它瞄准的是 Ampere 架构的 RTX 6000。研究人员通过新的 hammering 模式,再加上一种听起来很温和、实际上很“阴”的技术——memory massaging,成功把每个内存 bank 的平均比特翻转数提升到 129 次,相比去年 GPUHammer 的结果,提升了 64 倍。

这里的 memory massaging,可以粗略理解为一种“内存摆盘术”。因为 Nvidia 驱动本来会把关键页表放在较受保护的低层内存区域,理论上不容易被 Rowhammer 命中。研究团队做的事,就是想办法一步步诱导、挤压、腾挪内存分配,让这些本来在安全地带的页表,被挪到更脆弱、可被干扰的区域。等页表落位之后,再用比特翻转去污染它。页表一旦被篡改,攻击者就能让 GPU 访问本不该访问的地址。

GeForge 走的是相似路线,但更激进一些。它针对 RTX 3060 和 RTX 6000,在 RTX 3060 上甚至实现了 1171 次比特翻转。它攻击的不是最后一级页表,而是最后一级页目录。技术细节虽然不同,终点却一致:伪造 GPU 的地址转换结构,拿到 GPU 内存读写权限,再把手伸向宿主机物理内存,最后在 Linux 主机上弹出 root shell。

如果你不是做底层系统的,可能会觉得“页表、页目录、地址翻译”这些词离自己很远。但换成更直白的话说,这两项攻击都在做一件事:修改系统“谁可以访问哪块内存”的规则本身。一旦规则被改写,原本严肃的隔离边界就像门锁被换了芯,剩下的安全机制都很难继续发挥作用。

真正的问题,是默认配置与现实使用之间的缝隙

这类攻击并不是无条件成功。研究人员强调,攻击成立有个关键前提:IOMMU 被关闭,而这恰恰是很多 BIOS 的默认状态。IOMMU 的作用,可以理解成给外设访问主机内存时加一道翻译和隔离层,限制 GPU 看到和碰到的物理内存范围。只要启用 IOMMU,GPU 想直接乱翻主机敏感内存的难度就会高很多。

但现实世界里,IOMMU 经常被关掉,不是因为大家不重视安全,而是因为性能和兼容性。对很多追求极致吞吐、低延迟的场景来说,任何地址转换开销都会被放大。尤其在 AI 训练、推理集群和一些高性能计算环境中,运维团队更习惯优先保证性能稳定,默认安全配置并不一定拉满。这就是学术攻击最有价值的地方:它经常不是告诉你“世界末日来了”,而是提醒你“你以为没问题的默认设置,可能只是以前没被捅破”。

另一个缓解办法是开启 GPU 的 ECC。它能纠正部分内存错误,降低比特翻转直接造成破坏的概率。不过 ECC 也不是万能药。一来它会吃掉部分可用显存和性能,二来历史上已经有研究证明,一些 Rowhammer 技术可以绕过 ECC 防护。也就是说,ECC 更像安全带,不是防弹衣。

Nvidia 方面这次没有展开太多回应,只是引导用户参考去年 GPUHammer 攻击发布后提供的官方说明页面。这种克制不难理解:学术界的 PoC 和现实中的大规模攻击,仍然隔着一段距离;但从厂商视角看,眼下最棘手的问题恐怕不是修补某一张卡,而是如何重新定义 GPU 在系统安全模型里的位置。

它为什么在今天尤其重要

如果这条新闻发生在 2018 年,影响可能主要局限在硬件安全圈和少数云厂商。但放到 2026 年,它的意义一下子放大了。原因很简单:AI 基础设施的核心资产就是 GPU,而且越贵、越强、越稀缺的 GPU,越倾向于被共享、复用、切分和远程租用。企业把模型、数据、微调任务、推理服务全都堆在 GPU 集群上,GPU 也因此从性能问题,彻底变成了安全问题。

这背后还有一个更值得行业反思的趋势:异构计算越普及,安全边界就越模糊。今天是 GPU,明天可能是 DPU、NPU,或者某种专门面向推理和加速的新芯片。只要这些设备拥有独立内存、复杂地址转换能力,并和主机共享同一套资源池,类似“从加速器反攻主机”的故事就可能不断重演。

当然,也不用立刻陷入恐慌。文章提到,目前没有证据表明这类 Rowhammer 攻击已经在野外被广泛利用。受影响的已知型号也集中在 2020 年发布的 Ampere 一代里的 RTX 3060 和 RTX 6000。云服务商通常会有比个人用户更严格的隔离和监控手段,真实环境也远比实验室复杂。

但学术研究的价值,恰恰不在于“今天有没有人用”,而在于“明天会不会有人用”。历史上,很多最初看起来只存在于论文里的硬件攻击,后来都变成了产品设计、云平台运维和芯片路线图必须面对的问题。Rowhammer 这十年已经多次证明,它不是一个会自行消失的小 bug,而是一类随着存储密度增加、系统复杂度上升而不断变形的系统性麻烦。

我更在意的,是这项研究向行业抛出的那个问题:当 GPU 已经成为现代计算的主战场,我们是不是还在用 CPU 时代的安全思维,去管理一个早就升级换代的世界?如果答案是“是”,那这次被翻转的,恐怕不只是几个比特位,而是整套安全假设。

Summary: 我对这件事的判断是:它短期内未必会引发立刻可见的大规模攻击潮,但会强迫云厂商、GPU 厂商和企业运维重新审视“默认配置”与“设备边界”这两个老问题。未来一两年,IOMMU、ECC、页表隔离和 GPU 驱动内存管理,很可能都会成为更严肃的安全审计对象。更长远看,GPU 安全将不再是边缘议题,而会像今天的 CPU 固件安全一样,进入基础设施治理的核心地带。
RowhammerNvidiaGPU安全AmpereGDDRHammerGeForge宿主机提权RTX 6000RTX 3060云环境多租户