当显卡学会“越狱”：两项新型 Rowhammer 攻击把 Nvidia GPU 变成了攻陷整机的跳板

安全 2026年4月3日

研究人员发现，两种针对 Nvidia Ampere 架构显卡的新型 Rowhammer 攻击，已经不再只是“把 GPU 算坏一点”那么简单，而是能一路越过边界，直接拿下宿主机 root 权限。这件事真正可怕的地方，不在于它今天是否已被大规模利用，而在于它提醒整个行业：我们过去把 CPU 和 GPU 当作两套安全世界的习惯，可能已经过时了。

一次不只是“翻转比特”的安全警报

过去十年里，Rowhammer 一直像硬件安全领域那只打不死的小强：你以为它已经被研究透了，它转头又换个地方钻出来。最早它攻击的是 CPU 使用的 DRAM 内存，通过对某些内存行进行高频访问，制造电气干扰，让原本存着 0 和 1 的比特悄悄“变心”。这类比特翻转看起来像物理层的小毛病，但在攻击者手里，它能一步步撬开权限边界，最后从普通用户爬成 root。

如今，这只“小强”爬进了 GPU，而且不是普通消费显卡跑分翻车那么轻松的故事。两支研究团队分别提出了名为 GDDRHammer 和 GeForge 的新攻击，目标直指 Nvidia Ampere 架构的 RTX 6000 与 RTX 3060。它们证明了一件此前行业多少有点不愿面对的事：GPU 显存里的比特翻转，不再只是影响神经网络推理结果，也能反向打穿 CPU 侧的内存边界，最终获得整台主机的完全控制权。

这件事之所以让云计算和 AI 基础设施圈子紧张，是因为高性能 GPU 本来就很少“独居”。一张动辄数千美元甚至上万美元的卡，往往在云环境里被多个租户共享。大家原本担心的是数据泄露、侧信道、资源争抢，现在研究人员等于补了一刀：如果底层配置不当，恶意用户甚至可能借着 GPU 这块跳板，把宿主机直接拿下。这个风险，显然比“让你的模型准确率掉一点”严重得多。

从 CPU 老漏洞，到 GPU 新战场

Rowhammer 并不新，真正新的，是它终于完成了一次“跨组件升级”。早年这类攻击主要盯着 DDR3，后来研究陆续证明，DDR4、带 ECC 的内存，甚至带 Target Row Refresh 等防护的内存，也并非绝对安全。学界和产业界围绕 CPU 内存的防御，已经堆起了厚厚一摞补丁、缓解机制和检测手段。

问题在于，行业过去对 GPU 的安全想象，明显滞后于 GPU 在现实世界中的地位变化。十年前，GPU 更像是游戏玩家的性能玩具；今天，它已经是 AI 训练、推理、科学计算、云渲染和高性能计算的关键基础设施。换句话说，GPU 早就不是一个“外挂加速器”，而是现代计算机系统里的第二颗心脏。可很多安全设计仍然沿用老观念，把 GPU 看成一个相对隔离、风险可控的外设。

去年，研究人员已经证明 Nvidia 的 GDDR 显存也会遭遇 Rowhammer，但当时造成的比特翻转数量有限，更多是让 GPU 上运行的神经网络输出变差，有点像“给 AI 模型使坏”。而这次，GDDRHammer 和 GeForge 把故事推进到更危险的一幕：攻击者不仅能在 GPU 内存里翻比特，还能借此篡改 GPU 页表，获得对 GPU 内存空间的任意读写能力，进一步把映射指向主机的 CPU 物理内存。到了这一步，GPU 就不再是受害者，而成了帮凶。

这也是这项研究最刺痛行业的地方。你辛辛苦苦在 CPU 上做了一堆 Rowhammer 防御，结果攻击者绕路去 hammer GPU，再从 GPU 反手捅进 CPU。像极了你把前门、后门和窗户都加固了，结果有人从地下车库的通风管道进来了。

GDDRHammer 和 GeForge，为什么让人后背发凉

先看 GDDRHammer。它瞄准的是 Ampere 架构的 RTX 6000。研究人员通过新的 hammering 模式，再加上一种听起来很温和、实际上很“阴”的技术——memory massaging，成功把每个内存 bank 的平均比特翻转数提升到 129 次，相比去年 GPUHammer 的结果，提升了 64 倍。

这里的 memory massaging，可以粗略理解为一种“内存摆盘术”。因为 Nvidia 驱动本来会把关键页表放在较受保护的低层内存区域，理论上不容易被 Rowhammer 命中。研究团队做的事，就是想办法一步步诱导、挤压、腾挪内存分配，让这些本来在安全地带的页表，被挪到更脆弱、可被干扰的区域。等页表落位之后，再用比特翻转去污染它。页表一旦被篡改，攻击者就能让 GPU 访问本不该访问的地址。

GeForge 走的是相似路线，但更激进一些。它针对 RTX 3060 和 RTX 6000，在 RTX 3060 上甚至实现了 1171 次比特翻转。它攻击的不是最后一级页表，而是最后一级页目录。技术细节虽然不同，终点却一致：伪造 GPU 的地址转换结构，拿到 GPU 内存读写权限，再把手伸向宿主机物理内存，最后在 Linux 主机上弹出 root shell。

如果你不是做底层系统的，可能会觉得“页表、页目录、地址翻译”这些词离自己很远。但换成更直白的话说，这两项攻击都在做一件事：修改系统“谁可以访问哪块内存”的规则本身。一旦规则被改写，原本严肃的隔离边界就像门锁被换了芯，剩下的安全机制都很难继续发挥作用。

真正的问题，是默认配置与现实使用之间的缝隙

这类攻击并不是无条件成功。研究人员强调，攻击成立有个关键前提：IOMMU 被关闭，而这恰恰是很多 BIOS 的默认状态。IOMMU 的作用，可以理解成给外设访问主机内存时加一道翻译和隔离层，限制 GPU 看到和碰到的物理内存范围。只要启用 IOMMU，GPU 想直接乱翻主机敏感内存的难度就会高很多。

但现实世界里，IOMMU 经常被关掉，不是因为大家不重视安全，而是因为性能和兼容性。对很多追求极致吞吐、低延迟的场景来说，任何地址转换开销都会被放大。尤其在 AI 训练、推理集群和一些高性能计算环境中，运维团队更习惯优先保证性能稳定，默认安全配置并不一定拉满。这就是学术攻击最有价值的地方：它经常不是告诉你“世界末日来了”，而是提醒你“你以为没问题的默认设置，可能只是以前没被捅破”。

另一个缓解办法是开启 GPU 的 ECC。它能纠正部分内存错误，降低比特翻转直接造成破坏的概率。不过 ECC 也不是万能药。一来它会吃掉部分可用显存和性能，二来历史上已经有研究证明，一些 Rowhammer 技术可以绕过 ECC 防护。也就是说，ECC 更像安全带，不是防弹衣。

Nvidia 方面这次没有展开太多回应，只是引导用户参考去年 GPUHammer 攻击发布后提供的官方说明页面。这种克制不难理解：学术界的 PoC 和现实中的大规模攻击，仍然隔着一段距离；但从厂商视角看，眼下最棘手的问题恐怕不是修补某一张卡，而是如何重新定义 GPU 在系统安全模型里的位置。

它为什么在今天尤其重要

如果这条新闻发生在 2018 年，影响可能主要局限在硬件安全圈和少数云厂商。但放到 2026 年，它的意义一下子放大了。原因很简单：AI 基础设施的核心资产就是 GPU，而且越贵、越强、越稀缺的 GPU，越倾向于被共享、复用、切分和远程租用。企业把模型、数据、微调任务、推理服务全都堆在 GPU 集群上，GPU 也因此从性能问题，彻底变成了安全问题。

这背后还有一个更值得行业反思的趋势：异构计算越普及，安全边界就越模糊。今天是 GPU，明天可能是 DPU、NPU，或者某种专门面向推理和加速的新芯片。只要这些设备拥有独立内存、复杂地址转换能力，并和主机共享同一套资源池，类似“从加速器反攻主机”的故事就可能不断重演。

当然，也不用立刻陷入恐慌。文章提到，目前没有证据表明这类 Rowhammer 攻击已经在野外被广泛利用。受影响的已知型号也集中在 2020 年发布的 Ampere 一代里的 RTX 3060 和 RTX 6000。云服务商通常会有比个人用户更严格的隔离和监控手段，真实环境也远比实验室复杂。

但学术研究的价值，恰恰不在于“今天有没有人用”，而在于“明天会不会有人用”。历史上，很多最初看起来只存在于论文里的硬件攻击，后来都变成了产品设计、云平台运维和芯片路线图必须面对的问题。Rowhammer 这十年已经多次证明，它不是一个会自行消失的小 bug，而是一类随着存储密度增加、系统复杂度上升而不断变形的系统性麻烦。

我更在意的，是这项研究向行业抛出的那个问题：当 GPU 已经成为现代计算的主战场，我们是不是还在用 CPU 时代的安全思维，去管理一个早就升级换代的世界？如果答案是“是”，那这次被翻转的，恐怕不只是几个比特位，而是整套安全假设。

Summary: 我对这件事的判断是：它短期内未必会引发立刻可见的大规模攻击潮，但会强迫云厂商、GPU 厂商和企业运维重新审视“默认配置”与“设备边界”这两个老问题。未来一两年，IOMMU、ECC、页表隔离和 GPU 驱动内存管理，很可能都会成为更严肃的安全审计对象。更长远看，GPU 安全将不再是边缘议题，而会像今天的 CPU 固件安全一样，进入基础设施治理的核心地带。

RowhammerNvidiaGPU安全AmpereGDDRHammerGeForge宿主机提权RTX 6000RTX 3060云环境多租户