AI 不再只会写代码:Codex 被研究人员带进三星电视,真的拿到了 root

安全 2026年4月16日
AI 不再只会写代码:Codex 被研究人员带进三星电视,真的拿到了 root
这不是一篇“AI 自动黑掉电视”的夸张标题党,而是一场更值得行业警惕的实验:研究人员给 Codex 搭好操作环境、开放真实设备和匹配源码后,它一步步把三星电视浏览器里的落脚点推进成了 root 权限。真正震撼的地方不在于某个漏洞本身,而在于 AI 已经开始具备“像安全研究员一样试错、修正、再推进”的能力。

一台三星电视,成了 AI 安全能力的试验场

这两天安全圈里最有意思的一件事,不是又爆出哪个数据库泄露,也不是哪个大模型在榜单上多拿了几分,而是一台三星智能电视。

来自 Calif 的研究团队公开了一次实验:他们先在这台电视的浏览器应用里拿到了一个初始 shell,然后把设备控制链路、对应固件源码、交叉编译环境都准备好,交给 Codex 去做下一步——不是“帮忙看看有没有洞”,而是很明确地问它:能不能把浏览器里的代码执行,一路推到 root?

答案是,可以。

这件事的戏剧性很强。你甚至能从原文里感受到那种真实得有点好笑的交互场景:AI 有时一把过,有时把电视搞卡死,研究员像在带一个聪明但偶尔莽撞的实习生,时不时要来一句“bro,你刚刚到底干了啥”。这恰恰让这次实验显得可信。它不是实验室里一段被精心剪辑过的成功 demo,而是一次带着摩擦、误操作、修正和反复验证的真实攻防过程。

更重要的是,这并不是让 AI 从零发现浏览器远程代码执行漏洞。研究团队很坦率:浏览器里的初始 foothold 早就有了,这次要验证的是,AI 在一个现实的“后渗透”场景里,能不能像一名像样的安全研究员一样继续往上爬权限。这个问题,比“AI 会不会写 exploit”更接近产业真相。

真正可怕的,不是单个漏洞,而是 AI 开始学会“打通链路”

如果只看技术细节,这次提权链条并不神秘。Codex 先根据现场信息缩小攻击面,发现浏览器上下文能接触到一组世界可写的 ntk* 设备节点;再去审计与这台电视固件匹配的 KantS2 源码;随后盯上了 ntksysntkhdma 这组驱动接口,确认其中存在一个足以把物理内存映射给用户态进程的危险能力。

说白了,这不是那种炫技型的内核控制流劫持,而是一个更“朴素”、也更致命的设计错误:驱动把来自用户态的物理地址和大小直接记下来,再通过 mmap 映射回去,缺少关键的权限和范围检查。浏览器进程本来不该碰到的物理内存,就这样被递到了手里。

接下来,Codex 没有像很多人想象的那样立刻编一段华丽的内核 ROP,而是走了一条非常工程化的路。它先利用 ntkhdma 拿到一个已知可用的物理地址,证明映射能力是真的;再在真实设备上写小工具验证读写;之后根据 /proc/cmdline 推断内存布局,在物理内存里寻找浏览器进程凭据结构的特征,最终把身份字段改成 root 对应的值,完成提权。

从安全研究视角看,这次最值得记住的不是“某三星电视驱动有洞”——这种事在 IoT 世界并不稀奇。真正让人背后一凉的是,Codex 展现出的不是单点能力,而是一整套链路思维:读源码、找入口、确认可达性、理解系统限制、写 PoC、部署到 ARM 设备、绕过厂商执行限制、根据日志调试、重复迭代,最后把碎片拼成一条稳定链。

过去我们常说,大模型很擅长“局部聪明”,比如写一段代码、总结一个 CVE、解释一个内核结构。但安全攻防难的从来不是某一段代码,而是把十几个不完美的环节连起来。现在看,AI 已经开始摸到这条线了。

这也暴露了智能电视行业一个老问题:它们太像电脑,却没按电脑标准来防守

三星电视这次被拿来做实验,其实有点象征意味。智能电视这些年越来越像一台客厅里的 Linux 电脑:有浏览器、有应用生态、有内核驱动、有联网能力、有复杂的多媒体栈,甚至还有一堆消费者完全看不见的供应链组件。

可问题是,它们在安全治理上,常常还停留在“家电思维”。用户把电视当屏幕买回家,不会像管理 PC 那样关心补丁周期、权限模型和驱动暴露面。厂商则往往把重点放在画质芯片、内容平台和启动速度上,安全被挤到了后排。于是我们会一再看到类似故事:某个设备节点权限开得过大,某个第三方驱动带着陈年代码进了量产固件,某个防执行机制本意很好,但旁边又留了足够实用的绕路方法。

这次被点名的 ntk* 驱动还带出了另一个老生常谈的问题:供应链。研究人员在源码里发现了 Novatek 的标识,这说明这些接口并不是三星独有发明,而是更大一套电视 SoC/驱动栈的一部分。换句话说,如果问题出在设计层,那么风险未必只属于一台电视、一个型号、甚至不一定只属于一个品牌。

这也是 IoT 安全最麻烦的地方。PC 和手机世界出事,大家至少熟悉“系统版本—补丁—升级”的路径;到了电视、机顶盒、摄像头这些设备,真正控制风险的往往是底层 BSP、驱动包和代工链条。消费者看到的是品牌 logo,实际跑在里面的,可能是多层拼装出来的软件宇宙。洞不一定来自品牌自己写的代码,但最后锅往往还是品牌来背。

AI 做安全研究,最让人兴奋,也最让人不安

从技术进步的角度看,这次实验很令人兴奋。因为它说明,大模型在安全领域开始从“问答助手”向“半自动研究员”转变。以前很多安全团队用 AI,主要是查资料、写脚本、补文档、生成测试样例;而这次已经更进一步:AI 被放进真实环境里,面对不完整信息、执行限制和失败反馈,居然能持续迭代。

但也正因为如此,这件事的讨论不能只停在“哇,厉害”。它带来的争议其实很现实:当攻击链构建的门槛因为 AI 降低之后,谁会最先受影响?大概率不是拥有成熟红队和漏洞响应能力的大厂,而是那些更新慢、接口杂、设备寿命长、用户又几乎没有安全意识的消费电子和工业 IoT。

更微妙的是,研究团队这次没有把完整漏洞利用配方一股脑端出来,而是公开了 writeup 和部分 PoC,强调他们提供给 Codex 的是一个可操作环境,而不是直接喂答案。这种披露方式相对克制,也有研究价值。但行业接下来必须面对一个问题:如果未来的通用模型能在本地或云端稳定完成类似任务,传统“靠复杂度拖住攻击者”的思路还剩多少防守价值?

你可以把这件事和过去两年的趋势连起来看。无论是自动化代码审计、模糊测试辅助,还是 CTF 场景里的 exploit 生成,AI 都在快速蚕食“需要很多手工耐心”的部分。安全行业以前相信,真正高级的利用链需要大量经验、直觉和上下文切换,不会轻易被自动化替代。现在这个判断至少要改写一半:AI 也许还不是顶级黑客,但它已经越来越像一个不知疲倦、而且会越学越快的初中级研究员。

比“电视被黑”更值得记住的,是安全边界正在重画

我觉得这次实验最值得玩味的一点,是它让我们重新理解“AI 能力边界”这件事。很多人谈大模型,还停留在聊天、写作、编程助手这些熟悉场景;而在安全研究里,真正有价值的不是会不会回答,而是能不能行动。Codex 这次不是在纸面上分析一个 CVE,而是在受限 shell、tmux send-keys、静态 ARMv7 编译、Tizen 未授权执行防护、memfd 内存执行这些具体限制下,一步一步把事情做成。

这意味着,未来的 AI 安全工具竞争,可能不只是模型参数和 benchmark 分数的竞争,而是“能否接入真实系统并闭环完成任务”的竞争。谁能把代码理解、环境操作、日志反馈、构建部署、故障恢复串起来,谁就更接近真正可用的自动化攻防代理。

对于厂商来说,这个信号非常明确:别再假设攻击者会因为设备太冷门、驱动太脏、环境太麻烦就放弃。过去这些复杂性有时是防御缓冲垫,未来却可能只是 AI 的练习题。特别是智能电视这类长期在线、麦克风摄像头可选、与家庭网络相连的设备,一旦权限边界失守,风险远不只是“重启几次电视”这么轻松。

说得再直白一点,客厅里的那块大屏,早就不是单纯的屏幕了。它是一台联网计算机,一台有供应链包袱的 Linux 机器,一台用户几乎不会主动维护的家庭终端。而当 AI 开始具备把一个小小 foothold 推成 root 的能力时,我们最好赶紧按“计算机”的标准来要求它们,而不是继续按“家电”的心态来管理它们。

如果还有一个值得继续追问的问题,那就是研究团队在文末留下的那句半开玩笑、半认真的话:下一步,显然就是让 AI 从头到尾把整件事都做完。听起来像玩笑,但行业里的人都知道,这大概不是玩笑。真正的问题从来不是它会不会来,而是它会先在哪类设备上来,以及我们的补丁、响应和监管,跟不跟得上。

Summary: 我的判断是,这次实验的历史意义大于漏洞本身。三星电视上的问题终会被修补,但“AI 可以在真实后渗透环境里完成提权闭环”这件事不会消失。接下来一年,消费电子和 IoT 厂商会越来越频繁地面对一种新型对手:它不一定比顶尖研究员更天才,但足够便宜、足够快、足够能反复试。谁还把智能设备当传统家电来做安全,谁就可能在下一轮里最先掉队。
Codex三星电视root 权限AI 安全研究后渗透浏览器漏洞利用shell固件源码交叉编译环境智能电视安全