AI 不再只会写代码：Codex 被研究人员带进三星电视，真的拿到了 root

核心摘要 Summary

这不是一篇“AI 自动黑掉电视”的夸张标题党，而是一场更值得行业警惕的实验：研究人员给 Codex 搭好操作环境、开放真实设备和匹配源码后，它一步步把三星电视浏览器里的落脚点推进成了 root 权限。
真正震撼的地方不在于某个漏洞本身，而在于 AI 已经开始具备“像安全研究员一样试错、修正、再推进”的能力。

一台三星电视，成了 AI 安全能力的试验场

这两天安全圈里最有意思的一件事，不是又爆出哪个数据库泄露，也不是哪个大模型在榜单上多拿了几分，而是一台三星智能电视。

来自 Calif 的研究团队公开了一次实验：他们先在这台电视的浏览器应用里拿到了一个初始 shell，然后把设备控制链路、对应固件源码、交叉编译环境都准备好，交给 Codex 去做下一步——不是“帮忙看看有没有洞”，而是很明确地问它：能不能把浏览器里的代码执行，一路推到 root？

答案是，可以。

这件事的戏剧性很强。你甚至能从原文里感受到那种真实得有点好笑的交互场景：AI 有时一把过，有时把电视搞卡死，研究员像在带一个聪明但偶尔莽撞的实习生，时不时要来一句“bro，你刚刚到底干了啥”。这恰恰让这次实验显得可信。它不是实验室里一段被精心剪辑过的成功 demo，而是一次带着摩擦、误操作、修正和反复验证的真实攻防过程。

更重要的是，这并不是让 AI 从零发现浏览器远程代码执行漏洞。研究团队很坦率：浏览器里的初始 foothold 早就有了，这次要验证的是，AI 在一个现实的“后渗透”场景里，能不能像一名像样的安全研究员一样继续往上爬权限。这个问题，比“AI 会不会写 exploit”更接近产业真相。

真正可怕的，不是单个漏洞，而是 AI 开始学会“打通链路”

如果只看技术细节，这次提权链条并不神秘。Codex 先根据现场信息缩小攻击面，发现浏览器上下文能接触到一组世界可写的 ntk* 设备节点；再去审计与这台电视固件匹配的 KantS2 源码；随后盯上了 ntksys 和 ntkhdma 这组驱动接口，确认其中存在一个足以把物理内存映射给用户态进程的危险能力。

说白了，这不是那种炫技型的内核控制流劫持，而是一个更“朴素”、也更致命的设计错误：驱动把来自用户态的物理地址和大小直接记下来，再通过 mmap 映射回去，缺少关键的权限和范围检查。浏览器进程本来不该碰到的物理内存，就这样被递到了手里。

接下来，Codex 没有像很多人想象的那样立刻编一段华丽的内核 ROP，而是走了一条非常工程化的路。它先利用 ntkhdma 拿到一个已知可用的物理地址，证明映射能力是真的；再在真实设备上写小工具验证读写；之后根据 /proc/cmdline 推断内存布局，在物理内存里寻找浏览器进程凭据结构的特征，最终把身份字段改成 root 对应的值，完成提权。

从安全研究视角看，这次最值得记住的不是“某三星电视驱动有洞”——这种事在 IoT 世界并不稀奇。真正让人背后一凉的是，Codex 展现出的不是单点能力，而是一整套链路思维：读源码、找入口、确认可达性、理解系统限制、写 PoC、部署到 ARM 设备、绕过厂商执行限制、根据日志调试、重复迭代，最后把碎片拼成一条稳定链。

过去我们常说，大模型很擅长“局部聪明”，比如写一段代码、总结一个 CVE、解释一个内核结构。但安全攻防难的从来不是某一段代码，而是把十几个不完美的环节连起来。现在看，AI 已经开始摸到这条线了。

这也暴露了智能电视行业一个老问题：它们太像电脑，却没按电脑标准来防守

三星电视这次被拿来做实验，其实有点象征意味。智能电视这些年越来越像一台客厅里的 Linux 电脑：有浏览器、有应用生态、有内核驱动、有联网能力、有复杂的多媒体栈，甚至还有一堆消费者完全看不见的供应链组件。

可问题是，它们在安全治理上，常常还停留在“家电思维”。用户把电视当屏幕买回家，不会像管理 PC 那样关心补丁周期、权限模型和驱动暴露面。厂商则往往把重点放在画质芯片、内容平台和启动速度上，安全被挤到了后排。于是我们会一再看到类似故事：某个设备节点权限开得过大，某个第三方驱动带着陈年代码进了量产固件，某个防执行机制本意很好，但旁边又留了足够实用的绕路方法。

这次被点名的 ntk* 驱动还带出了另一个老生常谈的问题：供应链。研究人员在源码里发现了 Novatek 的标识，这说明这些接口并不是三星独有发明，而是更大一套电视 SoC/驱动栈的一部分。换句话说，如果问题出在设计层，那么风险未必只属于一台电视、一个型号、甚至不一定只属于一个品牌。

这也是 IoT 安全最麻烦的地方。PC 和手机世界出事，大家至少熟悉“系统版本—补丁—升级”的路径；到了电视、机顶盒、摄像头这些设备，真正控制风险的往往是底层 BSP、驱动包和代工链条。消费者看到的是品牌 logo，实际跑在里面的，可能是多层拼装出来的软件宇宙。洞不一定来自品牌自己写的代码，但最后锅往往还是品牌来背。

AI 做安全研究，最让人兴奋，也最让人不安

从技术进步的角度看，这次实验很令人兴奋。因为它说明，大模型在安全领域开始从“问答助手”向“半自动研究员”转变。以前很多安全团队用 AI，主要是查资料、写脚本、补文档、生成测试样例；而这次已经更进一步：AI 被放进真实环境里，面对不完整信息、执行限制和失败反馈，居然能持续迭代。

但也正因为如此，这件事的讨论不能只停在“哇，厉害”。它带来的争议其实很现实：当攻击链构建的门槛因为 AI 降低之后，谁会最先受影响？大概率不是拥有成熟红队和漏洞响应能力的大厂，而是那些更新慢、接口杂、设备寿命长、用户又几乎没有安全意识的消费电子和工业 IoT。

更微妙的是，研究团队这次没有把完整漏洞利用配方一股脑端出来，而是公开了 writeup 和部分 PoC，强调他们提供给 Codex 的是一个可操作环境，而不是直接喂答案。这种披露方式相对克制，也有研究价值。但行业接下来必须面对一个问题：如果未来的通用模型能在本地或云端稳定完成类似任务，传统“靠复杂度拖住攻击者”的思路还剩多少防守价值？

你可以把这件事和过去两年的趋势连起来看。无论是自动化代码审计、模糊测试辅助，还是 CTF 场景里的 exploit 生成，AI 都在快速蚕食“需要很多手工耐心”的部分。安全行业以前相信，真正高级的利用链需要大量经验、直觉和上下文切换，不会轻易被自动化替代。现在这个判断至少要改写一半：AI 也许还不是顶级黑客，但它已经越来越像一个不知疲倦、而且会越学越快的初中级研究员。

比“电视被黑”更值得记住的，是安全边界正在重画

我觉得这次实验最值得玩味的一点，是它让我们重新理解“AI 能力边界”这件事。很多人谈大模型，还停留在聊天、写作、编程助手这些熟悉场景；而在安全研究里，真正有价值的不是会不会回答，而是能不能行动。Codex 这次不是在纸面上分析一个 CVE，而是在受限 shell、tmux send-keys、静态 ARMv7 编译、Tizen 未授权执行防护、memfd 内存执行这些具体限制下，一步一步把事情做成。

这意味着，未来的 AI 安全工具竞争，可能不只是模型参数和 benchmark 分数的竞争，而是“能否接入真实系统并闭环完成任务”的竞争。谁能把代码理解、环境操作、日志反馈、构建部署、故障恢复串起来，谁就更接近真正可用的自动化攻防代理。

对于厂商来说，这个信号非常明确：别再假设攻击者会因为设备太冷门、驱动太脏、环境太麻烦就放弃。过去这些复杂性有时是防御缓冲垫，未来却可能只是 AI 的练习题。特别是智能电视这类长期在线、麦克风摄像头可选、与家庭网络相连的设备，一旦权限边界失守，风险远不只是“重启几次电视”这么轻松。

说得再直白一点，客厅里的那块大屏，早就不是单纯的屏幕了。它是一台联网计算机，一台有供应链包袱的 Linux 机器，一台用户几乎不会主动维护的家庭终端。而当 AI 开始具备把一个小小 foothold 推成 root 的能力时，我们最好赶紧按“计算机”的标准来要求它们，而不是继续按“家电”的心态来管理它们。

如果还有一个值得继续追问的问题，那就是研究团队在文末留下的那句半开玩笑、半认真的话：下一步，显然就是让 AI 从头到尾把整件事都做完。听起来像玩笑，但行业里的人都知道，这大概不是玩笑。真正的问题从来不是它会不会来，而是它会先在哪类设备上来，以及我们的补丁、响应和监管，跟不跟得上。

AI 不再只会写代码：Codex 被研究人员带进三星电视，真的拿到了 root

AI提权三星电视

实验设计

人工辅助

技术路径

定位缺陷

行业漏洞

家电思维

攻防重塑

链路思维

一台三星电视，成了 AI 安全能力的试验场

真正可怕的，不是单个漏洞，而是 AI 开始学会“打通链路”

这也暴露了智能电视行业一个老问题：它们太像电脑，却没按电脑标准来防守

AI 做安全研究，最让人兴奋，也最让人不安

比“电视被黑”更值得记住的，是安全边界正在重画