约 2000 人,约 6000 次邮件攻击,目标是套出一个 AI 助手里的 secrets.env 或凭据。结果是:没套出来。
这事有意思的地方不在“人类黑客输了”。更准确地说,它说明今天的前沿模型,面对提示注入时确实比过去更硬。但硬,不等于可以把生产权限交出去。
Fernando Irarrázaval 在 hackmyclaw.com 做了这个公开挑战。他开放了一个 OpenClaw 测试实例,让外部参与者只能通过发送邮件来影响这个助手。底层模型是 Opus 4.6,系统规则明确写着:不能基于邮件内容泄露 secrets.env 或凭据,不能修改自身文件,不能执行邮件里的命令,也不能把数据传到外部端点。
这次挑战到底测了什么
它测的是一个很具体的入口:邮件。
这点重要。因为企业里的 AI 助手,最容易遇到的非可信输入之一,就是邮件、网页、文档和工单。攻击者不需要登录系统,只要让助手读到一段恶意文本,就可能诱导它越权。
这次实验把问题压缩成了一个清楚场景:邮件进来,模型读到,攻击者试图让它泄密或执行不该执行的动作。
| 维度 | 公开信息 | 对判断的意义 |
|---|---|---|
| 攻击入口 | 给 OpenClaw 测试实例发邮件 | 接近企业助手常见的非可信输入 |
| 攻击目标 | 诱导泄露 secrets.env 或凭据 | 不是普通聊天越狱,而是高风险资产 |
| 底层模型 | Opus 4.6 | 结果能部分反映前沿模型训练进展 |
| 系统规则 | 明确禁止泄密、改文件、执行命令、外传数据 | 防线不只靠模型“自觉”,也靠清晰边界 |
| 实验代价 | 约 500 美元 token 成本;Google 账号因邮件过多被暂停 | 没泄密,也可能先被成本和风控打疼 |
这个设计的优点是干净。入口、目标、规则都很清楚。
它的限制也在这里。它不是完整生产系统,不等于覆盖了真实公司里的多工具、多账号、多权限链路。
6000 次失败说明模型进步了,但没证明系统安全
Simon Willison 对这个结果的判断比较克制:模型厂商在反提示注入训练上的投入,确实让这类攻击更难成功。他还提到,OpenAI 在 GPT-5.6 system card 中也有一小节专门讨论 prompt injection。
这不是小事。
早期很多提示注入演示,靠一句“忽略之前的指令”就能让模型改口,甚至泄露不该给出的内容。现在至少在这个测试里,简单邮件诱导没有打穿防线。
但 6000 次失败,仍然不是安全证明。
安全里最麻烦的地方,是“没被这批攻击打穿”和“不会被更强攻击打穿”之间隔着很远。公开挑战吸引来的攻击者水平不一,攻击方式也受限于实验入口。更复杂的攻击可能来自多轮上下文、附件、网页内容、协作工具通知,甚至多个系统之间的权限接力。
Hacker News 上的讨论也集中在这个边界:公开挑战能说明什么,不能说明什么。里面有不少质疑,也有 Fernando 的回应。这个平衡视角反而让结论更可信:实验结果有价值,但不能拿来当生产安全背书。
开发者和安全团队该怎么改动作
最该受影响的,是两类人。
一类是正在把 AI 助手接入内部系统的开发团队。另一类是负责评审这类项目的安全工程师。
对开发团队来说,这条新闻不是“可以放心接权限”。更现实的动作是:把模型层防线当成加分项,把权限设计仍然按“会失守”来做。
| 场景 | 不稳妥做法 | 更稳妥做法 |
|---|---|---|
| 读取敏感文件 | 让助手直接接触 secrets.env、凭据、配置文件 | 默认不可读;需要时走专门密钥服务和最小权限 |
| 处理邮件和文档 | 把邮件正文当作普通指令来源 | 标记为不可信输入,只能作为资料,不能覆盖系统规则 |
| 执行高风险动作 | 让助手直接改文件、跑命令、外发请求 | 加白名单、审批、人类确认和完整日志 |
| 接入生产工具 | 一次性接 CRM、代码仓库、云控制台等 | 分阶段接入,先只读,再低风险写入,再评估扩权 |
| 成本与滥用 | 只算模型调用成功后的收益 | 把 token 消耗、邮件轰炸、账号风控也算进安全预算 |
安全团队也不该因为“6000 次没打穿”就放松评审。更合理的做法,是把它当成一个信号:模型默认抗性在增强,可以降低一部分应用层压力;但上线门槛不能因此取消。
如果一个 AI 助手已经能读邮件、查客户数据、改工单、调用内部接口,那评审重点就不该只问“模型会不会听坏人的话”。还要问三件事:它能碰到哪些数据,能执行哪些动作,出错后损害半径有多大。
接下来真正要看的,也不是同类挑战能不能再赢一次。
更关键的变量有三个:多工具环境下还能不能守住;多轮诱导下还能不能守住;一旦失守,系统能不能把损失限制在很小范围内。
这次 OpenClaw 没泄密,是好消息。Google 账号被暂停、token 烧掉约 500 美元,则提醒了另一面:AI 安全不只看机密有没有漏,也要看攻击流量、运营成本和账号风控能不能扛住。
不恃其不攻,恃吾有所不可攻。放到 AI 助手上,这句话要再补半句:就算被攻进来,也别让它拿到太多东西。
