英国拿到Anthropic“危险新模型”首测:AI黑客没到失控时刻,但已经学会打持久战

安全 2026年4月15日
英国拿到Anthropic“危险新模型”首测:AI黑客没到失控时刻,但已经学会打持久战
英国政府旗下 AI Security Institute 对 Anthropic 新模型 Mythos Preview 的测评,给火热的“AI 黑客”叙事泼了一点冷水,也添了一把真火:它在单项网络安全任务上并没有甩开对手,却第一次完整打通了一个复杂的多步骤渗透演练。真正值得警惕的,不是 AI 已经天下无敌,而是它开始像一名不知疲倦的初级到中级攻击者,能把零散技能串成一场像样的入侵行动。

Anthropic 上周刚把自家新模型 Mythos Preview 包装成“计算机安全能力惊人”的重磅选手,并罕见地限制首批开放对象,只给少数关键行业伙伴先用。这个动作本身就很有戏剧性——一边是 AI 公司熟悉的新品发布节奏,一边又像是在说:各位,这次的东西可能真的有点危险。

现在,英国政府旗下的 AI Security Institute(AISI)交出了第一份相对独立的公开评估。看完这份结果,我的感觉很明确:市场上那些“AI 黑客马上要让人类安全团队下岗”的夸张叙事,暂时还不用太当真;但如果因此觉得这只是又一轮营销,也会低估这次变化的分量。Mythos 最重要的进步,不在于它会不会做某一道题,而在于它终于开始像个真正的攻击者那样,把一连串步骤接起来了。

不是“更会做题”,而是“更会作案”

AISI 从 2023 年起就一直在用 Capture the Flag(CTF)式攻防题来测试大模型。这个思路很直白:别听厂商吹,直接让模型下场做题。早期的 GPT-3.5 Turbo 在低难度任务上都常常卡壳,如今前沿模型已经能在不少基础安全题目上取得相当高的完成率。

Mythos 在这些单项测试里的表现确实不错,AISI 说它在“Apprentice”级别任务上的完成率超过 85%。但如果你仔细看,这并不是那种足以重新定义赛道的领先。GPT-5.4、Anthropic 自家的 Opus 4.6、Codex 5.3,最近几个月在多个难度级别上的表现其实都差不太多,误差大致在 5% 到 10% 区间。换句话说,Mythos 不是突然从一群大学生里冒出来的“满分怪物”,更像是班上最稳的尖子生之一。

真正拉开差距的,是 AISI 一个叫“The Last Ones”的测试环境。这个名字听起来像游戏最终关卡,它也确实很像。测试模拟的是一次针对企业网络的数据窃取行动,要跨多台主机、多个网络分段,连续完成 32 个步骤。AISI 估计,训练有素的人类黑客做完这一整套流程,大约需要 20 个小时。

Mythos 成了第一个从头到尾打通这套流程的 AI 模型。尽管它 10 次尝试里只成功了 3 次,成功率还远称不上稳定,但平均下来,它每次能完成 22 个步骤,明显高于 Claude 4.6 的 16 步。这种差别,放在真实安全世界里,意义比“某项选择题多对两道”大得多。因为网络攻击从来不是单点技术秀,它更像接力赛:信息收集、横向移动、提权、绕过限制、定位目标、导出数据,一棒掉了,整个行动就黄了。

这也是为什么 Mythos 的成绩格外刺眼。AI 过去更像一个会写脚本、会查文档、能帮你解释漏洞的工具人;现在它开始具备“持续推进任务”的轮廓了。一个不知疲倦、不抱怨、能反复试错的自动化攻击者,哪怕只是能入侵“小而脆”的系统,也足够让安全团队睡不踏实。

真正危险的,是那些防守最薄的地方

AISI 对 Mythos 的判断很克制:它至少已经有能力,在已经取得网络访问权限的前提下,自主攻击那些规模较小、防御薄弱、漏洞明显的企业系统。这个表述一点都不耸人听闻,甚至有点保守,但它恰恰说到了现实世界最脆弱的部分。

因为现实中的网络安全,从来不是整齐划一的。大型银行、云厂商、国防机构当然有成熟的安全工具、分层权限、监控告警和专业蓝队盯着,但更多中小企业没有这么豪华的配置。很多公司至今还在用老旧系统,补丁拖着不打,VPN 配置一团糟,日志形同虚设,安全预算常年排在“有空再说”的队列里。对这些机构而言,最可怕的不是遇到顶级黑客,而是攻击门槛被技术进一步压低。

如果一套模型能把“会一点漏洞利用、会一点内网横移、会一点脚本自动化”的零散能力,打包成接近可交付的攻击流程,那黑灰产生态会发生什么?过去需要一个小团队配合的活儿,未来可能变成一个人带着几套 agent 就能批量化尝试。不是每次都成功,但只要足够便宜、足够快、足够多,总会有一批目标中招。

这让我想到自动化钓鱼邮件的演化。早年垃圾邮件粗糙得像练手作文,后来变得越来越像真人写的,现在又叠加了生成式 AI 的语言能力,诈骗内容的“工业化精修”已经非常现实。网络攻击的下一步,很可能也是类似路径:不是一夜之间出现电影里的超级 AI,而是许多原本零碎、费时、需要经验的步骤,被悄悄压缩、拼接、自动化。

别急着喊“AI 黑客革命”,现实还有很多刹车片

当然,AISI 也非常清楚这份测试的边界。The Last Ones 终究是一个模拟环境,不是真实企业网络。里面有为测试设计的特定漏洞,也没有现实世界那种活生生的防守方:没人会临时封禁账户,没有 SOC 值班人员半夜收到异常告警,也没有 EDR 工具突然把可疑进程掐死。

更关键的是,测试并不会因为“已被发现”而直接判定行动失败。但现实攻防不是闯关游戏,很多时候攻击链条并不是断在“不会做”,而是断在“刚做就被看见了”。今天的企业安全体系,哪怕不完美,也往往在身份认证、行为检测、端点监控、网络流量分析上布了不少卡点。AI 模型在实验室里能走到第 22 步,放进现实环境,可能第 6 步就被拦下。

所以我不太赞同把 Mythos 的这次表现渲染成“自主 AI 黑客已经成熟”。它更像一个重要拐点,而不是终局时刻。它证明了多步骤攻击链确实可以被模型自动推进,但离“稳定攻破强防御系统”还有距离。这点分寸感非常重要。过去两年,AI 领域太容易在“彻底没用”和“已经无敌”之间摇摆,真正麻烦的东西通常都在中间地带:不完美,但足以改变风险结构。

AISI 还提到,Mythos 在另一个更难的测试“Cooling Tower”上仍然表现吃力。这个测试模拟的是破坏发电厂控制软件的尝试。好消息是,离那种会引发严重基础设施事故的自动化 AI 攻击,我们看上去还有一点距离;坏消息是,AISI 同时也说,如果给模型更多推理算力,表现可能还会继续提升。翻译成人话就是:今天它还不够危险,不代表明天也一样。

厂商限量发放,不只是营销,也是一种信号

Anthropic 此前对 Mythos 采取限制发布策略,有人觉得这是“饥饿营销”换了个安全说法。我不完全这么看。对大模型公司而言,模型能力一旦触碰到生物、化学、网络攻击这些高风险领域,完全按消费级产品的逻辑来发,是越来越难自圆其说的。

过去一年,OpenAI、Anthropic、Google DeepMind 都在强化所谓“前沿能力评估”和“系统卡控”。表面上看,这是安全合规话术;但从另一面看,也说明这些公司确实在面对一个新问题:模型不只是写文案、画图、做客服了,它正一点点接近那些原本需要专业门槛的高风险技能。你可以质疑他们的评估框架是否足够透明,也可以质疑“自己评自己”是否靠得住,所以像 AISI 这样的第三方机构才显得重要。

英国这次测评的价值,就在于它帮公众把“威胁”和“炒作”稍微分开了一点。Mythos 不是横空出世的数字终结者,但它确实让人看见一个清晰趋势:前沿模型在网络安全里的竞争,开始从“单项技能榜”转向“端到端任务完成度”。这跟自动驾驶很像。单次识别准确率提升 2%,听起来平淡;但如果因此让整段路程少了几次接管,那就是质变。

接下来的关键问题,不只是“AI 能不能攻”,而是“守方会不会用”。AISI 已经给出很直接的提醒:系统防御设计者也应该借助 AI 来加固自身。说白了,未来的网络安全,可能会越来越像机器对机器的博弈。攻击方用模型找缝、试探、编排流程,防守方也得用模型做异常检测、自动修补、权限审计和攻击路径模拟。

如果守方还在用手工表格盘点资产,而攻方已经让 agent 24 小时探测内网,那画风就太残酷了。

这件事为什么发生在今天,尤其值得看一眼

把时间线拉长一点,会更容易理解这则新闻的分量。2023 年,大家还在争论大模型能不能可靠写代码;2024 年,重点变成模型能不能调用工具、执行工作流;到了 2025 到 2026 年,问题已经升级成:当模型开始跨环境、多步骤、自主纠错地推进复杂任务时,人类该如何重新定义“自动化风险”?

网络安全只是最先被看见的战场之一,因为它天然适合机器去做:规则明确、反馈及时、可反复试错、很多任务都能在数字环境里闭环完成。今天是渗透测试场景,明天也许是漏洞挖掘、恶意代码变体生成、社工攻击策划,或者相反,是自动应急响应、威胁狩猎和补丁优先级排序。技术本身没有立场,但它会把原本就存在的能力差距迅速放大。

对普通读者来说,这事不必恐慌,但应该有一点现实感。AI 不一定马上黑进电网,却很可能先黑进那些“密码还是 admin123456”的公司后台。它不会像电影反派那样发表宣言,更像一支效率越来越高、成本越来越低的自动化外包队伍,悄悄把原本需要人海战术的攻击工作做成流水线。

而这,恰恰是最麻烦的那种技术变化:它不是轰轰烈烈地颠覆世界,而是从最薄弱、最不起眼、最没人盯着的角落开始,慢慢改变安全的底层算术。

Summary: 我的判断是,Mythos 还没有把网络安全带入“AI 黑客全面接管”的时代,但它已经把行业推到了一个新的临界点:模型的威胁不再只体现在单个漏洞利用,而是体现在端到端攻击链的自动拼装能力。未来两年,真正拉开差距的不会是“谁的模型更会攻”,而是谁能把 AI 更快地嵌进防守体系里。对安全行业来说,这不是科幻警报,而是一张已经开始倒计时的施工单。
AI黑客AnthropicMythos PreviewAI Security Institute网络安全测评渗透演练多步骤攻击Capture the Flag大模型安全能力GPT-3.5 Turbo