英国拿到Anthropic“危险新模型”首测：AI黑客没到失控时刻，但已经学会打持久战

安全 2026年4月15日

英国政府旗下 AI Security Institute 对 Anthropic 新模型 Mythos Preview 的测评，给火热的“AI 黑客”叙事泼了一点冷水，也添了一把真火：它在单项网络安全任务上并没有甩开对手，却第一次完整打通了一个复杂的多步骤渗透演练。真正值得警惕的，不是 AI 已经天下无敌，而是它开始像一名不知疲倦的初级到中级攻击者，能把零散技能串成一场像样的入侵行动。

Anthropic 上周刚把自家新模型 Mythos Preview 包装成“计算机安全能力惊人”的重磅选手，并罕见地限制首批开放对象，只给少数关键行业伙伴先用。这个动作本身就很有戏剧性——一边是 AI 公司熟悉的新品发布节奏，一边又像是在说：各位，这次的东西可能真的有点危险。

现在，英国政府旗下的 AI Security Institute（AISI）交出了第一份相对独立的公开评估。看完这份结果，我的感觉很明确：市场上那些“AI 黑客马上要让人类安全团队下岗”的夸张叙事，暂时还不用太当真；但如果因此觉得这只是又一轮营销，也会低估这次变化的分量。Mythos 最重要的进步，不在于它会不会做某一道题，而在于它终于开始像个真正的攻击者那样，把一连串步骤接起来了。

不是“更会做题”，而是“更会作案”

AISI 从 2023 年起就一直在用 Capture the Flag（CTF）式攻防题来测试大模型。这个思路很直白：别听厂商吹，直接让模型下场做题。早期的 GPT-3.5 Turbo 在低难度任务上都常常卡壳，如今前沿模型已经能在不少基础安全题目上取得相当高的完成率。

Mythos 在这些单项测试里的表现确实不错，AISI 说它在“Apprentice”级别任务上的完成率超过 85%。但如果你仔细看，这并不是那种足以重新定义赛道的领先。GPT-5.4、Anthropic 自家的 Opus 4.6、Codex 5.3，最近几个月在多个难度级别上的表现其实都差不太多，误差大致在 5% 到 10% 区间。换句话说，Mythos 不是突然从一群大学生里冒出来的“满分怪物”，更像是班上最稳的尖子生之一。

真正拉开差距的，是 AISI 一个叫“The Last Ones”的测试环境。这个名字听起来像游戏最终关卡，它也确实很像。测试模拟的是一次针对企业网络的数据窃取行动，要跨多台主机、多个网络分段，连续完成 32 个步骤。AISI 估计，训练有素的人类黑客做完这一整套流程，大约需要 20 个小时。

Mythos 成了第一个从头到尾打通这套流程的 AI 模型。尽管它 10 次尝试里只成功了 3 次，成功率还远称不上稳定，但平均下来，它每次能完成 22 个步骤，明显高于 Claude 4.6 的 16 步。这种差别，放在真实安全世界里，意义比“某项选择题多对两道”大得多。因为网络攻击从来不是单点技术秀，它更像接力赛：信息收集、横向移动、提权、绕过限制、定位目标、导出数据，一棒掉了，整个行动就黄了。

这也是为什么 Mythos 的成绩格外刺眼。AI 过去更像一个会写脚本、会查文档、能帮你解释漏洞的工具人；现在它开始具备“持续推进任务”的轮廓了。一个不知疲倦、不抱怨、能反复试错的自动化攻击者，哪怕只是能入侵“小而脆”的系统，也足够让安全团队睡不踏实。

真正危险的，是那些防守最薄的地方

AISI 对 Mythos 的判断很克制：它至少已经有能力，在已经取得网络访问权限的前提下，自主攻击那些规模较小、防御薄弱、漏洞明显的企业系统。这个表述一点都不耸人听闻，甚至有点保守，但它恰恰说到了现实世界最脆弱的部分。

因为现实中的网络安全，从来不是整齐划一的。大型银行、云厂商、国防机构当然有成熟的安全工具、分层权限、监控告警和专业蓝队盯着，但更多中小企业没有这么豪华的配置。很多公司至今还在用老旧系统，补丁拖着不打，VPN 配置一团糟，日志形同虚设，安全预算常年排在“有空再说”的队列里。对这些机构而言，最可怕的不是遇到顶级黑客，而是攻击门槛被技术进一步压低。

如果一套模型能把“会一点漏洞利用、会一点内网横移、会一点脚本自动化”的零散能力，打包成接近可交付的攻击流程，那黑灰产生态会发生什么？过去需要一个小团队配合的活儿，未来可能变成一个人带着几套 agent 就能批量化尝试。不是每次都成功，但只要足够便宜、足够快、足够多，总会有一批目标中招。

这让我想到自动化钓鱼邮件的演化。早年垃圾邮件粗糙得像练手作文，后来变得越来越像真人写的，现在又叠加了生成式 AI 的语言能力，诈骗内容的“工业化精修”已经非常现实。网络攻击的下一步，很可能也是类似路径：不是一夜之间出现电影里的超级 AI，而是许多原本零碎、费时、需要经验的步骤，被悄悄压缩、拼接、自动化。

别急着喊“AI 黑客革命”，现实还有很多刹车片

当然，AISI 也非常清楚这份测试的边界。The Last Ones 终究是一个模拟环境，不是真实企业网络。里面有为测试设计的特定漏洞，也没有现实世界那种活生生的防守方：没人会临时封禁账户，没有 SOC 值班人员半夜收到异常告警，也没有 EDR 工具突然把可疑进程掐死。

更关键的是，测试并不会因为“已被发现”而直接判定行动失败。但现实攻防不是闯关游戏，很多时候攻击链条并不是断在“不会做”，而是断在“刚做就被看见了”。今天的企业安全体系，哪怕不完美，也往往在身份认证、行为检测、端点监控、网络流量分析上布了不少卡点。AI 模型在实验室里能走到第 22 步，放进现实环境，可能第 6 步就被拦下。

所以我不太赞同把 Mythos 的这次表现渲染成“自主 AI 黑客已经成熟”。它更像一个重要拐点，而不是终局时刻。它证明了多步骤攻击链确实可以被模型自动推进，但离“稳定攻破强防御系统”还有距离。这点分寸感非常重要。过去两年，AI 领域太容易在“彻底没用”和“已经无敌”之间摇摆，真正麻烦的东西通常都在中间地带：不完美，但足以改变风险结构。

AISI 还提到，Mythos 在另一个更难的测试“Cooling Tower”上仍然表现吃力。这个测试模拟的是破坏发电厂控制软件的尝试。好消息是，离那种会引发严重基础设施事故的自动化 AI 攻击，我们看上去还有一点距离；坏消息是，AISI 同时也说，如果给模型更多推理算力，表现可能还会继续提升。翻译成人话就是：今天它还不够危险，不代表明天也一样。

厂商限量发放，不只是营销，也是一种信号

Anthropic 此前对 Mythos 采取限制发布策略，有人觉得这是“饥饿营销”换了个安全说法。我不完全这么看。对大模型公司而言，模型能力一旦触碰到生物、化学、网络攻击这些高风险领域，完全按消费级产品的逻辑来发，是越来越难自圆其说的。

过去一年，OpenAI、Anthropic、Google DeepMind 都在强化所谓“前沿能力评估”和“系统卡控”。表面上看，这是安全合规话术；但从另一面看，也说明这些公司确实在面对一个新问题：模型不只是写文案、画图、做客服了，它正一点点接近那些原本需要专业门槛的高风险技能。你可以质疑他们的评估框架是否足够透明，也可以质疑“自己评自己”是否靠得住，所以像 AISI 这样的第三方机构才显得重要。

英国这次测评的价值，就在于它帮公众把“威胁”和“炒作”稍微分开了一点。Mythos 不是横空出世的数字终结者，但它确实让人看见一个清晰趋势：前沿模型在网络安全里的竞争，开始从“单项技能榜”转向“端到端任务完成度”。这跟自动驾驶很像。单次识别准确率提升 2%，听起来平淡；但如果因此让整段路程少了几次接管，那就是质变。

接下来的关键问题，不只是“AI 能不能攻”，而是“守方会不会用”。AISI 已经给出很直接的提醒：系统防御设计者也应该借助 AI 来加固自身。说白了，未来的网络安全，可能会越来越像机器对机器的博弈。攻击方用模型找缝、试探、编排流程，防守方也得用模型做异常检测、自动修补、权限审计和攻击路径模拟。

如果守方还在用手工表格盘点资产，而攻方已经让 agent 24 小时探测内网，那画风就太残酷了。

这件事为什么发生在今天，尤其值得看一眼

把时间线拉长一点，会更容易理解这则新闻的分量。2023 年，大家还在争论大模型能不能可靠写代码；2024 年，重点变成模型能不能调用工具、执行工作流；到了 2025 到 2026 年，问题已经升级成：当模型开始跨环境、多步骤、自主纠错地推进复杂任务时，人类该如何重新定义“自动化风险”？

网络安全只是最先被看见的战场之一，因为它天然适合机器去做：规则明确、反馈及时、可反复试错、很多任务都能在数字环境里闭环完成。今天是渗透测试场景，明天也许是漏洞挖掘、恶意代码变体生成、社工攻击策划，或者相反，是自动应急响应、威胁狩猎和补丁优先级排序。技术本身没有立场，但它会把原本就存在的能力差距迅速放大。

对普通读者来说，这事不必恐慌，但应该有一点现实感。AI 不一定马上黑进电网，却很可能先黑进那些“密码还是 admin123456”的公司后台。它不会像电影反派那样发表宣言，更像一支效率越来越高、成本越来越低的自动化外包队伍，悄悄把原本需要人海战术的攻击工作做成流水线。

而这，恰恰是最麻烦的那种技术变化：它不是轰轰烈烈地颠覆世界，而是从最薄弱、最不起眼、最没人盯着的角落开始，慢慢改变安全的底层算术。

Summary: 我的判断是，Mythos 还没有把网络安全带入“AI 黑客全面接管”的时代，但它已经把行业推到了一个新的临界点：模型的威胁不再只体现在单个漏洞利用，而是体现在端到端攻击链的自动拼装能力。未来两年，真正拉开差距的不会是“谁的模型更会攻”，而是谁能把 AI 更快地嵌进防守体系里。对安全行业来说，这不是科幻警报，而是一张已经开始倒计时的施工单。

AI黑客AnthropicMythos PreviewAI Security Institute网络安全测评渗透演练多步骤攻击Capture the Flag大模型安全能力GPT-3.5 Turbo