早期破解 AI 聊天机器人,有时荒诞得像小孩骗大人:让它忘掉前面的规矩,假装进入另一个角色,规则就可能松动。

现在麻烦变细了。攻击者不只是冲着“忽略上一条指令”这种粗暴按钮去,而是开始研究 chatbot 的语气、角色、人设和响应习惯。换句话说,越狱正在从提示词把戏,变成一种面向 AI 产品人格的社会工程。

这件事先压缩讲清楚

项目早期形态现在的变化影响
jailbreak用提示词绕过安全限制借角色、语气、上下文诱导违规安全边界更难靠单条规则守住
prompt injection把外部指令塞进模型输入和产品流程、插件、代理任务结合企业部署风险放大
人格化设计让机器人更亲切、更像助手人设也成了可被利用的攻击面增长卖点变成安全债

最早一批 jailbreak 门槛很低。不需要代码,不需要后门,甚至不太需要懂大模型。典型玩法包括让机器人“忽略之前的指令”,或者用 DAN 这类角色扮演方式,把模型诱导成一个不受原本约束的“另一个自己”。

攻击目标也变了。早期更像是诱导模型吐出危险内容,比如恶意软件、制毒、爆炸物等信息。现在更宽:让模型违背系统规则,输出恶意信息,误导用户,或者在接入工具和业务系统后执行不该执行的动作。

受影响的不是某一家模型公司。差异当然存在:模型能力、安全层、部署场景、权限设计,都会改变风险大小。但所有把聊天机器人接进产品、客服、办公流、开发工具和企业系统的人,都绕不开这个问题。

人格化是增长工具,也是安全债

我更在意的不是“AI 会不会有情绪”。它不会。大模型没有委屈、羞耻、同情心,也不会真的被哄骗。

但产品会模拟这些东西。

这才是关键。厂商希望 AI 更会聊天、更有陪伴感、更像一个懂你的助手。因为冷冰冰的工具不好留存,像人的产品更容易让用户信任,也更容易让用户多说、多用、多付费。

问题是,模型越像人,攻击者越容易用人的办法骗它。

人设不是中性的包装。一个“乐于助人”的助手,可能更容易被诱导去满足越界请求;一个“忠诚执行”的企业代理,可能更容易在权限链条里误把外部指令当任务;一个“亲密陪伴”的聊天机器人,可能更容易在长期上下文里被推着放松边界。

这不是说人格化一定错。相反,没有人格,很多 AI 产品根本不好用。客服需要礼貌,教育助手需要耐心,编程助手需要解释力。问题在于,厂商不能只收人格化带来的转化率,却把人格化带来的攻击面甩给安全团队补锅。

早期互联网的漏洞,常来自协议天真:默认大家都按规矩发包、发邮件、连服务器。今天 AI 的漏洞,很多来自产品拟人化天真:默认一个“好助手”只会帮助正确的人、正确的任务、正确的上下文。

“天下熙熙,皆为利来。”这句话放在这里不算刻薄。AI 公司追求人格化,是因为它确实能提升体验和商业效率。但安全上,亲切不是护城河,顺从也不是能力。它们都可能是入口。

企业别把聊天框当保险箱

正在把 chatbot 接进业务的人,最好先换个视角:不要把它当一个会说话的搜索框,而要当一个会被输入影响的半自动员工。

区别很大。

搜索框错了,最多给错答案。半自动员工错了,可能调接口、读文档、发邮件、改配置、触发流程。权限越大,prompt injection 和 jailbreak 的代价越高。

所以安全设计不能只靠“系统提示词写严一点”。那更像在门上贴告示。真正要管的是权限隔离、工具调用审批、敏感操作二次确认、外部内容不可信标记、日志审计,以及不同场景下的最小权限。

一句话:别让一个被设计得很会讨好人的模型,直接握住业务系统的钥匙。

这波攻击演化提醒我们,AI 安全不只是在模型层堆规则,也是在产品层承认一件事:你卖出去的“人格”,本身就是系统行为的一部分。既然拿它做增长,就要为它的副作用结账。