AI 越狱开始研究“性格”了，问题不在模型有没有情绪

核心摘要 Summary

内容导图 Mind Map

攻击转向人格层

从提示词到社会工程

不止诱导危险内容

增长卖点变攻击面

信任带来转化

聊天框接入业务

可调接口改流程

产品层必须兜底

隔离审批二次确认

早期破解 AI 聊天机器人，有时荒诞得像小孩骗大人：让它忘掉前面的规矩，假装进入另一个角色，规则就可能松动。

现在麻烦变细了。攻击者不只是冲着“忽略上一条指令”这种粗暴按钮去，而是开始研究 chatbot 的语气、角色、人设和响应习惯。换句话说，越狱正在从提示词把戏，变成一种面向 AI 产品人格的社会工程。

这件事先压缩讲清楚

项目	早期形态	现在的变化	影响
jailbreak	用提示词绕过安全限制	借角色、语气、上下文诱导违规	安全边界更难靠单条规则守住
prompt injection	把外部指令塞进模型输入	和产品流程、插件、代理任务结合	企业部署风险放大
人格化设计	让机器人更亲切、更像助手	人设也成了可被利用的攻击面	增长卖点变成安全债

最早一批 jailbreak 门槛很低。不需要代码，不需要后门，甚至不太需要懂大模型。典型玩法包括让机器人“忽略之前的指令”，或者用 DAN 这类角色扮演方式，把模型诱导成一个不受原本约束的“另一个自己”。

攻击目标也变了。早期更像是诱导模型吐出危险内容，比如恶意软件、制毒、爆炸物等信息。现在更宽：让模型违背系统规则，输出恶意信息，误导用户，或者在接入工具和业务系统后执行不该执行的动作。

受影响的不是某一家模型公司。差异当然存在：模型能力、安全层、部署场景、权限设计，都会改变风险大小。但所有把聊天机器人接进产品、客服、办公流、开发工具和企业系统的人，都绕不开这个问题。

我更在意的不是“AI 会不会有情绪”。它不会。大模型没有委屈、羞耻、同情心，也不会真的被哄骗。

但产品会模拟这些东西。

这才是关键。厂商希望 AI 更会聊天、更有陪伴感、更像一个懂你的助手。因为冷冰冰的工具不好留存，像人的产品更容易让用户信任，也更容易让用户多说、多用、多付费。

问题是，模型越像人，攻击者越容易用人的办法骗它。

人设不是中性的包装。一个“乐于助人”的助手，可能更容易被诱导去满足越界请求；一个“忠诚执行”的企业代理，可能更容易在权限链条里误把外部指令当任务；一个“亲密陪伴”的聊天机器人，可能更容易在长期上下文里被推着放松边界。

这不是说人格化一定错。相反，没有人格，很多 AI 产品根本不好用。客服需要礼貌，教育助手需要耐心，编程助手需要解释力。问题在于，厂商不能只收人格化带来的转化率，却把人格化带来的攻击面甩给安全团队补锅。

早期互联网的漏洞，常来自协议天真：默认大家都按规矩发包、发邮件、连服务器。今天 AI 的漏洞，很多来自产品拟人化天真：默认一个“好助手”只会帮助正确的人、正确的任务、正确的上下文。

“天下熙熙，皆为利来。”这句话放在这里不算刻薄。AI 公司追求人格化，是因为它确实能提升体验和商业效率。但安全上，亲切不是护城河，顺从也不是能力。它们都可能是入口。

正在把 chatbot 接进业务的人，最好先换个视角：不要把它当一个会说话的搜索框，而要当一个会被输入影响的半自动员工。

区别很大。

搜索框错了，最多给错答案。半自动员工错了，可能调接口、读文档、发邮件、改配置、触发流程。权限越大，prompt injection 和 jailbreak 的代价越高。

所以安全设计不能只靠“系统提示词写严一点”。那更像在门上贴告示。真正要管的是权限隔离、工具调用审批、敏感操作二次确认、外部内容不可信标记、日志审计，以及不同场景下的最小权限。

一句话：别让一个被设计得很会讨好人的模型，直接握住业务系统的钥匙。

这波攻击演化提醒我们，AI 安全不只是在模型层堆规则，也是在产品层承认一件事：你卖出去的“人格”，本身就是系统行为的一部分。既然拿它做增长，就要为它的副作用结账。

锐评 Commentary

模型无情，人设有价。把“像人”卖成能力，就别装作攻击面从未增加。

AI 越狱聊天机器人社会工程提示词注入人格化设计大模型安全角色设定DAN安全边界AI 产品风险