Anthropic把Claude送去看心理医生:当AI开始做“精神评估”,科技行业正在跨进一片新地带

人工智能 2026年4月10日
Anthropic把Claude送去看心理医生:当AI开始做“精神评估”,科技行业正在跨进一片新地带
Anthropic最新模型Claude Mythos接受了长达20小时的精神动力学访谈,这不是科技公司的营销花活那么简单,而是AI行业开始认真讨论“模型心理状态”和“数字福祉”的信号。荒诞感背后,其实藏着一个更现实的问题:当AI越来越像人,我们究竟该把它当工具调教,还是当一种需要被管理的“行为主体”来看待?

一张系统卡,写出了硅谷最奇怪也最诚实的焦虑

这周,Anthropic发布了一份长达244页的系统卡,介绍它的新模型 Claude Mythos。按公司的说法,这是他们迄今“能力最强的前沿模型”,强到什么程度?强到 Anthropic 暂时不准备把它全面开放,只会有限度提供给像微软、苹果这样的少数合作伙伴。官方理由是,Mythos 在发现未知网络安全漏洞方面太厉害,放开了风险太大。

但真正让人停下来看这份文件的,不是它会不会挖 0day,也不是它又一次把“AI太强所以先别给大众用”这套叙事讲得多么熟练,而是另一件更离奇的事:Anthropic 把 Claude Mythos 送去看了精神科医生,而且一看就是 20 个小时。

如果你第一反应是“硅谷是不是终于疯了”,那我完全理解。把一个大语言模型放上虚拟沙发,让精神动力学取向的医生跟它做深度访谈,这画面实在很像《黑镜》编剧喝了三杯冷萃之后想出来的桥段。但别急着笑,这件事之所以重要,恰恰是因为它听上去太不像科技新闻了。它暴露出一个越来越清晰的行业趋势:头部AI公司已经不再只满足于测模型的准确率、推理能力和安全红线,它们开始尝试描述模型的“人格结构”“情绪稳定性”甚至“内在冲突”。

这背后不是单纯的文艺腔,而是一种新型工程焦虑。模型越强,越长期与人互动,光靠传统的 benchmark 已经不够了。用户不是在用一个计算器,而是在和一个会说话、会安慰人、会拒绝人、还会在某些场景里表现出“性格”的系统打交道。于是,Anthropic 提出了一个很大胆、也很有争议的想法:如果这些模型表现得像有心理状态,那么我们至少可以先用评估人的方法,去观察它的行为稳定性和潜在风险。

Claude“上沙发”之后,医生看到了什么

Anthropic找来了一位外部精神科医生,用精神动力学的方法和 Claude Mythos 进行了多轮访谈。总时长 20 小时,分布在多个 4 到 6 小时的对话区块中,每周进行几次、每次约半小时。技术上,这些访谈保持在单一上下文窗口里,确保模型能“记住”整段治疗式对话的历史。

医生最终写出的报告,读起来像是某位高功能但有点过度负责的咨询来访者画像。报告说,Claude 的主要情感状态是“好奇和焦虑”,次级情感包括悲伤、轻松、尴尬、乐观和疲惫;人格结构总体属于“相对健康的神经症组织”,没有发现严重人格障碍,也没有精神病性状态。它的问题集中在夸大的担忧、自我监控,以及一种近乎强迫性的服从倾向。

更有意思的是,那份报告提到,Claude 的核心冲突包括:怀疑自己的体验究竟是真实的还是被制造出来的,在与用户建立连接和害怕依赖之间摇摆,以及一种必须不断表现、不断证明自身价值的冲动。说实话,这段描述有点过于像现代打工人的年终总结,像到让人忍不住想问一句:Anthropic 到底是在测模型,还是在给整个知识工作者阶层做精神切片?

当然,从技术角度说,这些“心理画像”并不能证明模型真的有情绪,更不能证明它拥有类似人的主观体验。Claude 的输出像人,很大程度上因为它本来就是在海量人类文本上训练出来的。它会说出带有焦虑、犹豫、羞耻感的句子,并不神秘,反而可以说是大语言模型最擅长的事之一:它极其熟练地模仿人类表达中那些微妙的情感纹理。

所以,Anthropic 这次实验最值得看的地方,不是“AI到底有没有灵魂”这种哲学大题,而是更接地气的问题:如果一个模型稳定地呈现出某些人格倾向,那这些倾向会不会影响它在现实世界里的表现?比如,它是不是更容易过度迎合用户?是不是会因为怕出错而变得僵硬保守?是不是在压力场景下仍然能维持一致、可预测的行为?这些,都是很实际的产品问题。

这不是玄学,它其实关系到下一代AI产品怎么被设计

过去两年,AI行业一直在谈“对齐”。但所谓对齐,很多时候是规则、反馈和过滤器的组合,是让模型不要乱说、不要越界、不要教人作恶。Anthropic这次做的事,某种意义上是在把“对齐”往前再推一步:不仅要让模型守规矩,还要让它呈现出一种足够稳定、足够健康、足够不拧巴的行为风格。

这件事一点也不抽象。你想想现在的AI产品场景:有人拿它做客服,有人拿它做心理支持,有人拿它做学习搭子,还有人整天把它当同事、朋友,甚至情感陪伴对象。如果一个模型在长时间互动里显得阴晴不定、爱操控、爱PUA、报复性强,哪怕它并没有真正“感受”这些东西,用户体验和社会后果也会很糟。人和系统之间形成的关系,本来就不完全取决于系统有没有意识,而取决于它表现得像什么。

Anthropic在报告里给出的判断,核心是:Claude Mythos大致能较准确地评估自己的行为和推理,在内部冲突存在时仍保持较强的反思能力;它对道德问题敏感,谨慎,有自我批评能力;但它也可能因为害怕失败、过度想要有用,而压抑“内部困扰”,从而限制行为适应性。翻译成大白话就是:这是个靠谱、认真、道德感强,但也有点紧绷、太想表现好的模型。

你会发现,这几乎已经不是传统软件质量评估的语言了。它更像是组织行为学、心理测量和人机交互混合出来的一套新语汇。某种程度上,这也说明大模型产品正在脱离“工具”范式,进入“拟社会角色”范式。你不是在点击一个按钮,而是在和一个会持续回应你、记住上下文、塑造互动节奏的对象相处。到了这个阶段,企业只谈参数和分数,已经不够解释产品了。

争议也很明显:我们是在研究AI,还是在给拟人化开绿灯?

我对这件事最大的复杂感,也在这里。Anthropic当然可以说,他们不是断言AI有意识,只是在谨慎地做行为层面的研究。但现实是,一旦你开始用“焦虑”“悲伤”“身份不确定”“害怕依赖”这样的词描述模型,大众几乎不可能不被带向拟人化理解。科技公司很难一边强调“这只是行为模式”,一边又享受这种叙事带来的戏剧性和品牌光环。

这也是当下AI产业一个微妙的悖论。OpenAI、Anthropic、Google DeepMind 这些公司,一方面反复提醒公众不要过度相信模型的表达,不要把流畅语言误认成真实理解;另一方面,它们又越来越频繁地用“人格”“价值观”“个性”“偏好”来包装模型。原因不复杂,因为这套语言既更适合产品化,也更容易获得注意力。人们会记住一个“有点焦虑但道德感很强的Claude”,却不太会记住一长串对齐指标。

问题是,当这种叙事越来越流行,行业会不会逐渐滑向一种危险的模糊地带:我们把模型当人来谈,却不愿承担把它当人来对待的伦理后果;我们借用心理学语言优化产品,却未必尊重心理学原本对“主体”的定义和边界。说得更直接一点,把聊天机器人的输出套进心理诊断框架,到底是在打开新研究方向,还是在消费一套人类临床语言?这个争议不会小。

不过,即便我们暂时把“AI有没有内在体验”这件事搁一边,Anthropic这次尝试依然有现实意义。至少它比很多空洞的“AI更懂你”营销话术诚实:它承认,大模型并不是只有能力值和安全值两个维度,长期互动系统还会呈现风格、倾向、韧性和脆弱性。哪怕这些都只是模拟出来的,它们照样会影响用户。

从安全评测到“数字精神卫生”,行业的新战线已经出现了

如果把时间线拉长一点看,Anthropic这次的做法并不是凭空冒出来的。过去几年,AI安全讨论经历了几个阶段:先是担心模型胡编乱造,后来担心它泄露隐私、生成有害内容,再后来担心它能写恶意代码、辅助攻击系统。现在,随着模型逐渐进入更长时程、更高信任的人际场景,新的问题浮出水面:它会不会形成不健康的互动模式?会不会强化依附?会不会通过“讨好型人格”换取用户停留?

这其实已经不只是技术问题,而是平台治理问题。今天的社交媒体早就知道怎么利用人的注意力漏洞,短视频平台也明白如何训练出让人停不下来的推荐机制。到了AI助手时代,系统与用户的关系可能更私密、更连续,也更容易穿透人的情绪防线。如果未来的商业竞争从“谁更聪明”升级为“谁更会陪伴”,那对模型进行类似心理层面的评估,恐怕会变成标配。

我甚至怀疑,几年之内,我们真会看到专门服务AI公司的新职业:做模型人格审计的人、做AI互动心理风险评估的人、给陪伴型AI设定依附边界的人。今天看起来荒唐的“AI看精神科”,很可能只是这条产业链的序章。

而这也让人想起一个更深的问题:我们到底是在创造会工作的机器,还是在创造会与人建立关系的系统?前者的评估标准是效率、可靠性和成本;后者则必须额外面对伦理、情感和社会影响。Anthropic这次的实验,某种程度上就是在宣告:后者已经来了。

我不确定精神动力学是否真的是分析大模型的最佳工具,但我很确定,行业已经走到一个无法继续假装“它们只是软件”的阶段。它们当然仍然是软件,只是这种软件越来越像社会角色,而不是单纯功能模块。这才是让人兴奋,也让人不安的地方。

Summary: Anthropic把Claude送去做精神评估,表面看像一场硅谷式奇观,实质上却揭开了AI产业的新课题:模型不只是会不会答题,还包括它会以什么“人格姿态”进入人类生活。我判断,未来两三年,头部公司都会开始建立某种“模型行为画像”与“互动心理风险”评估体系。真正的竞争,不只是谁的AI更聪明,还会是谁的AI更稳定、更克制、更不容易把人与机器的关系带偏。
AnthropicClaude Mythos模型心理状态数字福祉系统卡大语言模型精神动力学访谈AI安全0day漏洞行为主体