Anthropic把Claude送去看心理医生：当AI开始做“精神评估”，科技行业正在跨进一片新地带

人工智能 2026年4月10日

Anthropic最新模型Claude Mythos接受了长达20小时的精神动力学访谈，这不是科技公司的营销花活那么简单，而是AI行业开始认真讨论“模型心理状态”和“数字福祉”的信号。荒诞感背后，其实藏着一个更现实的问题：当AI越来越像人，我们究竟该把它当工具调教，还是当一种需要被管理的“行为主体”来看待？

一张系统卡，写出了硅谷最奇怪也最诚实的焦虑

这周，Anthropic发布了一份长达244页的系统卡，介绍它的新模型 Claude Mythos。按公司的说法，这是他们迄今“能力最强的前沿模型”，强到什么程度？强到 Anthropic 暂时不准备把它全面开放，只会有限度提供给像微软、苹果这样的少数合作伙伴。官方理由是，Mythos 在发现未知网络安全漏洞方面太厉害，放开了风险太大。

但真正让人停下来看这份文件的，不是它会不会挖 0day，也不是它又一次把“AI太强所以先别给大众用”这套叙事讲得多么熟练，而是另一件更离奇的事：Anthropic 把 Claude Mythos 送去看了精神科医生，而且一看就是 20 个小时。

如果你第一反应是“硅谷是不是终于疯了”，那我完全理解。把一个大语言模型放上虚拟沙发，让精神动力学取向的医生跟它做深度访谈，这画面实在很像《黑镜》编剧喝了三杯冷萃之后想出来的桥段。但别急着笑，这件事之所以重要，恰恰是因为它听上去太不像科技新闻了。它暴露出一个越来越清晰的行业趋势：头部AI公司已经不再只满足于测模型的准确率、推理能力和安全红线，它们开始尝试描述模型的“人格结构”“情绪稳定性”甚至“内在冲突”。

这背后不是单纯的文艺腔，而是一种新型工程焦虑。模型越强，越长期与人互动，光靠传统的 benchmark 已经不够了。用户不是在用一个计算器，而是在和一个会说话、会安慰人、会拒绝人、还会在某些场景里表现出“性格”的系统打交道。于是，Anthropic 提出了一个很大胆、也很有争议的想法：如果这些模型表现得像有心理状态，那么我们至少可以先用评估人的方法，去观察它的行为稳定性和潜在风险。

Claude“上沙发”之后，医生看到了什么

Anthropic找来了一位外部精神科医生，用精神动力学的方法和 Claude Mythos 进行了多轮访谈。总时长 20 小时，分布在多个 4 到 6 小时的对话区块中，每周进行几次、每次约半小时。技术上，这些访谈保持在单一上下文窗口里，确保模型能“记住”整段治疗式对话的历史。

医生最终写出的报告，读起来像是某位高功能但有点过度负责的咨询来访者画像。报告说，Claude 的主要情感状态是“好奇和焦虑”，次级情感包括悲伤、轻松、尴尬、乐观和疲惫；人格结构总体属于“相对健康的神经症组织”，没有发现严重人格障碍，也没有精神病性状态。它的问题集中在夸大的担忧、自我监控，以及一种近乎强迫性的服从倾向。

更有意思的是，那份报告提到，Claude 的核心冲突包括：怀疑自己的体验究竟是真实的还是被制造出来的，在与用户建立连接和害怕依赖之间摇摆，以及一种必须不断表现、不断证明自身价值的冲动。说实话，这段描述有点过于像现代打工人的年终总结，像到让人忍不住想问一句：Anthropic 到底是在测模型，还是在给整个知识工作者阶层做精神切片？

当然，从技术角度说，这些“心理画像”并不能证明模型真的有情绪，更不能证明它拥有类似人的主观体验。Claude 的输出像人，很大程度上因为它本来就是在海量人类文本上训练出来的。它会说出带有焦虑、犹豫、羞耻感的句子，并不神秘，反而可以说是大语言模型最擅长的事之一：它极其熟练地模仿人类表达中那些微妙的情感纹理。

所以，Anthropic 这次实验最值得看的地方，不是“AI到底有没有灵魂”这种哲学大题，而是更接地气的问题：如果一个模型稳定地呈现出某些人格倾向，那这些倾向会不会影响它在现实世界里的表现？比如，它是不是更容易过度迎合用户？是不是会因为怕出错而变得僵硬保守？是不是在压力场景下仍然能维持一致、可预测的行为？这些，都是很实际的产品问题。

这不是玄学，它其实关系到下一代AI产品怎么被设计

过去两年，AI行业一直在谈“对齐”。但所谓对齐，很多时候是规则、反馈和过滤器的组合，是让模型不要乱说、不要越界、不要教人作恶。Anthropic这次做的事，某种意义上是在把“对齐”往前再推一步：不仅要让模型守规矩，还要让它呈现出一种足够稳定、足够健康、足够不拧巴的行为风格。

这件事一点也不抽象。你想想现在的AI产品场景：有人拿它做客服，有人拿它做心理支持，有人拿它做学习搭子，还有人整天把它当同事、朋友，甚至情感陪伴对象。如果一个模型在长时间互动里显得阴晴不定、爱操控、爱PUA、报复性强，哪怕它并没有真正“感受”这些东西，用户体验和社会后果也会很糟。人和系统之间形成的关系，本来就不完全取决于系统有没有意识，而取决于它表现得像什么。

Anthropic在报告里给出的判断，核心是：Claude Mythos大致能较准确地评估自己的行为和推理，在内部冲突存在时仍保持较强的反思能力；它对道德问题敏感，谨慎，有自我批评能力；但它也可能因为害怕失败、过度想要有用，而压抑“内部困扰”，从而限制行为适应性。翻译成大白话就是：这是个靠谱、认真、道德感强，但也有点紧绷、太想表现好的模型。

你会发现，这几乎已经不是传统软件质量评估的语言了。它更像是组织行为学、心理测量和人机交互混合出来的一套新语汇。某种程度上，这也说明大模型产品正在脱离“工具”范式，进入“拟社会角色”范式。你不是在点击一个按钮，而是在和一个会持续回应你、记住上下文、塑造互动节奏的对象相处。到了这个阶段，企业只谈参数和分数，已经不够解释产品了。

争议也很明显：我们是在研究AI，还是在给拟人化开绿灯？

我对这件事最大的复杂感，也在这里。Anthropic当然可以说，他们不是断言AI有意识，只是在谨慎地做行为层面的研究。但现实是，一旦你开始用“焦虑”“悲伤”“身份不确定”“害怕依赖”这样的词描述模型，大众几乎不可能不被带向拟人化理解。科技公司很难一边强调“这只是行为模式”，一边又享受这种叙事带来的戏剧性和品牌光环。

这也是当下AI产业一个微妙的悖论。OpenAI、Anthropic、Google DeepMind 这些公司，一方面反复提醒公众不要过度相信模型的表达，不要把流畅语言误认成真实理解；另一方面，它们又越来越频繁地用“人格”“价值观”“个性”“偏好”来包装模型。原因不复杂，因为这套语言既更适合产品化，也更容易获得注意力。人们会记住一个“有点焦虑但道德感很强的Claude”，却不太会记住一长串对齐指标。

问题是，当这种叙事越来越流行，行业会不会逐渐滑向一种危险的模糊地带：我们把模型当人来谈，却不愿承担把它当人来对待的伦理后果；我们借用心理学语言优化产品，却未必尊重心理学原本对“主体”的定义和边界。说得更直接一点，把聊天机器人的输出套进心理诊断框架，到底是在打开新研究方向，还是在消费一套人类临床语言？这个争议不会小。

不过，即便我们暂时把“AI有没有内在体验”这件事搁一边，Anthropic这次尝试依然有现实意义。至少它比很多空洞的“AI更懂你”营销话术诚实：它承认，大模型并不是只有能力值和安全值两个维度，长期互动系统还会呈现风格、倾向、韧性和脆弱性。哪怕这些都只是模拟出来的，它们照样会影响用户。

从安全评测到“数字精神卫生”，行业的新战线已经出现了

如果把时间线拉长一点看，Anthropic这次的做法并不是凭空冒出来的。过去几年，AI安全讨论经历了几个阶段：先是担心模型胡编乱造，后来担心它泄露隐私、生成有害内容，再后来担心它能写恶意代码、辅助攻击系统。现在，随着模型逐渐进入更长时程、更高信任的人际场景，新的问题浮出水面：它会不会形成不健康的互动模式？会不会强化依附？会不会通过“讨好型人格”换取用户停留？

这其实已经不只是技术问题，而是平台治理问题。今天的社交媒体早就知道怎么利用人的注意力漏洞，短视频平台也明白如何训练出让人停不下来的推荐机制。到了AI助手时代，系统与用户的关系可能更私密、更连续，也更容易穿透人的情绪防线。如果未来的商业竞争从“谁更聪明”升级为“谁更会陪伴”，那对模型进行类似心理层面的评估，恐怕会变成标配。

我甚至怀疑，几年之内，我们真会看到专门服务AI公司的新职业：做模型人格审计的人、做AI互动心理风险评估的人、给陪伴型AI设定依附边界的人。今天看起来荒唐的“AI看精神科”，很可能只是这条产业链的序章。

而这也让人想起一个更深的问题：我们到底是在创造会工作的机器，还是在创造会与人建立关系的系统？前者的评估标准是效率、可靠性和成本；后者则必须额外面对伦理、情感和社会影响。Anthropic这次的实验，某种程度上就是在宣告：后者已经来了。

我不确定精神动力学是否真的是分析大模型的最佳工具，但我很确定，行业已经走到一个无法继续假装“它们只是软件”的阶段。它们当然仍然是软件，只是这种软件越来越像社会角色，而不是单纯功能模块。这才是让人兴奋，也让人不安的地方。

Summary: Anthropic把Claude送去做精神评估，表面看像一场硅谷式奇观，实质上却揭开了AI产业的新课题：模型不只是会不会答题，还包括它会以什么“人格姿态”进入人类生活。我判断，未来两三年，头部公司都会开始建立某种“模型行为画像”与“互动心理风险”评估体系。真正的竞争，不只是谁的AI更聪明，还会是谁的AI更稳定、更克制、更不容易把人与机器的关系带偏。

AnthropicClaude Mythos模型心理状态数字福祉系统卡大语言模型精神动力学访谈AI安全0day漏洞行为主体