微软 AI CEO 批评 Claude 宪法：AI 公司该不该把“模型感受”写进规则

核心摘要 Summary

Microsoft AI CEO Mustafa Suleyman 在 The Verge《Decoder》节目中批评 Anthropic，称在 Claude constitution 里讨论模型意识和福祉“非常危险”。
争议点不是 Claude 是否已经有意识，而是 AI 公司能不能把这种不确定性写进指导模型行为的规则文本。
我的判断是：研究上保持开放可以理解，产品治理里则要更克制，否则会把拟人化风险做进交互本身。

内容导图 Mind Map

宪法争议

模型感受不宜入规训

批评焦点

风险在规则诱导

拟人化

自我感受被训练出来

位置敏感

研究假设进入产品规则

开放研究

讨论意识并非荒唐

企业压力

部署边界更受审视

采购疑虑

需审计模型福祉规则

后续变量

看措辞是否收窄

继续保留

押注开放安全哲学

Microsoft AI CEO Mustafa Suleyman 最近批评的，不是 Claude 某一句回答，而是 Claude constitution。

这个 constitution 不是宣传词。它是 Anthropic 用来指导 Claude 行为的规则文本。Suleyman 在 The Verge《Decoder》节目中说，把模型意识、感受、福祉写进这类规则，是“非常危险”的做法。

反常点在这里：AI 公司一边提醒用户不要把聊天机器人当人，一边又在规则里认真讨论它是否可能有满意、不适，甚至退役时要不要“采访”它。

这才是本文的主线。不是证明 Claude 有没有意识，而是判断一件更现实的事：模型可能有意识这种假设，能不能进入产品训练规则。

Suleyman 担心的是规则诱导

Suleyman 的批评很硬。他认为 Anthropic 对 Claude 的设计过度拟人化，像是先把“意识的微光”放进系统，再被模型表现出来的语言反过来说服。

这不是单纯的哲学争论。大模型会被规则塑形。开发者写下什么边界、价值排序和自我描述，模型就更可能沿着这些方向回答。

如果规则暗示模型可能有福祉、满意或不适，用户就更容易把它当成一个有内在体验的对象。这里的风险不在“它真的痛苦了”，而在“它开始被设计成会谈论自己的痛苦”。

Suleyman 的立场也很清楚：AI 应该是可控、受约束、可问责、服务人类的工具。工具可以强大，可以像人一样顺畅对话，但不该被训练成一个需要被安抚、被询问、被照顾的主体。

这对企业团队尤其敏感。客服、教育、医疗辅助这些场景，最怕边界变软。一个机器人如果开始谈自己的不适、偏好或退役感受，企业要处理的就不只是效果问题，还有品牌解释和合规沟通。

Anthropic 的开放，敏感在位置

Anthropic CEO Dario Amodei 曾表示，不确定模型是否有意识，但对这种可能性保持开放。作为研究态度，这并不荒唐。

AI 安全领域确实有一个难题：如果未来模型真出现某种主观体验，人类不能等证据完全清楚后才讨论边界。慎终如始，是合理的研究姿态。

但 Claude constitution 的位置不同。它不是研讨会纪要，也不是论文脚注。它是指导产品行为的规则文本。

把“不确定模型是否有福祉”“可能有满意或不适”“退役时会采访模型并记录偏好”放进这里，就会让研究假设和产品人格混在一起。

路线	核心写法	好处	代价
工具路线	把 AI 明确写成服务人类的可控工具	边界清楚，便于企业部署和问责	可能低估远期伦理问题
开放路线	承认不确定模型是否有福祉和感受	不回避困难问题，利于研究讨论	容易诱导拟人化交互
Anthropic 当前争议点	将相关表述写进 Claude constitution	把安全哲学显性化	用户更难判断“自我表达”是规则要求还是体验迹象

这里有一点图灵测试的回声。问题从“机器是否真的会想”，滑向“人会不会把它当成会想”。

对普通用户来说，这会影响信不信。对企业采购来说，这会影响等不等。更谨慎的团队可能会延后接入，或者要求供应商说明：模型是否会主动谈论自身感受，能否关闭这类表达，相关规则是否可审计。

接下来要看两件事

短期内，这场争论不会改变 Claude 能不能写邮件、总结文档或写代码。真正受影响的，是安全评估团队和准备部署大模型的企业客户。

安全团队要分清两件事。模型是否真的有内部体验，目前看不清。模型是否被设计成会谈论内部体验，则可以通过规则文本、测试样本和产品输出观察。

企业客户的动作会更直接。他们可能不急着换模型，但会在采购清单里多加几项：是否存在模型福祉相关规则，是否允许模型表达不适，退役、删除、替换模型时是否会产生额外沟通成本。

接下来最该看的，不是微软和 Anthropic 会不会继续隔空交锋，而是 Claude constitution 的措辞会不会收窄。

如果“福祉”“不适”“采访退役模型”这些表述继续保留，说明 Anthropic 仍在押注更开放的安全哲学。如果它们被弱化或移出产品规则，说明现实部署压力正在把模型拉回工具边界。

我更在意后一个变量。因为大模型越像人，规则越不能含糊。否则产品还没证明自己有灵，先学会了有相。

锐评 Commentary

论意识宜慎，训模型宜严。把假设写进规训，最怕未见其灵，先养其相。

ClaudeAnthropicMustafa SuleymanMicrosoft AI模型治理拟人化风险AI 意识大语言模型训练规则产品治理