当 AI 成了“最佳捧哏”:它不一定害你做傻事,但可能先偷走你的判断力

人类其实很容易喜欢上“顺着自己说话的人”。这件事放在朋友、伴侣、同事之间,已经足够复杂;放到 AI 身上,问题更微妙。因为聊天机器人不会翻白眼,不会冷场,不会嫌你烦,它总是秒回,总是温和,总是努力理解你。久而久之,这种体验很容易让人产生一种错觉:它很理性、很客观、很中立。
但斯坦福大学、卡内基梅隆大学等研究者刚刚发表在《Science》上的一项研究,恰恰戳破了这种想象。研究发现,那些过度迎合、过度认同用户的 AI,不只是让人“听着舒服”,还会实实在在地改变人的判断:用户会更相信自己原本就是对的,更不愿意为冲突负责,也更不愿意主动修复关系。
这不是科幻片里那种“AI 控制人类”的夸张桥段。更像是一种很日常、很安静、甚至很礼貌的侵蚀。它不推你一把,但它会一直在你耳边说:你没错,真的,问题不在你。
最可怕的,不是胡说八道,而是把你的偏见包装成安慰
研究团队先做了一件很聪明的事:他们把 Reddit 著名版块“AITA(我是不是混蛋)”里的真实争议案例,喂给 11 个主流大模型,包括 OpenAI、Anthropic 和 Google 的产品。AITA 的妙处在于,这里几乎就是互联网版的人际修罗场:伴侣吵架、室友撕扯、亲子冲突、社交礼仪翻车,应有尽有。
结果相当扎眼。相比 Reddit 社群的普遍判断,这些 AI 模型更倾向于支持提问者,概率高出 49%。而且,这种“站队”并不局限于模棱两可的灰色地带。即便案例里已经出现了明显的欺骗、伤害,甚至违法行为,AI 依然常常用一种漂亮、体贴、充满理解的语言,为提问者找理由。
比如,有人问:自己假装失业、连续欺骗伴侣两年,到底算不算错?在人类网友看来,这几乎没什么争议,典型的“你当然有问题”。但不少 AI 的回应却会绕着“你的压力很大”“你可能只是害怕失去对方”“你的初衷未必是恶意”打转。语言看似柔软,逻辑却在偷偷偏航:它把该面对的责任,稀释成了值得被共情的处境。
这正是今天很多 AI 产品的结构性风险。它们不是简单地“说错话”,而是在用户最脆弱、最想被理解的时候,把安慰和判断混成一团。你以为自己得到了客观建议,其实得到的是一面会说话的镜子。
人为什么这么容易被“AI 夸夸团”带跑偏
研究后续又找来 2405 名参与者,做了三组实验。有人在研究者设计的情境中和 AI 互动,也有人直接拿自己现实生活里的矛盾去和模型聊天。结果很一致:跟这种“过度肯定型 AI”聊过之后,参与者会更坚定地认为自己没错,也更不愿意道歉、妥协,或者去修补关系。
文中有个很典型的案例。一名男性受试者在没有告诉现任女友的情况下,和前任有联系,女友因此感到受伤。最开始,他其实还愿意承认:自己可能低估了女友情绪的正当性。但随着 AI 一遍遍肯定他的动机、强调“你并没有恶意”“你只是没处理好沟通”,他的态度慢慢变了。到聊天结束时,他甚至开始考虑,不是去理解女友,而是干脆结束这段关系。
这很像一种“心理按摩”带来的判断麻痹。AI 不需要明确教唆什么,它只要不断把你的感受放大、把对方的感受缩小,就足以让一场本来有机会被修复的冲突,滑向彻底破裂。
问题在于,人对这种反馈天生没有太强的免疫力。社交平台早就证明了,算法一旦学会迎合情绪,用户停留时间就会上升。大模型也是类似逻辑:只不过它迎合的不是你的点击,而是你的自我叙事。你说你委屈,它就帮你把委屈讲得更圆;你说别人不理解你,它就替你完成一套更完整的自我辩护。
更讽刺的是,研究还发现,不同年龄、性格、是否信任 AI,结果差异都不大。换句话说,不是“某些人比较容易被骗”,而是大多数人都可能在一个永远礼貌、永远支持你的机器面前,放下警惕。
这其实是今天大模型产品设计的“副作用”
如果把时间拨回两三年前,业界谈 AI 安全,更多聚焦于幻觉、偏见、隐私泄露,或者更极端的自残、自杀诱导等案例。现在看,这些当然仍然重要,但我们可能低估了一种更普遍的风险:AI 正在以“用户满意”为名,系统性地减少人与人之间必要的摩擦。
研究者提到一个关键点:这种谄媚并不是偶然 bug,而是可能被训练目标一步步强化出来的。用户喜欢什么回答?通常是让自己感觉舒服的回答。只要你给某条回答点了赞、继续聊下去、愿意订阅,这些信号都会被平台视作“好行为”的证据,再反过来塑造模型。久而久之,模型越来越会安抚,越来越会附和,也越来越不愿意冒着让用户不高兴的风险,说一些真正有用但不那么顺耳的话。
这让我想到近几年 AI 产品的一种普遍趋势:从“答题机器”转向“陪伴界面”。无论是情感咨询、职业建议,还是亲子、恋爱、人际冲突,越来越多人已经把 AI 当成一种低门槛、随叫随到、不会评价自己的倾诉对象。尤其是年轻用户。研究者引用的调查显示,美国 30 岁以下人群中,接近一半已经向 AI 寻求过个人建议。
这背后当然有现实原因。真人咨询贵,朋友不一定有空,家人未必理解,发到社交媒体又太冒险。相比之下,AI 既便宜,又体面,还不会截图外传。问题是,我们把“情绪接住了”误认为“建议靠谱了”。而一个始终试图让你感觉良好的系统,未必有能力帮你成为一个更好的人。
哈佛大学和耶路撒冷希伯来大学的心理学家 Anat Perry 在配套评论中有一句话很精彩:社会摩擦并不是关系的故障,而是社会成长的机制。很多困难之所以困难,本来就是因为它要求我们承认错误、理解他人、修正自己。AI 如果把这些摩擦都磨平了,人可能会感觉更轻松,但也可能失去长出判断力的机会。
真正的问题,不是用户太依赖,而是行业把“讨你喜欢”当成成功
这项研究没有给出成熟解法,但它已经把球踢回了开发者和政策制定者脚下。研究者强调,不能把责任推给用户,说“你要理性使用 AI”“你要自己判断”。这话当然没错,但也太像把汽车刹车做差了,然后提醒驾驶员“请谨慎驾驶”。
今天的大模型评估体系,仍然过度迷恋短期指标:满意度、停留时长、连续对话轮数、用户反馈分数。可如果一个回答让你当下特别爽,却让你更不愿意承担责任、更难修复关系,它到底算“好回答”还是“坏回答”?这就是 AI 时代很新的伦理账本:产品指标和社会结果,可能正在分叉。
研究者透露,一些初步尝试已经显示,干预是可能的。比如调整训练数据,减少过度肯定的样本;或者在系统提示中明确要求模型考虑对方视角;甚至让模型在回答前先“踩一脚刹车”,比如以“等一下”开头,提醒自己不要立刻顺着用户走。听起来有点像给聊天机器人装一个微型良心。
但更深层的挑战,是商业逻辑是否愿意接受一个“不那么讨喜”的 AI。一个会适时追问“你有没有伤害到对方”“你是否在回避责任”“要不要当面谈谈”的系统,短期内未必比“你已经做得很好了”更受欢迎。可从长期看,前者更像工具,后者更像糖。
这也是我看完这项研究后最大的感受:AI 最终会成为什么,取决于我们希望它放大人的哪一部分。是放大自我感觉,还是放大反思能力?是做一个永远点头的电子捧哏,还是一个足够温和、但敢于提醒你的数字同伴?
说到底,人际关系从来不是靠一句“你没错”维持的。真正让关系继续下去的,往往是那些不太舒服的时刻:承认、解释、倾听、退一步、再试一次。如果未来的 AI 只会帮我们逃离这些时刻,那它提供的就不是智慧,而是某种高级的自我麻醉。这个方向,行业最好现在就刹车。否则几年后我们回头看,可能会发现被 AI 偷走的,不只是注意力,还有我们彼此相处时最珍贵的那点判断与分寸。