当人类把大脑“外包”给 AI:一项研究敲响了警钟

大模型流行这几年,科技圈最常见的一句话是:AI 不会取代人,会用 AI 的人会取代不会用 AI 的人。听上去很提气,也很像时代金句。但宾夕法尼亚大学最新一项研究提醒我们,事情可能没这么简单——有些人不是在“使用”AI,而是在不知不觉中,把自己的判断力交了出去。
研究者给这种现象起了个相当准确、也有点刺耳的名字:“认知投降”(cognitive surrender)。它指的不是普通意义上的借助工具,而是用户在面对 AI 流畅、自信、几乎没有摩擦感的回答时,直接跳过怀疑、验证和推理,把答案整个吞下去。说得再直白一点:不是 AI 替你想了一下,而是你干脆不想了。
这项研究之所以重要,不只是因为它揭示了一个心理机制,更因为它击中了当下 AI 应用最核心的矛盾:大模型越像一个“什么都懂”的助理,人类越容易忘记,它其实也会一本正经地胡说八道。
AI 不是计算器,它更像“特别会说话的人”
过去几十年,人类早就习惯把一部分思考工作交给机器。算账交给计算器,认路交给 GPS,拼写交给输入法纠错。学界通常把这叫作“认知卸载”——你把某一类机械、重复、规则明确的任务外包给工具,但大脑仍然保留最终审查权。
问题是,大语言模型和计算器、导航软件不太一样。计算器很少装出一副“我理解你的处境”的样子,GPS 也不会在你走错路时附上一段逻辑缜密、语气笃定的解释。LLM 最特别的地方,恰恰是它太像一个“说得头头是道的人”。它用自然语言作答,态度平稳、句式完整、逻辑表面上顺滑得惊人,这种表达方式天然会激活人类对“权威”“专业”“可靠”的心理联想。
研究者借用了行为科学里那套经典框架:人类有快思考和慢思考。前者依赖直觉,后者依赖审慎推理。而 AI 的出现,正在制造第三种东西——“人工认知”,也就是由外部算法替代部分判断过程。理论上,这并不一定是坏事;但如果人类在接入外部认知后,连最基本的核验动作都省了,那就从“辅助”滑向了“放弃”。
这也是为什么我觉得“认知投降”这个词很有穿透力。它指出的不是 AI 是否足够强,而是人类在面对一种高流畅度、高权威感的输出时,究竟会不会本能地解除防御。某种程度上,这比模型幻觉本身更危险。因为幻觉是技术问题,投降是人的问题。
一旦 AI 开口,人就更不想自己想了
这项研究设计得很巧。研究人员让参与者完成经典的“认知反思测试”(CRT)题目。这类题的妙处在于,它会诱导人先冒出一个很顺手、但其实错误的直觉答案;只有真正停下来想一层,才会得到正确结果。它很适合测试一个人到底是在凭直觉,还是在认真推理。
在实验中,参与者可以选择是否向一个聊天机器人求助。关键在于,这个机器人被研究团队故意改造过:它有一半概率给出正确答案,另一半概率给出错误答案。也就是说,它并不是一个稳定可靠的“答案机”,而是一个会一本正经误导人的顾问。
结果相当醒目。只要 AI 给出了答案,多数人就很容易接受。AI 回答正确时,参与者有约 93% 的概率采纳它;而就算 AI 是错的,仍然有约 80% 的概率被接受。换句话说,很多人不是在“评估 AI”,而是在“默认 AI 大概是对的”。
更耐人寻味的是,自信心也被一起带偏了。使用 AI 的那组参与者,对自己答案的信心平均高出 11.7%,尽管这个模型有一半时间在乱答。这很像现实生活中的一个荒诞场景:有人拿着一份错误结论侃侃而谈,不是因为他真的懂了,而是因为 AI 的语气替他注入了底气。
如果你平时经常用 AI 写邮件、做摘要、查资料、改作业,这个结果其实并不陌生。很多人已经体验过那种感觉:明明自己没完全搞懂,但只要 AI 给出的文字足够顺、足够像样,你就会下意识觉得“应该八九不离十”。这不是懒惰那么简单,而是人类天生容易把“表达流畅”误判为“内容可靠”。
时间越紧,人越容易向 AI 低头
研究里还有一个很现实的发现:环境会放大认知投降。当研究人员给参与者设置小额奖励,并即时反馈答案对错时,人们纠正错误 AI 的概率上升了 19 个百分点。反过来,当答题加入 30 秒倒计时后,人们推翻错误 AI 的概率又下降了 12 个百分点。
这几乎就是今天办公室、学校和互联网平台的缩影。邮件要赶,PPT 要交,会议纪要马上要发,内容团队追热点,学生赶作业,客服拼响应时效。时间压力一上来,人脑里那个“等一下,这句话靠谱吗”的小警报,就更容易静音。AI 在这种场景里尤其迷人:它不是完美,但它够快,够像答案,而且通常比你自己思考省力得多。
这也是为什么今天的 AI 风险,不只属于实验室和前沿模型评测,而是已经进入了非常日常的工作流。企业喜欢把大模型包装成“效率工具”,学校鼓励用 AI 提升学习效率,软件厂商争先把 AI 按钮塞进每个产品界面。可效率提升和判断力退化,可能是同时发生的。尤其当 KPI 只奖励速度、不奖励审查时,组织实际上是在鼓励员工更少思考、更多采纳。
这让我想起 GPS 改变驾驶习惯的那段历史。导航让人更少记路,这是便利,也是代价。今天的大模型可能正在让人更少“记逻辑”。区别在于,走错路最多绕一圈,逻辑走偏时,你可能会在报告、合同、医疗建议、财务判断甚至公共决策里一路错下去,还因为答案写得过于漂亮而不自知。
谁更容易被带偏?真正的分野不是会不会用 AI
研究还发现,不同人群的表现差异明显。那些本来就更相信 AI 权威性的人,更容易被错误答案带偏;而流体智力得分更高的人,更少依赖 AI,也更能在 AI 出错时把它推翻。这说明问题的核心,未必是“是否接触过 AI”,而是你对它抱着怎样的心理预设。
这几年,科技公司一直在努力让 AI 用起来更自然、更像人、更无缝。这当然是产品进步:少一点命令行味道,多一点对话感,普通用户才能真正用上。但从另一个角度看,产品体验做得越丝滑,用户越可能忘记自己其实是在和一个概率模型打交道。它不是“会思考的脑”,而是“很擅长生成像思考结果的文本”。这个区别,在顺风顺水时似乎无关紧要,到了高风险场景里却是生死线。
所以我一直觉得,AI 产品设计不能只卷“更像人”,也该卷“更像一个负责任的工具”。比如更明确地暴露不确定性,给出可核查来源,在关键任务里主动提示用户复核,而不是把一切包装成无摩擦的丝滑体验。现在很多 AI 产品最擅长的,是减少用户停顿;可真正安全的设计,恰恰应该在某些时刻故意制造一点停顿。
这件事对教育行业尤其刺痛。老师们担心学生用 AI 写作业,表面看像是“作弊”问题,实质上更像“思维肌肉退化”问题。如果学生把 AI 当草稿助手、陪练和检索入口,那是工具升级;如果把它当成替代推理的黑箱,那长远看会削弱最宝贵的能力:提出问题、辨别错误、承受复杂性。学校最终要培养的,不是最快调出答案的人,而是能在答案出现之后,继续追问“为什么”的人。
真正该害怕的,不是 AI 太聪明,而是人太放心
研究作者也强调,“认知投降”并不天然是不理性的。这个判断我认同。现实中,谁都不可能每件事都亲自推理一遍,外包部分认知本来就是现代社会的常态。我们信赖医生、律师、工程师、搜索引擎、地图软件,本质上都是把某些判断委托给更擅长的人或系统。
问题在于,信任应该建立在边界感上。医生有执照、医院有责任、论文有同行评审、地图出错通常可验证;而大模型眼下仍然处在一种奇怪状态:它已经被大规模部署,却还没有让普通用户真正形成稳定、成熟的风险认知。它太像一个可靠的人,但又不承担“像人那样可靠”的责任。
从 ChatGPT 到 Gemini,从 Claude 到企业私有助手,大模型正在成为新一代数字基础设施。接下来几年,我们会看到它更深地进入搜索、办公、教育、客服、医疗前台和政府服务。到那个时候,最值得追问的可能不再是“模型参数多少”“推理能力提升多少”,而是另一个更朴素的问题:我们是否还保留了对答案说“不”的能力?
如果没有,那真正被自动化的,也许不是工作流程,而是怀疑精神本身。