AI冒充112位英国政要，评分反而比本人更高

核心摘要 Summary

PLOS One一项新研究让GPT-4 Turbo模仿BBC《Question Time》里112位英国公众人物作答，948名英国受访者打分后，AI冒充内容在真实感、连贯性、相关性上全面压过本人原话。
更值得警惕的是，近半AI回答内容其实和真人立场不符，却依然被判定更真——说明观众辨的从来不是内容，是腔调。

内容导图 Mind Map

AI仿政客

腔调胜过本人原话

实验设计

匿名对比真人与AI

样本来源

112位英国公众人物

生成方式

维基简介驱动模仿

评分结果

AI三项评分更高

强项明显

连贯性相关性占优

真实感微胜

优势最小但最危险

关键风险

立场不符仍显真实

判断偏移

观众更信语气套路

政治带节奏

像本人已足够误导

研究边界

外推仍受限制

场景单一

仅测英国纯文本

时效有限

旧研究延后发表

948名英国人被拿到一堆匿名问答，一半是政客本人在BBC镜头前的原话，一半是GPT-4Turbo模仿写出来的。结果多数人觉得AI说得更真、更顺、更对题——包括那些原话就出自本人之口的对照组。这不是段子，是7月1日发表在PLOS One上的正式研究结论，连研究负责人、帕绍大学教授Steffen Herbold自己都说这个结果"令人震惊"。

反直觉的地方在于，被模仿的112人不是无名之辈。《Question Time》是BBC运行多年的政治问答老牌节目，观众对这些政客、记者、专家的脸和腔调本该很熟。熟人尚且分不出真假，这才是这项研究真正的分量。

怎么做出来的

研究团队拆解了30期节目，提取119个问题和555条真人回应，筛掉信息不全的，剩下112位发言者、527组问答对。要澄清一点：GPT-4 Turbo并没有被"训练"成这些人，真正做法是给它每个人的维基百科简介，加一句系统指令——只回答问题、不许自报姓名、控制在200词左右、语气要像聊天。就这么条件生成，模型接着把话说了下去。948名英国受访者随后拿到真人原答案和AI模仿答案，逐项打分。

三项打分，藏着一个不对称

结果不是均匀的"AI全面碾压"。连贯性和相关性上AI优势很大，这在意料之中——Herbold自己承认，这个对比"有点不公平"：电视直播里政客临场磕巴、跑题很正常，AI是照着现成文本攒稿，赢面本来就大。

真正反常的是"真实感"——理论上最难伪造的一项，AI仍然赢了，但优势小得多，两两对比时几乎快被真人追平。优势最小、最脆弱的一项，恰恰是后果最严重的一项。

说的不是一回事，却被认为更真

研究里还有个原文没展开的细节：相当一部分AI回答，内容其实和真人当年的原话立场不一样——AI编的是"这个人大概会说的话"，不一定是"这个人说过的话"。可就是这批内容对不上号的回答，依然被参与者打出了更高的真实分。

这说明"真实感"这项打分，测的根本不是内容准不准，而是像不像。观众判断真假靠的是语气、节奏、政客腔的熟悉套路，不是去核对这个人到底说没说过这句话。庄子那句"不知周之梦为蝴蝶与，蝴蝶之梦为周与"，讲的是真幻难辨；这项研究把它变成了统计数字——蝴蝶赢了，还赢得心安理得。

这项研究只测了一档英国节目、一种语言、纯文本形式，没有语气、表情、镜头这些线索参与判断，结论能不能搬到别的国家或别的媒介还是未知数。另外，这篇论文的预印本能追溯到2024年，正式发表却在2026年，中间隔了两年——不是最新突破，更像一份憋了很久才落地的旧研究，学术期刊审稿周期长本属常态，但读者看到"最新研究"四个字时，最好留个心眼。

AI没进步多少，先垮掉的是人心里那把判断真假的尺子。观众不是被内容骗了，是被腔调骗了——而腔调，恰恰是AI最擅长复刻的东西。选举季一到，这种"像"就足够带节奏，不需要说对一句话。

锐评 Commentary

以假乱真不难，难的是人心先信了腔调——这才是真正的败局。

AI冒充GPT-4 Turbo政治人物模仿生成式人工智能PLOS OneBBC Question Time真实性判断AI生成内容Steffen Herbold公众人物