948名英国人被拿到一堆匿名问答,一半是政客本人在BBC镜头前的原话,一半是GPT-4Turbo模仿写出来的。结果多数人觉得AI说得更真、更顺、更对题——包括那些原话就出自本人之口的对照组。这不是段子,是7月1日发表在PLOS One上的正式研究结论,连研究负责人、帕绍大学教授Steffen Herbold自己都说这个结果"令人震惊"。

反直觉的地方在于,被模仿的112人不是无名之辈。《Question Time》是BBC运行多年的政治问答老牌节目,观众对这些政客、记者、专家的脸和腔调本该很熟。熟人尚且分不出真假,这才是这项研究真正的分量。

怎么做出来的

研究团队拆解了30期节目,提取119个问题和555条真人回应,筛掉信息不全的,剩下112位发言者、527组问答对。要澄清一点:GPT-4 Turbo并没有被"训练"成这些人,真正做法是给它每个人的维基百科简介,加一句系统指令——只回答问题、不许自报姓名、控制在200词左右、语气要像聊天。就这么条件生成,模型接着把话说了下去。948名英国受访者随后拿到真人原答案和AI模仿答案,逐项打分。

BBC《Question Time》30期节目 112位发言者 527组问答对 GPT-4 Turbo +维基百科简介 条件生成模仿 回答 948名英国 受访者打分

三项打分,藏着一个不对称

结果不是均匀的"AI全面碾压"。连贯性和相关性上AI优势很大,这在意料之中——Herbold自己承认,这个对比"有点不公平":电视直播里政客临场磕巴、跑题很正常,AI是照着现成文本攒稿,赢面本来就大。

真正反常的是"真实感"——理论上最难伪造的一项,AI仍然赢了,但优势小得多,两两对比时几乎快被真人追平。优势最小、最脆弱的一项,恰恰是后果最严重的一项。

单独评分 两两对比 0.66 0.22 真实感 1.25 1.04 连贯性 1.23 0.84 相关性 效应量(d值),越高说明AI优势越大

说的不是一回事,却被认为更真

研究里还有个原文没展开的细节:相当一部分AI回答,内容其实和真人当年的原话立场不一样——AI编的是"这个人大概会说的话",不一定是"这个人说过的话"。可就是这批内容对不上号的回答,依然被参与者打出了更高的真实分。

这说明"真实感"这项打分,测的根本不是内容准不准,而是像不像。观众判断真假靠的是语气、节奏、政客腔的熟悉套路,不是去核对这个人到底说没说过这句话。庄子那句"不知周之梦为蝴蝶与,蝴蝶之梦为周与",讲的是真幻难辨;这项研究把它变成了统计数字——蝴蝶赢了,还赢得心安理得。

近半AI回答内容 与真人原意不符 参与者仍打出 更高的"真实感"评分

这项研究只测了一档英国节目、一种语言、纯文本形式,没有语气、表情、镜头这些线索参与判断,结论能不能搬到别的国家或别的媒介还是未知数。另外,这篇论文的预印本能追溯到2024年,正式发表却在2026年,中间隔了两年——不是最新突破,更像一份憋了很久才落地的旧研究,学术期刊审稿周期长本属常态,但读者看到"最新研究"四个字时,最好留个心眼。

AI没进步多少,先垮掉的是人心里那把判断真假的尺子。观众不是被内容骗了,是被腔调骗了——而腔调,恰恰是AI最擅长复刻的东西。选举季一到,这种"像"就足够带节奏,不需要说对一句话。