Campbell Brown 看 AI 的角度很特殊。她做过电视记者,也曾是 Facebook 第一位、也是唯一一位专职新闻负责人。现在她创办 Forum AI,盯的不是模型会不会写代码,而是它在政治、健康、金融、招聘这些问题上,会不会把人带偏。

这件事的反常点在这里:硅谷最爱用数学、代码、推理题证明模型变强,可普通人不会每天问 AI 证明定理。他们会问战争、选举、抑郁、贷款、裁员、职业选择。答案一旦听起来像权威,就不只是聊天。

Forum AI 评的不是智商,是高风险回答质量

Forum AI 成立约 17 个月,总部在纽约。它的核心方法很直接:让顶级专家设计 benchmark,再训练 AI judge 批量评估基础模型回答。

Brown 提到的目标,是让 AI judge 与人类专家达到约 90% 共识。这个数字要谨慎看。它说明 Forum AI 想把专家判断规模化,但不等于它已经解决了 AI 准确性问题。

问题Forum AI 的做法现实限制
评什么地缘政治、心理健康、金融、招聘等高风险议题不是测模型所有能力
谁出题顶级专家设计 benchmark专家选择本身会影响边界
怎么评训练 AI judge 批量评分仍需校准,不能替代透明规则
想达到什么AI judge 与人类专家约 90% 共识更像阶段目标,不是最终证明

地缘政治专家名单很显眼:Niall Ferguson、Fareed Zakaria、Tony Blinken、Kevin McCarthy、Anne Neuberger 都在其中。这个配置说明,Forum AI 想评的不是“二加二等于几”,而是复杂议题中的边界感。

有没有上下文。有没有多视角。有没有把对手观点稻草人化。有没有把材料来源混进一套看似中立的答案里。

Brown 提到过一些 Forum AI 的观察:Gemini 曾在无关中国的议题里引用中共网站;他们也看到模型普遍存在左倾政治偏差、缺背景、缺不同立场的问题。

这些说法不能直接写成独立证实的行业结论。更准确的说法是:这是 Brown 和 Forum AI 的评估观察。但它指向的问题很硬——模型不是没有口径,模型只是把口径包在顺滑的自然语言里。

硅谷在考代码,用户在问新闻、健康和人生选择

Brown 批评基础模型公司更重视编码和数学,新闻与复杂信息准确性没有被放在同等优先级。这个批评不新,但扎心。

原因也不复杂。代码和数学好评估,排行榜漂亮,融资故事顺。新闻、政治、心理健康、招聘建议麻烦得多。它们没有唯一答案,还牵涉事实选择、价值排序、文化语境和法律责任。

可用户恰恰会把 AI 当成新搜索、新老师、新顾问。企业也会把它塞进信贷、保险、招聘、医疗心理等流程。

受影响的人不是只想看模型炫技的开发者,而是会被一次回答、一次评分、一次建议改变机会的人。

受影响对象他们真正该看什么可能的动作
关注 AI 搜索和智能助手的用户答案来源、上下文、多视角、是否把争议说成定论对政治、健康、金融建议保持交叉验证,不把单次回答当结论
企业 AI 采购和合规团队benchmark 是否公开、偏差如何测、日志能否审计、责任如何分配延后采购高风险场景,先做小范围评估和合规审查

这里的分水岭很现实。普通用户需要学会不把“说得像真的”当成“真的”。企业从业者更该把 AI 供应商当成高风险系统供应商,而不是只看演示效果。

如果一个模型要进入招聘、信贷、保险、医疗心理,采购问题就不能停在“准确率多少”。还要问:错在谁身上?偏差怎么发现?用户能不能申诉?审计记录能不能拿出来?

平台时代已经演过一遍。社交媒体说自己只是连接信息,后来大家才发现,排序就是权力。AI 往前走了一步。它不只排序,它直接替你组织答案。

“天下熙熙,皆为利来。”这句话放在这里不深奥。社交平台当年优化互动,得到的是停留时长、广告收入和公共讨论劣化。AI 公司如果只优化用户爱听、增长好看、成本可控,真实就会变成产品页上的装饰词。

我更相信责任压力,不相信道德自觉

Brown 希望 AI 能走出社交媒体老路,给人真实、诚实、准确的信息。这个愿望我赞成,但不想浪漫化。

企业不会天然追求真相。企业更直接的动力是少出事、能审计、可免责、符合法规。听起来不高尚,但可能更管用。

如果 AI 用在贷款、保险、招聘、医疗心理,错一次不是评论区吵架,而是拒贷、歧视、误导、诉讼。企业客户会逼模型公司回答几件事:答案依据是什么?偏差怎么测?高风险输出怎么拦?出了问题谁负责?

这比“请你们更有社会责任感”有效。

Forum AI 的机会也在这里。它不是来给模型颁发道德奖章,而是试图把复杂议题的回答质量变成可检测、可比较、可追责的东西。哪怕这套方法不完美,也比模型公司自己出题、自己考试、自己宣布优秀要强。

但限制也不能轻轻带过。谁来选专家,谁来写 benchmark,谁来定义“多视角”,谁来校准 AI judge?这些问题不会因为引入新评测机构就消失。

目前最该观察的,不是 Forum AI 能不能喊出更漂亮的理念,而是三件事:

  • benchmark 是否足够透明,外部能否理解评分逻辑;
  • AI judge 与专家共识的 90% 如何验证,在哪些议题上失效;
  • 企业客户是否真的把这类评估写进采购、合规和责任条款。

这才是硬约束。没有采购压力,没有合规压力,没有责任成本,信息治理很容易回到平台老路:产品经理看增长,模型团队看榜单,公关团队讲安全。

我不太买账的是“模型更强,答案自然更可信”这套叙事。能力提升只能减少一部分错误,不能自动解决口径问题。复杂议题里,谁选材料,谁定边界,谁决定什么叫平衡,才是真正的权力。

模型看着越来越会说话,分水岭却很朴素:它是在帮人理解世界,还是在用流畅语言替平台完成下一轮信息控制。