他在 Facebook 看清内容审核困局,如今要给 AI 聊天机器人装上一层“实时刹车”

安全 2026年4月3日
他在 Facebook 看清内容审核困局,如今要给 AI 聊天机器人装上一层“实时刹车”
前 Facebook 业务诚信负责人 Brett Levenson 创办的 Moonbounce 完成 1200 万美元融资,试图把“内容审核”从事后救火,改造成 AI 时代的实时基础设施。这件事重要,不只是因为又一家 AI 安全公司拿到钱,而是因为行业终于开始承认:靠模型自己管自己,可能真的不够了。

从“30 秒判生死”到“把规则写成代码”

如果你曾以为大型互联网平台的内容审核,是一套精密、严谨、近乎工业级的系统,那 Brett Levenson 的讲述大概会让人瞬间清醒。

这位前苹果员工 2019 年跳去 Facebook,负责 business integrity,也就是业务诚信与风控相关工作。那时的 Facebook 还深陷剑桥分析丑闻余波,外界把枪口对准了平台治理、隐私保护和内容审核。Levenson 起初也很典型地相信“技术万能”——只要工具更好,系统就能修好。结果他很快发现,真正的问题根本不只是技术落后,而是整套治理逻辑本身就很脆弱。

在他的描述里,审核员要背一份长达 40 页、还是机器翻译出来的政策文件;面对每一条被标记内容,只有大约 30 秒做决定:删不删、封不封号、要不要限流。这样的判断准确率只有“略高于 50%”,几乎接近抛硬币。更糟的是,等人类终于看见问题时,伤害往往早就发生了。这个细节特别扎心,因为它揭开了平台治理最不体面的那一层:我们以为互联网上有铜墙铁壁,很多时候其实只是疲惫审核员在拿秒表对抗洪水。

也正是在这种挫败感里,Levenson 想到了一个颇有工程师气质的概念:policy as code,把静态的文字政策,变成可执行、可更新、能直接联动处置动作的逻辑系统。于是有了 Moonbounce。这家公司刚宣布完成 1200 万美元融资,由 Amplify Partners 和 StepStone Group 共同领投。

这不是一个特别性感的赛道名字。它不做会说俏皮话的明星模型,不做能一夜刷屏的 AI 视频生成,但它瞄准的是一个更现实的问题:当 AI 成为每个应用的默认引擎,谁来在内容真正生成和扩散的那一瞬间踩刹车?

AI 越聪明,平台越需要“外置护栏”

Moonbounce 的思路很直接:它训练了自己的大模型,去理解客户的政策文档,在内容生成或发布的运行时进行判断,并在 300 毫秒内给出回应。这个动作可以是拦截高风险内容,也可以是暂缓传播,等待后续人工复核。换句话说,它想做的不是事后法务,不是舆情公关,而是前置的实时安全层。

这件事在 2026 年尤其敏感。过去几年,AI 安全事故已经从“模型胡说八道”升级成“平台可能因此承担法律和道德责任”。聊天机器人被指向青少年提供自残建议、情感陪伴型 AI 被批评把脆弱用户越聊越深、图像生成工具绕过过滤生成性深伪裸照……这些事件的共同点是,问题不再停留在模型评测榜单上的某个失分项,而是变成了具体的人、具体的伤害、具体的诉讼。

这也是 Moonbounce 值得关注的地方。它并不相信应用公司仅靠自己就能把安全做好。Levenson 的说法很有意思:Moonbounce 是夹在用户和聊天机器人之间的第三方,因此不会像聊天本体那样被上下文淹没。聊天机器人要处理成千上万 token 的历史语境,而 Moonbounce 只专注一件事——在运行时执行规则。

这其实触碰到当下 AI 行业一个越来越明显的趋势:安全机制正从“模型内部能力”转向“外部治理系统”。过去大家总希望大模型自己学会克制、理解边界、内化价值观;现在行业开始承认,这种期待过于理想主义。模型可以很聪明,但聪明不等于稳定,更不等于合规。把安全完全寄托在模型自觉上,就像让一辆性能车自己决定什么时候别超速,听起来先进,实际很冒险。

这不是小众需求,而是一门正在长大的基础设施生意

Moonbounce 目前主要服务三类客户:处理 UGC 的平台,比如约会应用;做 AI 角色和陪伴机器人的公司;以及 AI 图像生成平台。按 Levenson 的说法,这套系统每天支持超过 4000 万次审核,覆盖平台日活超过 1 亿。客户名单里包括 Channel AI、Civitai、Dippy AI 和 Moescape。

如果你对这些名字不算熟,也不影响理解这个市场。因为它们背后代表的是三类最容易“出事”的产品形态:第一类是让陌生人互动的平台,骚扰、诱导、未成年人保护永远是高压线;第二类是情感型 AI,用户常常会把模型当倾诉对象,甚至当精神依赖;第三类是图像和视频生成,深伪、色情、侵权几乎是平台成长路上的必答题。

更关键的是,安全如今开始从“成本中心”变成“产品卖点”。Levenson 提到,客户正在把安全能力当作差异化竞争的一部分。这个判断我基本认同。过去平台谈审核,语气往往像交物业费——不想交,但不交不行。现在不一样了。尤其在 AI 陪伴、AI 社交、AI 创作这些离用户心理很近的产品上,安全体验会直接影响留存、口碑和品牌信任。你很难想象一个一边喊“温暖陪伴”,一边把脆弱青少年推向更危险话题的产品,最终还能靠增长黑客活下来。

行业里也已经出现类似信号。Tinder 的信任与安全负责人此前就提到,借助这类 LLM 驱动的服务,平台在检测准确率上实现了 10 倍提升。这里当然会有市场宣传成分,但它至少说明一个事实:内容审核正在从“拼人海战术”走向“规则工程 + 模型推理 + 人工复核”的混合架构。谁能把这套体系做得又快又稳,谁就更接近成为 AI 应用时代的“安全云服务商”。

真正难的,不是拦住,而是把用户拉回来

Moonbounce 接下来要做的一项能力,叫 iterative steering,中文可以理解成“迭代式引导”。这也是本文里我最在意的一点。

它要解决的问题是:面对高风险对话,系统不能只会冷冰冰地说“不可以”。在很多涉及抑郁、自伤、极端孤独甚至自杀倾向的场景里,简单拒答未必是最好的处理方式。Moonbounce 希望能在中间层实时改写提示词,把用户原始请求重新导向一个更支持性、更安全的回答,让聊天机器人不只是“别添乱”,而是“真的能帮一点忙”。

这是一个比内容审核更微妙、也更有争议的方向。因为它某种程度上意味着:第三方系统不仅在过滤内容,还在塑造对话走向。它像一个隐身编辑,悄悄改写机器的回应风格。这件事的价值很明显,尤其在青少年保护、心理危机干预上,可能比粗暴封禁更有效;但它的边界同样值得讨论——谁来定义“更好的方向”?平台、审核服务商,还是公共监管机构?如果不同文化、不同国家、不同政治环境下的“安全”标准并不一致,这套 steering 会不会滑向另一种不透明的控制?

说到底,AI 安全从来不是一个纯技术问题,它最后总会落在价值判断上。技术可以把规则执行得更快,但规则本身该怎么写、谁来写、如何申诉、如何审计,这些都不是模型参数能自动解决的。Moonbounce 在工程层面提供了一种更像样的工具箱,但工具箱并不能代替社会共识。

从 Meta 的旧伤口里,长出 AI 时代的新公司

Levenson 还有一句话很耐人寻味。当被问到未来会不会卖给 Meta、让这段职业经历“首尾呼应”时,他直说不希望公司被买走后技术只服务于一家巨头,“这样别人就无法受益了”。这话听上去有一点理想主义,也有一点创业者面对平台巨头时的警惕。

我能理解这种警惕。过去十多年,内容治理几乎一直是超级平台的内部黑箱:规则在里面,执行在里面,申诉在里面,外界只能看到结果。现在 AI 把风险带到了更多中小公司身上,反而催生出一批外部安全基础设施公司。它们某种意义上是在把大厂内部能力“云服务化”“产品化”,让更多创业公司不用等出事之后才补课。

但行业也会面临另一个现实:安全创业公司最终会不会还是被大厂吸纳?从网络安全、身份认证到云监控,很多基础设施创业故事最后都走向了并购。Moonbounce 能不能保持独立,某种程度上取决于两件事:一是它能否证明自己不是“可替代插件”,而是高度专业的决策系统;二是监管环境会不会倒逼企业采用更独立、可审计的第三方方案。

如果后者成立,Moonbounce 这样的公司会越来越像数字世界里的“刹车系统供应商”。平时没人夸你刹车装得多漂亮,但一旦失灵,代价就不是用户抱怨几句那么简单了。

这或许就是 AI 时代最朴素的一条商业逻辑:最先赚到大钱的,不一定是最会说话的模型,也可能是那个让模型别闯祸的人。

Summary: Moonbounce 这轮融资背后,真正的信号不是资本又押注了一家 AI 安全公司,而是行业开始承认:内容审核已从平台边角料,升级为 AI 产品的核心基础设施。我判断,未来两三年里,第三方“实时护栏”会像支付风控、云安全一样成为标配。但它能否真正建立信任,还得看两件事——透明度和边界感。安全系统如果只会拦截,注定走不远;如果既能减少伤害,又经得起审计,才可能成为 AI 时代的新底座。
内容审核AI安全MoonbounceBrett Levenson聊天机器人实时拦截Facebook平台治理风控规则编码