他在 Facebook 看清内容审核困局，如今要给 AI 聊天机器人装上一层“实时刹车”

核心摘要 Summary

前 Facebook 业务诚信负责人 Brett Levenson 创办的 Moonbounce 完成 1200 万美元融资，试图把“内容审核”从事后救火，改造成 AI 时代的实时基础设施。
这件事重要，不只是因为又一家 AI 安全公司拿到钱，而是因为行业终于开始承认：靠模型自己管自己，可能真的不够了。

从“30 秒判生死”到“把规则写成代码”

如果你曾以为大型互联网平台的内容审核，是一套精密、严谨、近乎工业级的系统，那 Brett Levenson 的讲述大概会让人瞬间清醒。

这位前苹果员工 2019 年跳去 Facebook，负责 business integrity，也就是业务诚信与风控相关工作。那时的 Facebook 还深陷剑桥分析丑闻余波，外界把枪口对准了平台治理、隐私保护和内容审核。Levenson 起初也很典型地相信“技术万能”——只要工具更好，系统就能修好。结果他很快发现，真正的问题根本不只是技术落后，而是整套治理逻辑本身就很脆弱。

在他的描述里，审核员要背一份长达 40 页、还是机器翻译出来的政策文件；面对每一条被标记内容，只有大约 30 秒做决定：删不删、封不封号、要不要限流。这样的判断准确率只有“略高于 50%”，几乎接近抛硬币。更糟的是，等人类终于看见问题时，伤害往往早就发生了。这个细节特别扎心，因为它揭开了平台治理最不体面的那一层：我们以为互联网上有铜墙铁壁，很多时候其实只是疲惫审核员在拿秒表对抗洪水。

也正是在这种挫败感里，Levenson 想到了一个颇有工程师气质的概念：policy as code，把静态的文字政策，变成可执行、可更新、能直接联动处置动作的逻辑系统。于是有了 Moonbounce。这家公司刚宣布完成 1200 万美元融资，由 Amplify Partners 和 StepStone Group 共同领投。

这不是一个特别性感的赛道名字。它不做会说俏皮话的明星模型，不做能一夜刷屏的 AI 视频生成，但它瞄准的是一个更现实的问题：当 AI 成为每个应用的默认引擎，谁来在内容真正生成和扩散的那一瞬间踩刹车？

AI 越聪明，平台越需要“外置护栏”

Moonbounce 的思路很直接：它训练了自己的大模型，去理解客户的政策文档，在内容生成或发布的运行时进行判断，并在 300 毫秒内给出回应。这个动作可以是拦截高风险内容，也可以是暂缓传播，等待后续人工复核。换句话说，它想做的不是事后法务，不是舆情公关，而是前置的实时安全层。

这件事在 2026 年尤其敏感。过去几年，AI 安全事故已经从“模型胡说八道”升级成“平台可能因此承担法律和道德责任”。聊天机器人被指向青少年提供自残建议、情感陪伴型 AI 被批评把脆弱用户越聊越深、图像生成工具绕过过滤生成性深伪裸照……这些事件的共同点是，问题不再停留在模型评测榜单上的某个失分项，而是变成了具体的人、具体的伤害、具体的诉讼。

这也是 Moonbounce 值得关注的地方。它并不相信应用公司仅靠自己就能把安全做好。Levenson 的说法很有意思：Moonbounce 是夹在用户和聊天机器人之间的第三方，因此不会像聊天本体那样被上下文淹没。聊天机器人要处理成千上万 token 的历史语境，而 Moonbounce 只专注一件事——在运行时执行规则。

这其实触碰到当下 AI 行业一个越来越明显的趋势：安全机制正从“模型内部能力”转向“外部治理系统”。过去大家总希望大模型自己学会克制、理解边界、内化价值观；现在行业开始承认，这种期待过于理想主义。模型可以很聪明，但聪明不等于稳定，更不等于合规。把安全完全寄托在模型自觉上，就像让一辆性能车自己决定什么时候别超速，听起来先进，实际很冒险。

这不是小众需求，而是一门正在长大的基础设施生意

Moonbounce 目前主要服务三类客户：处理 UGC 的平台，比如约会应用；做 AI 角色和陪伴机器人的公司；以及 AI 图像生成平台。按 Levenson 的说法，这套系统每天支持超过 4000 万次审核，覆盖平台日活超过 1 亿。客户名单里包括 Channel AI、Civitai、Dippy AI 和 Moescape。

如果你对这些名字不算熟，也不影响理解这个市场。因为它们背后代表的是三类最容易“出事”的产品形态：第一类是让陌生人互动的平台，骚扰、诱导、未成年人保护永远是高压线；第二类是情感型 AI，用户常常会把模型当倾诉对象，甚至当精神依赖；第三类是图像和视频生成，深伪、色情、侵权几乎是平台成长路上的必答题。

更关键的是，安全如今开始从“成本中心”变成“产品卖点”。Levenson 提到，客户正在把安全能力当作差异化竞争的一部分。这个判断我基本认同。过去平台谈审核，语气往往像交物业费——不想交，但不交不行。现在不一样了。尤其在 AI 陪伴、AI 社交、AI 创作这些离用户心理很近的产品上，安全体验会直接影响留存、口碑和品牌信任。你很难想象一个一边喊“温暖陪伴”，一边把脆弱青少年推向更危险话题的产品，最终还能靠增长黑客活下来。

行业里也已经出现类似信号。Tinder 的信任与安全负责人此前就提到，借助这类 LLM 驱动的服务，平台在检测准确率上实现了 10 倍提升。这里当然会有市场宣传成分，但它至少说明一个事实：内容审核正在从“拼人海战术”走向“规则工程 + 模型推理 + 人工复核”的混合架构。谁能把这套体系做得又快又稳，谁就更接近成为 AI 应用时代的“安全云服务商”。

真正难的，不是拦住，而是把用户拉回来

Moonbounce 接下来要做的一项能力，叫 iterative steering，中文可以理解成“迭代式引导”。这也是本文里我最在意的一点。

它要解决的问题是：面对高风险对话，系统不能只会冷冰冰地说“不可以”。在很多涉及抑郁、自伤、极端孤独甚至自杀倾向的场景里，简单拒答未必是最好的处理方式。Moonbounce 希望能在中间层实时改写提示词，把用户原始请求重新导向一个更支持性、更安全的回答，让聊天机器人不只是“别添乱”，而是“真的能帮一点忙”。

这是一个比内容审核更微妙、也更有争议的方向。因为它某种程度上意味着：第三方系统不仅在过滤内容，还在塑造对话走向。它像一个隐身编辑，悄悄改写机器的回应风格。这件事的价值很明显，尤其在青少年保护、心理危机干预上，可能比粗暴封禁更有效；但它的边界同样值得讨论——谁来定义“更好的方向”？平台、审核服务商，还是公共监管机构？如果不同文化、不同国家、不同政治环境下的“安全”标准并不一致，这套 steering 会不会滑向另一种不透明的控制？

说到底，AI 安全从来不是一个纯技术问题，它最后总会落在价值判断上。技术可以把规则执行得更快，但规则本身该怎么写、谁来写、如何申诉、如何审计，这些都不是模型参数能自动解决的。Moonbounce 在工程层面提供了一种更像样的工具箱，但工具箱并不能代替社会共识。

从 Meta 的旧伤口里，长出 AI 时代的新公司

Levenson 还有一句话很耐人寻味。当被问到未来会不会卖给 Meta、让这段职业经历“首尾呼应”时，他直说不希望公司被买走后技术只服务于一家巨头，“这样别人就无法受益了”。这话听上去有一点理想主义，也有一点创业者面对平台巨头时的警惕。

我能理解这种警惕。过去十多年，内容治理几乎一直是超级平台的内部黑箱：规则在里面，执行在里面，申诉在里面，外界只能看到结果。现在 AI 把风险带到了更多中小公司身上，反而催生出一批外部安全基础设施公司。它们某种意义上是在把大厂内部能力“云服务化”“产品化”，让更多创业公司不用等出事之后才补课。

但行业也会面临另一个现实：安全创业公司最终会不会还是被大厂吸纳？从网络安全、身份认证到云监控，很多基础设施创业故事最后都走向了并购。Moonbounce 能不能保持独立，某种程度上取决于两件事：一是它能否证明自己不是“可替代插件”，而是高度专业的决策系统；二是监管环境会不会倒逼企业采用更独立、可审计的第三方方案。

如果后者成立，Moonbounce 这样的公司会越来越像数字世界里的“刹车系统供应商”。平时没人夸你刹车装得多漂亮，但一旦失灵，代价就不是用户抱怨几句那么简单了。

这或许就是 AI 时代最朴素的一条商业逻辑：最先赚到大钱的，不一定是最会说话的模型，也可能是那个让模型别闯祸的人。

他在 Facebook 看清内容审核困局，如今要给 AI 聊天机器人装上一层“实时刹车”

AI实时护栏

行业痛点

人工审核崩溃

内生安全失灵

Moonbounce方案

Policy as Code

毫秒级运行时拦截

迭代式引导

目标市场

三大核心客群

安全能力变现

发展与约束

商业模式重塑

巨头并购风险

价值观争议

从“30 秒判生死”到“把规则写成代码”

AI 越聪明，平台越需要“外置护栏”

这不是小众需求，而是一门正在长大的基础设施生意

真正难的，不是拦住，而是把用户拉回来

从 Meta 的旧伤口里，长出 AI 时代的新公司