当监控也能“搜一搜”:Conntour 融资 700 万美元,把安防摄像头变成自然语言搜索引擎

安全 2026年3月26日
安防行业正处在一个微妙时刻:AI 让摄像头“看懂世界”的能力突飞猛进,但隐私争议也同步放大。Conntour 拿到 700 万美元种子轮融资,想把海量监控画面变成可用自然语言检索的数据库,这既是一个很现实的企业需求,也是一场关于边界、权力和责任的技术考题。

监控行业的新剧本:不是多装摄像头,而是让视频“能被搜索”

如果说过去十年安防行业做的事,是把越来越多的摄像头挂到天花板、街角和出入口;那么现在,行业的野心已经变成另一件事:让这些摄像头拍下来的内容,像 Google 搜网页一样被搜索。

美国初创公司 Conntour 想做的,正是这样一套系统。它最近宣布拿到 700 万美元种子轮融资,投资方包括 General Catalyst、Y Combinator、SV Angel 和 Liquid 2 Ventures。更戏剧化的是,这轮融资据称在 72 小时内完成。对于一家成立还不到两年的公司来说,这样的速度说明了一件事:资本市场对“视频理解 + 企业安防”这个方向的兴趣,已经从好奇变成下注。

Conntour 的核心卖点并不复杂,但很抓人:安保团队不需要一段一段回看录像,也不需要靠传统时间轴和固定标签慢慢翻,而是可以直接用自然语言提问,比如“找出昨晚 10 点后在仓库门口徘徊的人”“搜索穿红色外套、拿着大箱子进入后门的人员”“看看有没有车辆逆向驶入停车区域”。摄像头画面从“死档案”变成了“可检索的视觉数据库”。

这件事听上去像是把 ChatGPT 套在监控系统上,但它背后代表的是一个更大的趋势:视觉-语言模型正在从实验室玩具,变成安防、零售、物流、园区管理这些传统行业里的生产工具。技术一旦能帮企业省下大量人工筛查视频的时间,它就不再只是炫技,而是一个能立刻转化为预算的产品。

为什么偏偏是现在?AI 视频理解开始跨过“能演示”到“能落地”的门槛

Conntour 选的切口并不新鲜。很多安防公司、云计算厂商和边缘 AI 公司,早就想让摄像头更“聪明”。过去常见的方法是做规则识别:越线报警、区域入侵、车牌识别、人脸识别、人数统计。这些功能有效,但也很僵硬。你必须提前定义规则,告诉系统该看什么、怎么报、什么算异常。

而新一代视觉-语言模型带来的变化在于,系统不再只能识别预先设定好的固定类别。它开始具备某种“开放词汇”理解能力。通俗一点说,过去你只能在菜单里点“识别人脸”或“识别车辆”;现在你可以直接用人话描述一个场景,让模型去理解“这个画面里到底发生了什么”。这种自由度,对安保、运营、调查取证场景非常有吸引力。

这也是为什么 Conntour 这样的公司会在当下冒头。不是因为监控摄像头突然变多了——它们早就够多了——而是因为过去那些沉默堆积的视频数据,终于出现了更高效的调用方式。企业以前最大的问题不是“没有录像”,而是“录像太多,多到没有人能及时看完”。今天 AI 提供的价值,本质上是在信息过载中建立索引。

类似的逻辑,其实已经在别的行业反复上演。企业文档有了 AI 搜索,客服记录有了 AI 摘要,会议录音有了 AI 转写。现在轮到监控视频了。从商业角度看,这几乎是顺理成章的一步。对投资人来说,一个能接入现有摄像头系统、又能直接证明效率提升的安防软件,比许多只会讲大模型故事的创业项目,更容易看懂,也更容易算账。

最敏感的地方,也恰恰是它最值钱的地方

但安防视频不是普通数据。你不能因为技术很酷,就假装它只是另一个企业知识库。

Conntour 这笔融资新闻最有意思的部分,不是金额,而是它所处的背景。眼下美国监控技术行业正处在舆论高压区。一边是媒体曝光美国移民与海关执法局接入 Flock 的摄像头网络做人员监控,另一边是 Ring 因为试图强化警方索取社区视频能力而遭遇新一轮隐私质疑。问题已经不再只是“摄像头该不该装”,而是“谁可以看、可以看多久、可以基于什么理由看”。

Conntour CEO Matan Goldner 在采访中强调,公司会谨慎选择客户,并称这种谨慎是因为他们已经拿下了大客户,所以有资格挑客户。公开信息显示,其客户中包括新加坡中央肃毒局,以及一些大型政府机构和上市公司。这个表态听起来有点理想主义,也有点现实主义:一家公司当然可以说自己重视伦理,但真正决定边界的,往往不是创始人访谈里的价值观,而是合同条款、客户审计、数据留存政策,以及系统究竟允许哪些搜索。

说得再直白一点,AI 视频搜索的真正风险,不在于它“能不能找到”,而在于它“让寻找变得太容易”。过去调取监控是一件成本不低的事,要有人申请、有人导出、有人一段段看。摩擦本身就是一种边界。可一旦你能像搜邮件一样搜视频,监控体系的使用门槛就突然降低了。便利性提升的同时,滥用风险也会成倍增加。

这让我想到一个很经典的技术悖论:很多技术伤害,并不是因为系统第一次获得了某种能力,而是因为它把这项能力变得廉价、快速、规模化。人脸识别如此,位置数据如此,视频搜索恐怕也会如此。

这会是一门好生意吗?大概率是,但不会人人都能做

从商业面看,我认为 Conntour 赶上了一个不错的窗口期。企业安防是个传统、保守,但预算真实存在的市场。只要产品能嵌入现有摄像头网络,不需要客户大规模更换硬件,就有机会快速推进。尤其是在物流园区、机场、港口、工厂、赌场、商场、学校这类空间里,海量视频几乎天然适合做 AI 检索。

而且这类产品比通用 AI 应用更容易形成壁垒。原因有三层。第一,它需要处理复杂的视频流接入、权限管理、边缘推理、报警联动,与现实世界的安防系统深度耦合,不是简单做个聊天界面就行。第二,安防客户采购周期长,但一旦接入,替换成本也高。第三,模型能力只是门票,真正的差异化往往来自数据标注、场景适配、误报控制和部署经验。

当然,竞争也不会轻松。云巨头、传统安防厂商、视频分析公司,甚至一些做多模态模型的基础设施公司,迟早都会盯上这块市场。对 Conntour 这样的创业公司来说,最现实的挑战不是“有没有市场”,而是“能否在大公司下场之前,把产品真正嵌进客户流程里”。如果它只是一个炫目的搜索演示,很快会被替代;如果它能成为安保团队每天离不开的工作台,那故事就完全不一样了。

我还会特别关注它的误报率和解释性。安防行业不像社交产品,点错一个推荐最多让你烦;这里一次误判,可能意味着漏掉真实风险,或者把无辜的人卷进调查流程。自然语言搜索越自由,系统越容易因为描述模糊而产生偏差。比如“可疑人员”“异常停留”“鬼鬼祟祟”这种词,本身就带有强烈主观色彩。模型理解它们时,既可能有效,也可能危险。

真正的问题不是 AI 看见了什么,而是谁有权提问

Conntour 这类公司的出现,提醒我们安防行业正在进入一个新阶段:摄像头不只是采集设备,而是在逐步变成“视觉传感器网络”;而 AI 的角色,也不只是自动报警,而是像搜索引擎一样组织现实世界的影像。

这件事重要,是因为它会重新定义监控系统在机构中的位置。过去监控更多是“事后取证工具”,平时挂在那里,出了事再调用。未来它可能变成“实时运营与分析平台”,被更频繁地调用,用于安全、合规、人员管理、空间效率分析,甚至员工行为观察。边界一旦从安全扩展到管理,再扩展到绩效,技术的社会含义就完全不同了。

所以我最想抛出的那个问题是:当搜索现实世界变得像搜索互联网一样简单时,我们是否准备好了对应的规则?

这不只是创业公司该回答的问题,也不只是投资人该思考的问题。监管、客户、公众都得给出答案。系统是否默认记录一切?搜索日志是否留痕?谁有权限发起查询?警方或第三方机构调取视频时有没有明确限制?模型能否屏蔽某些高风险用途?这些问题如果晚于产品普及才被严肃讨论,代价往往会更高。

从记者视角看,Conntour 不是一个孤立的融资故事,它更像是一个信号弹:AI 正在把监控行业从“看得到”推进到“找得到、问得到、调得动”。技术上,这一步非常合理;社会上,这一步极其敏感。

说得轻松点,我们也许很快会生活在一个“现实世界 Ctrl+F”逐渐普及的时代。问题是,谁按下搜索键,搜索什么,搜索完之后又会发生什么。这才是整件事最该被盯紧的地方。

Summary: 我对 Conntour 的判断是:这条赛道会继续升温,而且很可能诞生不止一家有分量的公司。原因很简单,企业确实需要从海量视频里更快找到答案,AI 也终于具备了初步可用的能力。但这类产品越成功,越会把隐私、执法边界和内部滥用问题推到台前。未来两三年,真正能跑出来的玩家,不只是模型做得准的公司,更是那些能把权限、审计和伦理约束一起产品化的公司。
Conntour安防监控自然语言搜索视频理解企业安防融资摄像头隐私争议General CatalystY Combinator