当监控也能“搜一搜”：Conntour 融资 700 万美元，把安防摄像头变成自然语言搜索引擎

核心摘要 Summary

安防行业正处在一个微妙时刻：AI 让摄像头“看懂世界”的能力突飞猛进，但隐私争议也同步放大。
Conntour 拿到 700 万美元种子轮融资，想把海量监控画面变成可用自然语言检索的数据库，这既是一个很现实的企业需求，也是一场关于边界、权力和责任的技术考题。

监控行业的新剧本：不是多装摄像头，而是让视频“能被搜索”

如果说过去十年安防行业做的事，是把越来越多的摄像头挂到天花板、街角和出入口；那么现在，行业的野心已经变成另一件事：让这些摄像头拍下来的内容，像 Google 搜网页一样被搜索。

美国初创公司 Conntour 想做的，正是这样一套系统。它最近宣布拿到 700 万美元种子轮融资，投资方包括 General Catalyst、Y Combinator、SV Angel 和 Liquid 2 Ventures。更戏剧化的是，这轮融资据称在 72 小时内完成。对于一家成立还不到两年的公司来说，这样的速度说明了一件事：资本市场对“视频理解 + 企业安防”这个方向的兴趣，已经从好奇变成下注。

Conntour 的核心卖点并不复杂，但很抓人：安保团队不需要一段一段回看录像，也不需要靠传统时间轴和固定标签慢慢翻，而是可以直接用自然语言提问，比如“找出昨晚 10 点后在仓库门口徘徊的人”“搜索穿红色外套、拿着大箱子进入后门的人员”“看看有没有车辆逆向驶入停车区域”。摄像头画面从“死档案”变成了“可检索的视觉数据库”。

这件事听上去像是把 ChatGPT 套在监控系统上，但它背后代表的是一个更大的趋势：视觉-语言模型正在从实验室玩具，变成安防、零售、物流、园区管理这些传统行业里的生产工具。技术一旦能帮企业省下大量人工筛查视频的时间，它就不再只是炫技，而是一个能立刻转化为预算的产品。

为什么偏偏是现在？AI 视频理解开始跨过“能演示”到“能落地”的门槛

Conntour 选的切口并不新鲜。很多安防公司、云计算厂商和边缘 AI 公司，早就想让摄像头更“聪明”。过去常见的方法是做规则识别：越线报警、区域入侵、车牌识别、人脸识别、人数统计。这些功能有效，但也很僵硬。你必须提前定义规则，告诉系统该看什么、怎么报、什么算异常。

而新一代视觉-语言模型带来的变化在于，系统不再只能识别预先设定好的固定类别。它开始具备某种“开放词汇”理解能力。通俗一点说，过去你只能在菜单里点“识别人脸”或“识别车辆”；现在你可以直接用人话描述一个场景，让模型去理解“这个画面里到底发生了什么”。这种自由度，对安保、运营、调查取证场景非常有吸引力。

这也是为什么 Conntour 这样的公司会在当下冒头。不是因为监控摄像头突然变多了——它们早就够多了——而是因为过去那些沉默堆积的视频数据，终于出现了更高效的调用方式。企业以前最大的问题不是“没有录像”，而是“录像太多，多到没有人能及时看完”。今天 AI 提供的价值，本质上是在信息过载中建立索引。

类似的逻辑，其实已经在别的行业反复上演。企业文档有了 AI 搜索，客服记录有了 AI 摘要，会议录音有了 AI 转写。现在轮到监控视频了。从商业角度看，这几乎是顺理成章的一步。对投资人来说，一个能接入现有摄像头系统、又能直接证明效率提升的安防软件，比许多只会讲大模型故事的创业项目，更容易看懂，也更容易算账。

最敏感的地方，也恰恰是它最值钱的地方

但安防视频不是普通数据。你不能因为技术很酷，就假装它只是另一个企业知识库。

Conntour 这笔融资新闻最有意思的部分，不是金额，而是它所处的背景。眼下美国监控技术行业正处在舆论高压区。一边是媒体曝光美国移民与海关执法局接入 Flock 的摄像头网络做人员监控，另一边是 Ring 因为试图强化警方索取社区视频能力而遭遇新一轮隐私质疑。问题已经不再只是“摄像头该不该装”，而是“谁可以看、可以看多久、可以基于什么理由看”。

Conntour CEO Matan Goldner 在采访中强调，公司会谨慎选择客户，并称这种谨慎是因为他们已经拿下了大客户，所以有资格挑客户。公开信息显示，其客户中包括新加坡中央肃毒局，以及一些大型政府机构和上市公司。这个表态听起来有点理想主义，也有点现实主义：一家公司当然可以说自己重视伦理，但真正决定边界的，往往不是创始人访谈里的价值观，而是合同条款、客户审计、数据留存政策，以及系统究竟允许哪些搜索。

说得再直白一点，AI 视频搜索的真正风险，不在于它“能不能找到”，而在于它“让寻找变得太容易”。过去调取监控是一件成本不低的事，要有人申请、有人导出、有人一段段看。摩擦本身就是一种边界。可一旦你能像搜邮件一样搜视频，监控体系的使用门槛就突然降低了。便利性提升的同时，滥用风险也会成倍增加。

这让我想到一个很经典的技术悖论：很多技术伤害，并不是因为系统第一次获得了某种能力，而是因为它把这项能力变得廉价、快速、规模化。人脸识别如此，位置数据如此，视频搜索恐怕也会如此。

这会是一门好生意吗？大概率是，但不会人人都能做

从商业面看，我认为 Conntour 赶上了一个不错的窗口期。企业安防是个传统、保守，但预算真实存在的市场。只要产品能嵌入现有摄像头网络，不需要客户大规模更换硬件，就有机会快速推进。尤其是在物流园区、机场、港口、工厂、赌场、商场、学校这类空间里，海量视频几乎天然适合做 AI 检索。

而且这类产品比通用 AI 应用更容易形成壁垒。原因有三层。第一，它需要处理复杂的视频流接入、权限管理、边缘推理、报警联动，与现实世界的安防系统深度耦合，不是简单做个聊天界面就行。第二，安防客户采购周期长，但一旦接入，替换成本也高。第三，模型能力只是门票，真正的差异化往往来自数据标注、场景适配、误报控制和部署经验。

当然，竞争也不会轻松。云巨头、传统安防厂商、视频分析公司，甚至一些做多模态模型的基础设施公司，迟早都会盯上这块市场。对 Conntour 这样的创业公司来说，最现实的挑战不是“有没有市场”，而是“能否在大公司下场之前，把产品真正嵌进客户流程里”。如果它只是一个炫目的搜索演示，很快会被替代；如果它能成为安保团队每天离不开的工作台，那故事就完全不一样了。

我还会特别关注它的误报率和解释性。安防行业不像社交产品，点错一个推荐最多让你烦；这里一次误判，可能意味着漏掉真实风险，或者把无辜的人卷进调查流程。自然语言搜索越自由，系统越容易因为描述模糊而产生偏差。比如“可疑人员”“异常停留”“鬼鬼祟祟”这种词，本身就带有强烈主观色彩。模型理解它们时，既可能有效，也可能危险。

真正的问题不是 AI 看见了什么，而是谁有权提问

Conntour 这类公司的出现，提醒我们安防行业正在进入一个新阶段：摄像头不只是采集设备，而是在逐步变成“视觉传感器网络”；而 AI 的角色，也不只是自动报警，而是像搜索引擎一样组织现实世界的影像。

这件事重要，是因为它会重新定义监控系统在机构中的位置。过去监控更多是“事后取证工具”，平时挂在那里，出了事再调用。未来它可能变成“实时运营与分析平台”，被更频繁地调用，用于安全、合规、人员管理、空间效率分析，甚至员工行为观察。边界一旦从安全扩展到管理，再扩展到绩效，技术的社会含义就完全不同了。

所以我最想抛出的那个问题是：当搜索现实世界变得像搜索互联网一样简单时，我们是否准备好了对应的规则？

这不只是创业公司该回答的问题，也不只是投资人该思考的问题。监管、客户、公众都得给出答案。系统是否默认记录一切？搜索日志是否留痕？谁有权限发起查询？警方或第三方机构调取视频时有没有明确限制？模型能否屏蔽某些高风险用途？这些问题如果晚于产品普及才被严肃讨论，代价往往会更高。

从记者视角看，Conntour 不是一个孤立的融资故事，它更像是一个信号弹：AI 正在把监控行业从“看得到”推进到“找得到、问得到、调得动”。技术上，这一步非常合理；社会上，这一步极其敏感。

说得轻松点，我们也许很快会生活在一个“现实世界 Ctrl+F”逐渐普及的时代。问题是，谁按下搜索键，搜索什么，搜索完之后又会发生什么。这才是整件事最该被盯紧的地方。

当监控也能“搜一搜”：Conntour 融资 700 万美元，把安防摄像头变成自然语言搜索引擎

监控变搜索

技术突破

交互变革

能力升级

商业前景

客户优势

行业壁垒

潜在竞争

技术隐患

隐私争议

权力下放

边界扩张

合规约束

监控行业的新剧本：不是多装摄像头，而是让视频“能被搜索”

为什么偏偏是现在？AI 视频理解开始跨过“能演示”到“能落地”的门槛

最敏感的地方，也恰恰是它最值钱的地方

这会是一门好生意吗？大概率是，但不会人人都能做

真正的问题不是 AI 看见了什么，而是谁有权提问