Holo3.1 最值得看的,不是又多了几个 benchmark 数字。

更关键的是,它开始认真回答一个更现实的问题:这个 GUI Agent 到底跑在哪里,接到什么框架里,数据要不要出用户网络。

H Company 发布的 Holo3.1,是一组计算机使用代理模型。它基于 Qwen 家族,覆盖 Web、桌面、移动、多代理框架和本地部署。换句话说,重点不再只是“会不会点按钮、填表、操作界面”,而是能不能离开演示环境,进到企业和个人设备里干活。

Holo3.1 更新了什么:四个尺寸,重点押在移动端和本地部署

Holo3.1 有四个尺寸:0.8B、4B、9B、35B-A3B。

这个组合很直接。小模型管成本和本地可用性,大模型管性能上限。对开发者来说,这比单发一个大模型更有用,因为真实 Agent 项目很少只问“谁最强”,更多是在问“我这台机器、这个延迟、这个预算能不能跑”。

维度Holo3.1 的变化对读者的实际影响
模型尺寸0.8B、4B、9B、35B-A3B开发者可以按成本、延迟、硬件做取舍
移动端表现官方称 AndroidWorld 上 35B-A3B 从 67% 提到 79.3%;4B/9B 从 58% 提到 72%GUI Agent 不再只盯浏览器和桌面,移动端开始变成主战场之一
Agent 接入新增原生 function-calling,同时支持 structured JSON 输出更容易接入不同 agent harness,减少格式适配成本
本地部署首次发布 FP8、Q4 GGUF、NVFP4 量化 checkpoint私有化部署、端侧自动化更现实,但不等于所有机器都能满血跑
推理效率官方称 DGX Spark 上 NVFP4 token throughput 是 FP8 的 1.41 倍、BF16 的 1.74 倍有利于降低部署成本,但吞吐提升不等于端到端体验必然等比例提升

还有一个端到端数字:按官方材料,配合 agent harness 优化,平均 step time 从 6.8 秒降到 3.3 秒。

这里要把边界放清楚。

这些数据来自官方披露或内部 benchmark。它们说明 Holo3.1 在特定 GUI / agent 测试和部署优化上有进展,不等于已经稳定替代人类操作员,也不等于是通用 AGI。

token throughput、request rate、step time 也不是一回事。吞吐更高,通常有利于成本和响应,但用户最后感受到的是完整任务能不能稳、错了能不能恢复、权限会不会乱用。

为什么重要:GUI Agent 的难点不是会点,而是换环境不崩

过去一年,Computer Use Agent 的演示都很好看。

打开网页,点菜单,填订单,操作办公软件。视频里很顺,demo 里很像未来。

真实环境不是这样。

网页布局一改,可能失败。系统弹窗不一样,可能失败。手机和桌面的控件分布不同,可能失败。换一个 agent 框架,输出格式对不上,也可能失败。企业再补一句“数据不能出内网”,云端调用就卡在合规门口。

所以 Holo3.1 里真正要看的,是那些不太好讲故事的部分:移动端迁移、function-calling、量化权重、本地或同网络部署。

这些不是包装,是生产化的地基。

Agent 从 demo 到生产,中间隔着延迟、成本、权限、隐私、日志、失败恢复和设备差异。一个模型在榜单上更强,不代表产品就更实。很多时候,模型越强,产品反而越容易把复杂性藏起来,直到上线后集中爆雷。

对两类人影响最大。

一类是做 Agent 落地的开发者和技术负责人。Holo3.1 这种多尺寸路线,会让团队更愿意先用小模型或量化版本做原型,再决定是否上 35B-A3B 或更强硬件。采购和迁移不会只看分数,会看延迟、部署方式、框架适配和失败成本。

另一类是关心本地 AI 的高级用户和企业客户。他们不会因为一个移动端分数提升就立刻换栈,但会开始把“能否本地跑、能否同网络部署、数据是否出网”列进评估表。以前这是加分项,现在越来越像入场券。

目前材料里没有足够信息支撑几个问题:具体开源许可、下载入口、不同硬件下的完整体验曲线。没有这些,谨慎的团队不会立刻大规模迁移。更合理的动作,是先做小规模验证:看自家软件界面、权限系统、内网环境和日志合规能不能接住。

本地代理不是情怀,是设备控制权

我更在意 Holo3.1 的本地部署叙事。

官方说法是:agent 可以跑在 Windows 或 Mac 本地,模型可以在同一台机器上,也可以在同一网络里的 DGX Spark 上运行,数据不出用户网络。

这句话很关键,但不能夸大。

35B-A3B 想高性能本地跑,仍然依赖较强硬件。消费级部署更现实的选择,是 Q4 GGUF 和小模型。它不是“人人笔记本满血跑智能体”的故事。

但方向是对的。

企业为什么不愿意把 GUI Agent 全交给云?因为它操作的不是普通聊天记录,而是内部系统、财务页面、客户资料、权限入口。一个云端模型代替员工点公司系统,产品经理说是效率,合规部门看到的是风险清单。

个人设备也一样。

一个真正有用的本地 agent,迟早会碰到浏览器、邮箱、文件、日历、密码管理器。谁掌握运行位置,谁就更接近边界控制权。

“天下熙熙,皆为利来。”放到 Agent 这里并不突兀。厂商当然希望把推理、接口、日志、分发都收进云里;企业和用户则会把敏感任务往本地和内网拉。双方都讲安全,背后还有成本、控制权和利润分配。

这有点像早年的企业软件上云。云当然提高效率,也降低维护门槛。但一旦碰到核心数据、权限系统和监管要求,私有化、混合部署、专有硬件就会重新回来。历史不完全一样,但利益结构很像:技术越接近核心流程,部署位置就越不只是技术选择。

Holo3.1 不会立刻改写行业。它目前更像把分水岭摆明了。

GUI Agent 以后不能只报一个榜单分数。接下来更该看四件事:跨设备任务成功率、真实框架适配成本、本地硬件门槛、私有网络里的稳定性。

如果这些过不了,跑分再好,也只是样板间。