Holo3.1 最值得看的,不是又多了几个 benchmark 数字。
更关键的是,它开始认真回答一个更现实的问题:这个 GUI Agent 到底跑在哪里,接到什么框架里,数据要不要出用户网络。
H Company 发布的 Holo3.1,是一组计算机使用代理模型。它基于 Qwen 家族,覆盖 Web、桌面、移动、多代理框架和本地部署。换句话说,重点不再只是“会不会点按钮、填表、操作界面”,而是能不能离开演示环境,进到企业和个人设备里干活。
Holo3.1 更新了什么:四个尺寸,重点押在移动端和本地部署
Holo3.1 有四个尺寸:0.8B、4B、9B、35B-A3B。
这个组合很直接。小模型管成本和本地可用性,大模型管性能上限。对开发者来说,这比单发一个大模型更有用,因为真实 Agent 项目很少只问“谁最强”,更多是在问“我这台机器、这个延迟、这个预算能不能跑”。
| 维度 | Holo3.1 的变化 | 对读者的实际影响 |
|---|---|---|
| 模型尺寸 | 0.8B、4B、9B、35B-A3B | 开发者可以按成本、延迟、硬件做取舍 |
| 移动端表现 | 官方称 AndroidWorld 上 35B-A3B 从 67% 提到 79.3%;4B/9B 从 58% 提到 72% | GUI Agent 不再只盯浏览器和桌面,移动端开始变成主战场之一 |
| Agent 接入 | 新增原生 function-calling,同时支持 structured JSON 输出 | 更容易接入不同 agent harness,减少格式适配成本 |
| 本地部署 | 首次发布 FP8、Q4 GGUF、NVFP4 量化 checkpoint | 私有化部署、端侧自动化更现实,但不等于所有机器都能满血跑 |
| 推理效率 | 官方称 DGX Spark 上 NVFP4 token throughput 是 FP8 的 1.41 倍、BF16 的 1.74 倍 | 有利于降低部署成本,但吞吐提升不等于端到端体验必然等比例提升 |
还有一个端到端数字:按官方材料,配合 agent harness 优化,平均 step time 从 6.8 秒降到 3.3 秒。
这里要把边界放清楚。
这些数据来自官方披露或内部 benchmark。它们说明 Holo3.1 在特定 GUI / agent 测试和部署优化上有进展,不等于已经稳定替代人类操作员,也不等于是通用 AGI。
token throughput、request rate、step time 也不是一回事。吞吐更高,通常有利于成本和响应,但用户最后感受到的是完整任务能不能稳、错了能不能恢复、权限会不会乱用。
为什么重要:GUI Agent 的难点不是会点,而是换环境不崩
过去一年,Computer Use Agent 的演示都很好看。
打开网页,点菜单,填订单,操作办公软件。视频里很顺,demo 里很像未来。
真实环境不是这样。
网页布局一改,可能失败。系统弹窗不一样,可能失败。手机和桌面的控件分布不同,可能失败。换一个 agent 框架,输出格式对不上,也可能失败。企业再补一句“数据不能出内网”,云端调用就卡在合规门口。
所以 Holo3.1 里真正要看的,是那些不太好讲故事的部分:移动端迁移、function-calling、量化权重、本地或同网络部署。
这些不是包装,是生产化的地基。
Agent 从 demo 到生产,中间隔着延迟、成本、权限、隐私、日志、失败恢复和设备差异。一个模型在榜单上更强,不代表产品就更实。很多时候,模型越强,产品反而越容易把复杂性藏起来,直到上线后集中爆雷。
对两类人影响最大。
一类是做 Agent 落地的开发者和技术负责人。Holo3.1 这种多尺寸路线,会让团队更愿意先用小模型或量化版本做原型,再决定是否上 35B-A3B 或更强硬件。采购和迁移不会只看分数,会看延迟、部署方式、框架适配和失败成本。
另一类是关心本地 AI 的高级用户和企业客户。他们不会因为一个移动端分数提升就立刻换栈,但会开始把“能否本地跑、能否同网络部署、数据是否出网”列进评估表。以前这是加分项,现在越来越像入场券。
目前材料里没有足够信息支撑几个问题:具体开源许可、下载入口、不同硬件下的完整体验曲线。没有这些,谨慎的团队不会立刻大规模迁移。更合理的动作,是先做小规模验证:看自家软件界面、权限系统、内网环境和日志合规能不能接住。
本地代理不是情怀,是设备控制权
我更在意 Holo3.1 的本地部署叙事。
官方说法是:agent 可以跑在 Windows 或 Mac 本地,模型可以在同一台机器上,也可以在同一网络里的 DGX Spark 上运行,数据不出用户网络。
这句话很关键,但不能夸大。
35B-A3B 想高性能本地跑,仍然依赖较强硬件。消费级部署更现实的选择,是 Q4 GGUF 和小模型。它不是“人人笔记本满血跑智能体”的故事。
但方向是对的。
企业为什么不愿意把 GUI Agent 全交给云?因为它操作的不是普通聊天记录,而是内部系统、财务页面、客户资料、权限入口。一个云端模型代替员工点公司系统,产品经理说是效率,合规部门看到的是风险清单。
个人设备也一样。
一个真正有用的本地 agent,迟早会碰到浏览器、邮箱、文件、日历、密码管理器。谁掌握运行位置,谁就更接近边界控制权。
“天下熙熙,皆为利来。”放到 Agent 这里并不突兀。厂商当然希望把推理、接口、日志、分发都收进云里;企业和用户则会把敏感任务往本地和内网拉。双方都讲安全,背后还有成本、控制权和利润分配。
这有点像早年的企业软件上云。云当然提高效率,也降低维护门槛。但一旦碰到核心数据、权限系统和监管要求,私有化、混合部署、专有硬件就会重新回来。历史不完全一样,但利益结构很像:技术越接近核心流程,部署位置就越不只是技术选择。
Holo3.1 不会立刻改写行业。它目前更像把分水岭摆明了。
GUI Agent 以后不能只报一个榜单分数。接下来更该看四件事:跨设备任务成功率、真实框架适配成本、本地硬件门槛、私有网络里的稳定性。
如果这些过不了,跑分再好,也只是样板间。
