Holo3.1 的重点不是跑分，是 GUI Agent 开始算部署账

核心摘要 Summary

H Company 发布 Holo3.1 计算机使用代理模型家族，基于 Qwen，覆盖 0.8B、4B、9B、35B-A3B 四个尺寸。
官方数据里，AndroidWorld 表现明显提升，并首次提供 FP8、Q4 GGUF、NVFP4 量化 checkpoint。
真正的信号是：GUI Agent 的竞争正在从“演示能不能跑”，转向“能不能在真实设备、真实框架、真实隐私约束下跑”。

Holo3.1 最值得看的，不是又多了几个 benchmark 数字。

更关键的是，它开始认真回答一个更现实的问题：这个 GUI Agent 到底跑在哪里，接到什么框架里，数据要不要出用户网络。

H Company 发布的 Holo3.1，是一组计算机使用代理模型。它基于 Qwen 家族，覆盖 Web、桌面、移动、多代理框架和本地部署。换句话说，重点不再只是“会不会点按钮、填表、操作界面”，而是能不能离开演示环境，进到企业和个人设备里干活。

Holo3.1 更新了什么：四个尺寸，重点押在移动端和本地部署

Holo3.1 有四个尺寸：0.8B、4B、9B、35B-A3B。

这个组合很直接。小模型管成本和本地可用性，大模型管性能上限。对开发者来说，这比单发一个大模型更有用，因为真实 Agent 项目很少只问“谁最强”，更多是在问“我这台机器、这个延迟、这个预算能不能跑”。

维度	Holo3.1 的变化	对读者的实际影响
模型尺寸	0.8B、4B、9B、35B-A3B	开发者可以按成本、延迟、硬件做取舍
移动端表现	官方称 AndroidWorld 上 35B-A3B 从 67% 提到 79.3%；4B/9B 从 58% 提到 72%	GUI Agent 不再只盯浏览器和桌面，移动端开始变成主战场之一
Agent 接入	新增原生 function-calling，同时支持 structured JSON 输出	更容易接入不同 agent harness，减少格式适配成本
本地部署	首次发布 FP8、Q4 GGUF、NVFP4 量化 checkpoint	私有化部署、端侧自动化更现实，但不等于所有机器都能满血跑
推理效率	官方称 DGX Spark 上 NVFP4 token throughput 是 FP8 的 1.41 倍、BF16 的 1.74 倍	有利于降低部署成本，但吞吐提升不等于端到端体验必然等比例提升

还有一个端到端数字：按官方材料，配合 agent harness 优化，平均 step time 从 6.8 秒降到 3.3 秒。

这里要把边界放清楚。

这些数据来自官方披露或内部 benchmark。它们说明 Holo3.1 在特定 GUI / agent 测试和部署优化上有进展，不等于已经稳定替代人类操作员，也不等于是通用 AGI。

token throughput、request rate、step time 也不是一回事。吞吐更高，通常有利于成本和响应，但用户最后感受到的是完整任务能不能稳、错了能不能恢复、权限会不会乱用。

为什么重要：GUI Agent 的难点不是会点，而是换环境不崩

过去一年，Computer Use Agent 的演示都很好看。

打开网页，点菜单，填订单，操作办公软件。视频里很顺，demo 里很像未来。

真实环境不是这样。

网页布局一改，可能失败。系统弹窗不一样，可能失败。手机和桌面的控件分布不同，可能失败。换一个 agent 框架，输出格式对不上，也可能失败。企业再补一句“数据不能出内网”，云端调用就卡在合规门口。

所以 Holo3.1 里真正要看的，是那些不太好讲故事的部分：移动端迁移、function-calling、量化权重、本地或同网络部署。

这些不是包装，是生产化的地基。

Agent 从 demo 到生产，中间隔着延迟、成本、权限、隐私、日志、失败恢复和设备差异。一个模型在榜单上更强，不代表产品就更实。很多时候，模型越强，产品反而越容易把复杂性藏起来，直到上线后集中爆雷。

对两类人影响最大。

一类是做 Agent 落地的开发者和技术负责人。Holo3.1 这种多尺寸路线，会让团队更愿意先用小模型或量化版本做原型，再决定是否上 35B-A3B 或更强硬件。采购和迁移不会只看分数，会看延迟、部署方式、框架适配和失败成本。

另一类是关心本地 AI 的高级用户和企业客户。他们不会因为一个移动端分数提升就立刻换栈，但会开始把“能否本地跑、能否同网络部署、数据是否出网”列进评估表。以前这是加分项，现在越来越像入场券。

目前材料里没有足够信息支撑几个问题：具体开源许可、下载入口、不同硬件下的完整体验曲线。没有这些，谨慎的团队不会立刻大规模迁移。更合理的动作，是先做小规模验证：看自家软件界面、权限系统、内网环境和日志合规能不能接住。

本地代理不是情怀，是设备控制权

我更在意 Holo3.1 的本地部署叙事。

官方说法是：agent 可以跑在 Windows 或 Mac 本地，模型可以在同一台机器上，也可以在同一网络里的 DGX Spark 上运行，数据不出用户网络。

这句话很关键，但不能夸大。

35B-A3B 想高性能本地跑，仍然依赖较强硬件。消费级部署更现实的选择，是 Q4 GGUF 和小模型。它不是“人人笔记本满血跑智能体”的故事。

但方向是对的。

企业为什么不愿意把 GUI Agent 全交给云？因为它操作的不是普通聊天记录，而是内部系统、财务页面、客户资料、权限入口。一个云端模型代替员工点公司系统，产品经理说是效率，合规部门看到的是风险清单。

个人设备也一样。

一个真正有用的本地 agent，迟早会碰到浏览器、邮箱、文件、日历、密码管理器。谁掌握运行位置，谁就更接近边界控制权。

“天下熙熙，皆为利来。”放到 Agent 这里并不突兀。厂商当然希望把推理、接口、日志、分发都收进云里；企业和用户则会把敏感任务往本地和内网拉。双方都讲安全，背后还有成本、控制权和利润分配。

这有点像早年的企业软件上云。云当然提高效率，也降低维护门槛。但一旦碰到核心数据、权限系统和监管要求，私有化、混合部署、专有硬件就会重新回来。历史不完全一样，但利益结构很像：技术越接近核心流程，部署位置就越不只是技术选择。

Holo3.1 不会立刻改写行业。它目前更像把分水岭摆明了。

GUI Agent 以后不能只报一个榜单分数。接下来更该看四件事：跨设备任务成功率、真实框架适配成本、本地硬件门槛、私有网络里的稳定性。

如果这些过不了，跑分再好，也只是样板间。

Holo3.1 的重点不是跑分，是 GUI Agent 开始算部署账

Holo3.1

多尺寸路线

移动增强

接入生产

框架适配

真实约束

设备差异

本地内网

企业敏感

Holo3.1 更新了什么：四个尺寸，重点押在移动端和本地部署

为什么重要：GUI Agent 的难点不是会点，而是换环境不崩

本地代理不是情怀，是设备控制权