一篇来自 unix.foo 的技术评论,把“Linux 桌面之年”为何迟迟不来换了一个角度:过去大家总聊驱动、Office、Adobe、游戏和电池续航,现在 AI 代理开始操作电脑,桌面系统要过另一场考试。
这场考试不是问普通人能不能用 Linux。今天的 Ubuntu、Fedora、GNOME、KDE 已经能覆盖很多日常工作。真正的问题是:机器能不能稳定理解这个桌面,并可靠执行任务。
原文用 StatCounter 的数据做锚点:2026 年 4 月,Linux 全球桌面份额约 2.99%,高于 2022 年的 2.76%,但增长很慢。这个数字不说明 Linux 桌面失败,它说明 Linux 仍然不是大众桌面的默认选项。而 AI 代理把这个老问题推到了更底层。
桌面竞争标准变了:从人好不好用,到代理能不能操作
原文提到 OpenAI Codex Computer Use 在 macOS 上不只依赖截图,还能读取前台窗口提供的“available text”,包括不在当前可见滚动区域里的内容。原文还称,它有独立鼠标,可以在后台操作 Mac,不打断用户当前使用。
这些能力的公开细节还不够多,不能直接推到商业规模或行业定论。但它至少提醒了一件事:大模型操作桌面,不只是“看图识按钮”。
更关键的是操作系统能不能把界面翻译成机器可信的结构。
按钮要知道自己是按钮。输入框要暴露文本。表格不能只是一堆无名矩形。窗口要能枚举,权限要能申请,输入要能合成,还不能让用户觉得鼠标被幽灵接管。
这就是无障碍 API 的新位置。它原本服务屏幕阅读器、语音控制和肢体障碍用户,现在也在变成 AI 代理操作桌面的底座。
对开发桌面 AI 代理的人来说,差别很具体:
- 能读到无障碍树,就可以少猜很多 UI 状态。
- 能稳定合成输入,就不必每次都模拟人类乱点。
- 权限模型清楚,企业才敢让代理进入真实办公流。
没有这些,代理不是不能做,而是成本会变高。团队要写更多适配层,测试更多桌面组合,也更难承诺稳定性。
三套桌面栈的差别,不在“有没有 API”
macOS 的优势不只是有 Accessibility API。更重要的是,开发者使用 NSButton、NSTextField、WKWebView 这类标准控件时,系统通常会自动生成质量较高的 accessibility tree。
开发者写一个正常应用,残障用户能受益,后来的 AI 代理也能受益。这里的分水岭是默认合规。
Windows 的底子也不弱。Microsoft UI Automation 有 raw、control、content 等视图,也有 InvokePattern、TextPattern、ValuePattern 等模型。它既服务辅助技术,也服务自动化测试。
问题在于 Windows 应用生态太厚。Win32、WinForms、WPF、UWP、WinUI、Electron、企业旧系统一起存在。UIA 本身可以很成熟,但具体应用未必配合。
Linux 则更像“零件都有,但整车标准难统一”。AT-SPI、Wayland portal、libei、Newton 等部件都在,但跨桌面、跨合成器、跨发行版的一致性还不够。
| 系统 | 主要基础 | 现实限制 | AI 代理会遇到什么 |
|---|---|---|---|
| macOS | 标准控件默认生成较完整的 accessibility tree | 封闭平台,规则更硬 | 更容易拿到一致的界面语义 |
| Windows | UI Automation 成熟,模式丰富 | 应用形态复杂,历史包袱重 | 接口强,但每个应用表现不一定一致 |
| Linux | AT-SPI、Wayland portal、libei、Newton 等部件存在 | 缺少跨桌面统一和强制执行 | 能做方案,难保证全生态可依赖 |
这也是很多争论容易跑偏的地方。无障碍建设不是一句“有 API”就结束了。
真正决定体验的是默认控件、开发习惯、审核压力、发行版选择和桌面项目之间的协调。接口只是入口,生态一致性才是代理敢不敢执行任务的前提。
Linux 最难补的是治理,不是单个技术点
Linux 不是没有无障碍栈。AT-SPI 运行在 D-Bus 上,GTK、Qt、Firefox、LibreOffice 都有支持。GNOME 屏幕阅读器 Orca 早在 2006 年就已投入使用。
Wayland 之后,相关部件也在继续补。屏幕捕获有 portal,输入相关有 libei,Newton 协议也在推进中。
难点在“谁来让大家都照做”。
Apple 可以用平台规则压下去。Microsoft 可以把 UIA 制度化,再靠企业市场长期消化历史包袱。Linux 社区更多依赖协商、资助和自愿采纳。
这种模式并不低级,开源世界很多基础设施就是这么长出来的。但它对桌面 AI 代理很不友好。代理需要的是可预测接口,不是每遇到一个桌面环境就重新猜一次。
最受影响的不是普通用户今天要不要换 Linux,而是两类人。
一类是桌面 AI 代理和自动化测试团队。短期更稳的做法,是把 Linux 适配拆成明确范围:支持哪些桌面、哪些发行版、哪些应用组合,别轻易承诺“Linux 全覆盖”。否则维护成本会被碎片化吃掉。
另一类是做辅助技术和企业运维工具的人。他们会更在意接口稳定性,而不是某个演示能不能跑通。如果无障碍标签、窗口枚举、输入合成和权限弹窗在不同环境里表现不一,企业采购就会倾向观望,或者先押 macOS、Windows。
接下来要看的变量也很明确。
GNOME、KDE、Wayland 相关项目能不能围绕 Newton、portal、libei 形成共同承诺。默认应用能不能逐项补齐标签和行为。发行版能不能把这些能力变成开箱即用,而不是留给用户和开发者自己拼装。
这不是一年两年的面子工程。它更像修路。路修好了,屏幕阅读器、自动化测试、企业运维、AI 代理都会用;路修得断断续续,再聪明的代理也只能绕行。
