OpenAI 这次用了一个很容易被误读的词:self-improving。
听起来像模型自己学习、自己改代码、自己上线。实际不是。它更像一条被栅栏圈住的生产线:会计师纠错,系统记录,评测集更新,Codex 在限定范围里改工程,最后仍然由人审核。
这件事最值得看的一点,是 OpenAI 把 agent 从“会聊天的模型”拉回了“会被纠错的系统”。在税务这种高责任场景里,能不能犯错后留下证据,比一次答对更重要。
Tax AI 做了什么,影响谁
这套 Tax AI 面向会计师,不是面向普通纳税人的一键报税工具。
试点覆盖 Crete 参与公司的 7000 份税表,主要处理 1040、1041 等报税准备流程。会计师上传客户资料和备注,系统生成可供审核的 tax engine submission。
官方给出的数字可以这样看:
| 指标 | 官方说法 | 读者该怎么理解 |
|---|---|---|
| 试点规模 | 7000 份税表 | 已进入真实税季流程,不是单纯 demo |
| 时间节省 | 约三分之一 | 节省报税准备时间,不等于替代会计师 |
| 准确率 | 最高 97% | up to,不能外推到所有税务场景 |
| 吞吐提升 | 约 50% | 对忙季有价值,但依赖审核和流程配合 |
| 字段质量 | 上线时约四分之一税表达到 75% 字段正确率,六周后提升到 86% | 重点是迭代速度,而非一次性神迹 |
早期任务偏简单,主要处理 W-2、1099 这类材料。后来进入 K-1、租赁房产 Schedule E、跨文件字段核对。越往后,任务越接近会计师真正耗时间的地方。
受影响最直接的是两类人。
会计师事务所会先把它当“准备环节的加速器”,不是当“无人报税员”。忙季里,少花三分之一准备时间,意味着同样人手能处理更多初稿。但责任没有消失。审核、判断、签字,仍在专业人员身上。
AI 产品和工程团队也该看清楚:这里的价值不在一个更长的 prompt。价值在流程里。没有业务系统接入,没有专家反馈,没有评测目标,agent 只是在空地上跑步。
自改进不是放飞,是把错误变成工程任务
Schedule E 的租赁房产案例最能说明问题。
租赁收入看起来只是填字段。实际材料可能来自手写说明、邮件、表格、去年的报税文件。系统可能漏掉 fair rental days,也可能把多套房产混在一起,还可能把“其他费用”映射错。
过去,会计师改完就结束。错误沉进流程里,下次可能还错。
现在,系统会保留三类东西:Tax AI 原本填了什么,会计师改了什么,最终申报用了什么。差异不再只是“人改过”,而是变成可分析的失败信号。
| 闭环环节 | 它解决什么问题 |
|---|---|
| 专家修正 | 区分真错误、偏好、税务判断和流程噪音 |
| 生产 traces | 记录源文件、抽取字段、引用证据和最终税表之间的路径 |
| eval target | 把反复出现的问题变成可测试目标 |
| Codex PR | 在限定代码面内调查、修改、跑回归、提交候选变更 |
这里的“自改进”很克制。
Codex 处理的是被归类、可评测、有边界的工程任务。它不是在生产系统里自由改规则,也不是绕过会计师上线结果。最终仍有人类工程师和会计师审核。
这点很关键。税务不是写营销文案,错了不能只说“再生成一次”。谁承担责任,证据链在哪里,规则变更有没有回归测试,这些才是落地门槛。
“工欲善其事,必先利其器。”这里的器,不是单个大模型。是能记录错误、能判断错误、能把错误转成工程改动的一整套环境。
真正的门槛:现场、专家和可验证环境
我更在意的是这件事背后的分水岭。
很多垂直 agent 做不起来,不是模型完全不够用。问题更具体:它没有现场。没有专家密集参与,没有真实生产轨迹,没有结构化反馈,也没有能反复跑的评测。
于是产品看起来很聪明,一进业务就发软。因为它只会回答,不会被制度化地纠错。
Crete 有 30 多家会计师事务所网络。Thrive 又是 owner-operator 结构。工程团队能贴近一线从业者、生产数据和产品流程。这个条件很硬,不是接一个 API 就能复制。
对会计师事务所来说,接下来更现实的动作不是立刻“全面 AI 化”,而是挑准备环节试点:先看哪些表单、哪些字段、哪些客户材料能稳定进入闭环。采购会更谨慎。因为节省时间是一回事,责任归属、合规边界、审计留痕,是另一回事。
对 AI 团队来说,路线也很清楚:少卖“全自动”,多建可验证流程。先把失败记录细,再把评测做实,最后才谈规模化。没有这些,agent 只是一个包装得更像产品的聊天框。
这件事还有几个观察点,不能跳过:
| 观察变量 | 为什么重要 |
|---|---|
| 准确率是否能从特定字段扩展到更复杂税务判断 | 最高 97% 不能代表所有场景 |
| 会计师审核成本是否真的下降 | 如果审核更费劲,节省时间会被吃掉 |
| 责任和合规边界如何设计 | 税务错误有现实后果,不能只看模型指标 |
| 评测集是否持续来自真实生产 | 没有新鲜现场,闭环会变成静态题库 |
这里可以拿早期工厂自动化做个短对照。不完全一样,但结构相似:机器提高产能,真正改变行业的不是第一台机器,而是围绕机器建立的工序、质检和责任分工。
Tax AI 也是这个逻辑。模型是刀。现场数据、专家判断、评测环境,才是磨刀石。
OpenAI 这次少见地把路线讲得比较实。self-improving 不是让模型开窍。是把自动化关进笼子里,让它在可测、可审、可回滚的范围内越跑越快。
报税只是场景。真正的信号是:下一代垂直 agent 的壁垒,可能不在谁的模型参数更漂亮,而在谁能拿到高质量现场,并把现场变成复利。
