OpenAI 做报税 AI：真正值钱的不是会填表，而是会被纠错

核心摘要 Summary

OpenAI、Thrive 和 Crete 用 Codex 做了一套面向会计师的 Tax AI，试点覆盖 7000 份税表，官方称可节省约三分之一报税准备时间。
关键不在“AI 自动报税”，而在它把会计师修正、生产轨迹、评测目标和工程改动串成闭环。
对 AI 产品团队来说，这比单纯堆模型更现实：没有专家现场和可验证环境，agent 很难真正落地。

OpenAI 这次用了一个很容易被误读的词：self-improving。

听起来像模型自己学习、自己改代码、自己上线。实际不是。它更像一条被栅栏圈住的生产线：会计师纠错，系统记录，评测集更新，Codex 在限定范围里改工程，最后仍然由人审核。

这件事最值得看的一点，是 OpenAI 把 agent 从“会聊天的模型”拉回了“会被纠错的系统”。在税务这种高责任场景里，能不能犯错后留下证据，比一次答对更重要。

Tax AI 做了什么，影响谁

这套 Tax AI 面向会计师，不是面向普通纳税人的一键报税工具。

试点覆盖 Crete 参与公司的 7000 份税表，主要处理 1040、1041 等报税准备流程。会计师上传客户资料和备注，系统生成可供审核的 tax engine submission。

官方给出的数字可以这样看：

指标	官方说法	读者该怎么理解
试点规模	7000 份税表	已进入真实税季流程，不是单纯 demo
时间节省	约三分之一	节省报税准备时间，不等于替代会计师
准确率	最高 97%	up to，不能外推到所有税务场景
吞吐提升	约 50%	对忙季有价值，但依赖审核和流程配合
字段质量	上线时约四分之一税表达到 75% 字段正确率，六周后提升到 86%	重点是迭代速度，而非一次性神迹

早期任务偏简单，主要处理 W-2、1099 这类材料。后来进入 K-1、租赁房产 Schedule E、跨文件字段核对。越往后，任务越接近会计师真正耗时间的地方。

受影响最直接的是两类人。

会计师事务所会先把它当“准备环节的加速器”，不是当“无人报税员”。忙季里，少花三分之一准备时间，意味着同样人手能处理更多初稿。但责任没有消失。审核、判断、签字，仍在专业人员身上。

AI 产品和工程团队也该看清楚：这里的价值不在一个更长的 prompt。价值在流程里。没有业务系统接入，没有专家反馈，没有评测目标，agent 只是在空地上跑步。

自改进不是放飞，是把错误变成工程任务

Schedule E 的租赁房产案例最能说明问题。

租赁收入看起来只是填字段。实际材料可能来自手写说明、邮件、表格、去年的报税文件。系统可能漏掉 fair rental days，也可能把多套房产混在一起，还可能把“其他费用”映射错。

过去，会计师改完就结束。错误沉进流程里，下次可能还错。

现在，系统会保留三类东西：Tax AI 原本填了什么，会计师改了什么，最终申报用了什么。差异不再只是“人改过”，而是变成可分析的失败信号。

闭环环节	它解决什么问题
专家修正	区分真错误、偏好、税务判断和流程噪音
生产 traces	记录源文件、抽取字段、引用证据和最终税表之间的路径
eval target	把反复出现的问题变成可测试目标
Codex PR	在限定代码面内调查、修改、跑回归、提交候选变更

这里的“自改进”很克制。

Codex 处理的是被归类、可评测、有边界的工程任务。它不是在生产系统里自由改规则，也不是绕过会计师上线结果。最终仍有人类工程师和会计师审核。

这点很关键。税务不是写营销文案，错了不能只说“再生成一次”。谁承担责任，证据链在哪里，规则变更有没有回归测试，这些才是落地门槛。

“工欲善其事，必先利其器。”这里的器，不是单个大模型。是能记录错误、能判断错误、能把错误转成工程改动的一整套环境。

真正的门槛：现场、专家和可验证环境

我更在意的是这件事背后的分水岭。

很多垂直 agent 做不起来，不是模型完全不够用。问题更具体：它没有现场。没有专家密集参与，没有真实生产轨迹，没有结构化反馈，也没有能反复跑的评测。

于是产品看起来很聪明，一进业务就发软。因为它只会回答，不会被制度化地纠错。

Crete 有 30 多家会计师事务所网络。Thrive 又是 owner-operator 结构。工程团队能贴近一线从业者、生产数据和产品流程。这个条件很硬，不是接一个 API 就能复制。

对会计师事务所来说，接下来更现实的动作不是立刻“全面 AI 化”，而是挑准备环节试点：先看哪些表单、哪些字段、哪些客户材料能稳定进入闭环。采购会更谨慎。因为节省时间是一回事，责任归属、合规边界、审计留痕，是另一回事。

对 AI 团队来说，路线也很清楚：少卖“全自动”，多建可验证流程。先把失败记录细，再把评测做实，最后才谈规模化。没有这些，agent 只是一个包装得更像产品的聊天框。

这件事还有几个观察点，不能跳过：

观察变量	为什么重要
准确率是否能从特定字段扩展到更复杂税务判断	最高 97% 不能代表所有场景
会计师审核成本是否真的下降	如果审核更费劲，节省时间会被吃掉
责任和合规边界如何设计	税务错误有现实后果，不能只看模型指标
评测集是否持续来自真实生产	没有新鲜现场，闭环会变成静态题库

这里可以拿早期工厂自动化做个短对照。不完全一样，但结构相似：机器提高产能，真正改变行业的不是第一台机器，而是围绕机器建立的工序、质检和责任分工。

Tax AI 也是这个逻辑。模型是刀。现场数据、专家判断、评测环境，才是磨刀石。

OpenAI 这次少见地把路线讲得比较实。self-improving 不是让模型开窍。是把自动化关进笼子里，让它在可测、可审、可回滚的范围内越跑越快。

报税只是场景。真正的信号是：下一代垂直 agent 的壁垒，可能不在谁的模型参数更漂亮，而在谁能拿到高质量现场，并把现场变成复利。

OpenAI 做报税 AI：真正值钱的不是会填表，而是会被纠错

报税AI

产品定位

试点规模

闭环机制

专家修正

自改进边界

人类审核

落地门槛

专家现场

Tax AI 做了什么，影响谁

自改进不是放飞，是把错误变成工程任务

真正的门槛：现场、专家和可验证环境