Aphyr 再谈 AI 员工：真正会扩张的，可能是给模型兜底的岗位

核心摘要 Summary

程序员兼技术评论作者 Aphyr 继续批评“AI 员工”叙事：问题不只在模型失控，也在公司把不成熟的系统当成可直接替代人的劳动力。
新文章补强了一个更现实的判断：AI 未必让工作消失，反而会制造一批围绕提示、质检、训练、追责和事故解释的新岗位，只是这些岗位很多是在替模型收拾残局。

Aphyr 对“AI 员工”的批评，原本指向一个很直接的风险：公司太早相信自动化叙事，把人裁掉，再把尚不稳定的大模型塞进业务流程。风险并不只来自科幻式的“AI 失控”，更来自组织管理里的急躁：把模型当同事、当客服、当分析师、当程序员，却没有配套的审核、责任和纠错机制。

他在《The Future of Everything Is Lies, I Guess: New Jobs》里把这个判断往前推了一步。相比单纯批评“AI 员工”这个包装，新文章补强的是职业分工这一层：当企业真的开始用大模型替代或压缩岗位，消失的未必是劳动本身，而是原来那套清楚的岗位边界。人会被重新塞进机器流程的缝隙里，去做模型不会做、不稳定做、出错后必须有人负责的活。

这让问题变得更具体。AI 带来的冲击，不只是“会不会抢工作”，而是“谁被裁掉，谁被留下来查错，谁被迫签字，谁在后台训练下一代替代工具”。

新增的关键判断：AI 不只替代岗位，也制造兜底岗位

Aphyr 在文中列出了一组带讽刺意味的新职业：提示“咒术师”、流程工程师、统计工程师、模型训练师、“肉盾”和“占卜师”。这些名字像段子，但对应的都是大模型落地后的真实麻烦：输出不稳定、幻觉难查、训练数据变脏、事故责任不清、审计成本上升。

这补上了“AI 员工”叙事里常被省略的一块成本。企业宣传里，AI 员工通常被描述成低成本、全天候、可扩展的生产力。可一旦进入法律、金融、医疗、媒体、客服和内部运营，模型生成内容只是第一步。更重的工作在后面：核对来源、检查逻辑、判断合规、记录过程、解释错误。

所以，Aphyr 的新文章并没有推翻他此前对自动化的警惕，反而把它落到了组织结构上。早裁人不是唯一风险。更隐蔽的风险是，公司以为自己省掉了人力，实际只是把专业劳动从“前端生产”挪到了“后端补救”。

生成越便宜，验证越贵。这是大模型商业化里很难绕开的账。

“提示咒术师”走红，说明模型还不是稳定工具

Aphyr 写到的“咒术师”，指的是那些擅长和大模型打交道的人。他们研究怎么写提示词，怎么安排上下文，怎么把复杂任务拆开，怎么让模型少跑偏。

这个说法刺耳，但并不离谱。过去两年，“提示工程”之所以被企业认真对待，原因很简单：大模型不像传统软件那样稳定。相同目标，换一种措辞、换一段上下文、换一种输出格式，结果都可能变。很多团队不是在调用一个可靠工具，而是在驯服一个概率系统。

这对企业客户影响最大。想把 AI 接进真实业务，不能只买模型接口，还要有人设计工作流：哪些任务交给模型，哪些必须人工复核，哪些结果不能自动外发，哪些错误要被记录下来。所谓 AI 员工如果没有这些配套，更像一个能高速产出待审稿件的实习生，而不是独立员工。

这也解释了为什么“会用 AI”的价值正在分化。会写几个提示词，价值有限；能把模型嵌进流程、降低返工率、让错误可追踪，才是企业愿意付钱的能力。

真正稀缺的不是生成，而是验收、审计和追责

Aphyr 提到的“流程工程师”和“统计工程师”，指向同一个现实：模型输出不能靠信任验收，必须靠机制验收。

以律师事务所为例，如果用大模型起草法律文件，法院不会接受“AI 编错了”作为理由。文件里的案例、条文、事实和论证，都要有人检查。更成熟的做法甚至可能是设计专门的审核流程，测试审核者能否发现已知错误和模型幻觉。这听起来繁琐，但在高风险行业里并不奇怪。航空、制药、核工业早就不靠“系统大概没问题”过日子。

统计工程师处理的则是另一类问题：模型在哪些条件下更容易失灵。一个模型平均准确率不错，不代表它在少数语言、边缘群体、特殊场景里同样可靠。选项顺序、输入语言、上下文措辞、用户身份，都可能改变输出。

这对两类人最直接。

对企业管理者来说，AI 采购不能只看演示效果。要问清楚错误率怎么测、失败场景在哪里、人工复核要多少人、事故记录能不能追溯。
对知识工作者来说，岗位价值会从“产出第一稿”转向“判断第一稿能不能用”。律师、医生、分析师、编辑、合规人员未必立刻被替代，但他们会更常被要求替模型结果把关。

这也是“AI 员工”叙事最危险的地方。它把模型包装成一个可管理的劳动者，却回避了一个基本事实：劳动者犯错可以培训、处分、追责；模型犯错，最后仍要人来收拾。

数据被污染后，专家变成模型的高价原料

Aphyr 还补充了一个容易被忽视的变量：互联网数据正在被 AI 内容反向污染。

过去，AI 公司可以把公开网页当作训练资源。现在，大量由模型生成的低质文本、拼接内容、虚假页面和内容农场正在涌入网络。模型再训练时，很可能吃到别的模型吐出的二手材料。更麻烦的是，恶意投喂也会出现：有人故意制造假知识，让未来模型把它当成事实。

Aphyr 引用的例子很典型：研究人员用少量虚假文章，就能让 Gemini、ChatGPT 和 Copilot 回答一种并不存在的疾病。即使材料里已经标明内容是编造的，模型仍可能吸收错误信息。

这解释了为什么模型训练师、标注员、领域专家和评估人员会变得更重要。高质量模型不只拼算力，也拼干净数据和专业反馈。Scale AI、Mercor 这类公司扩张，背后正是这种需求：把医生、律师、程序员、研究者等专业知识拆成任务，喂给模型，用来校正输出。

这里的讽刺在于，一部分专业人士正在训练可能压低自己议价能力的系统。短期看，这是新收入来源；长期看，它可能改变专业劳动的定价方式。专家时间会更贵，但中低端知识产出可能更快贬值。

CEO 不容易被 AI 替代，因为责任不能自动化

Aphyr 最尖锐的说法，是“肉盾”和“占卜师”。前者负责承担后果，后者负责解释事故。

为什么 CEO、董事会成员、法务负责人不太担心被大模型直接替代？因为这些岗位的核心不只是写邮件、做总结、开会拍板，还包括在出事时承担法律和社会责任。自动驾驶事故不会由模型参数出庭。媒体刊发 AI 编造内容，道歉的也不会是接口文档。平台误封用户，最后仍要有人类经理和合规团队解释。

这说明“AI 员工”的边界很硬：模型可以参与决策，但不能承担责任。企业如果用 AI 做客服、审核、招聘、信贷、医疗建议，就必须保留能解释和追责的人。否则，所谓降本只是把风险推迟到事故发生那一刻。

“占卜师”对应的则是模型审计和事故调查。为什么模型给出歧视性结果？为什么某次输出编造来源？为什么审核系统误判图片或文本？这些问题不能长期用“黑箱”搪塞。监管机构、法院、客户和公众都会要求企业说清楚输入、流程、模型版本、人工干预和责任链条。

接下来最该观察的，不是企业又宣布了多少“AI 员工”，而是它有没有补上三件东西：

是否建立可记录、可回放、可审计的模型使用流程；
是否保留足够的人工复核和专业验收岗位；
是否明确出错后的责任人，而不是把责任推给“算法”。

如果这些都没有，AI 员工越多，组织风险可能越集中。

新就业不是轻松好消息，而是劳动被重新定价

Aphyr 的判断并不等于“AI 会创造很多新工作，所以不用担心”。新岗位会出现，但它们的质量差异很大。

高端岗位会集中在系统设计、风险控制、流程整合、模型评估和事故调查上。这类人能把模型放进可控流程里，能算清楚错误成本，也能在出事后还原原因。

中间层岗位会围绕训练、审核、校验、标注和解释展开。它们需要专业能力，但压力也会更高，因为人要为机器输出兜底。

底层则可能是更零散的平台化微任务：给模型打分、清洗数据、标注答案、筛掉垃圾输出。这些工作是 AI 系统运转的隐形地基，却未必有稳定合同和足够保障。

这才是“AI 员工”叙事需要被警惕的地方。它把自动化讲成替代人的直线故事，可现实更像一次岗位拆分：一部分人被裁掉，一部分人留下来审核机器，一部分人变成训练机器的外包劳动力，一部分人负责在事故后面对客户、法院和监管。

对企业来说，真正的问题不是要不要用 AI，而是有没有能力为不确定性付账。对知识工作者来说，问题也不是模型会不会写代码、写合同、写报告，而是自己的岗位是否只剩“产出初稿”。如果答案是，是的，那风险会很快逼近；如果能掌握验收、审计、流程和责任，议价能力反而可能上升。

Aphyr 再谈 AI 员工：真正会扩张的，可能是给模型兜底的岗位

AI员工

核心转向

岗位边界

裁员风险

兜底岗位

提示与流程

审核与校验

责任硬边界

验收审计

事故解释

数据污染

专家反馈

专业贬值

劳动定价

高端岗位

底层任务