一套 AI 招聘工具,如果被 150 家雇主、1700 个岗位一起使用,会发生什么?

斯坦福大学以人为本人工智能研究院(HAI)披露的一项真实招聘算法研究,给了一个不太舒服的答案:问题未必出在某一次拒信,而在同一套筛选逻辑被反复使用后,一些求职者可能在多个岗位上连续出局。

这项研究覆盖 340 万人、400 万份申请、1700 个岗位、150 家雇主和 11 个行业。所有申请都由同一家第三方 AI 招聘供应商评估。

我更在意的不是“AI 招聘是不是一定歧视”。这项研究也没有给出这样的结论。它真正提醒的是:当招聘工具规模化、集中化使用后,单个岗位里的偏差,可能被平均数盖住,又在劳动市场里被放大。

总体平均很干净,岗位里未必公平

研究团队使用的是美国平等就业机会委员会(EEOC)常用的“四分之五规则”。简单说,如果某一群体获得推荐的比例,低于最受推荐群体的 80%,这个岗位就会被标记为存在“不利影响”。

这是一把合规筛查尺,不是法院判定歧视的锤子。它能提示风险,但不能直接证明某个个体因为种族被拒。

按这个口径,研究发现:26% 的黑人申请者、15% 的亚裔申请者,曾投递过对其群体不利的岗位。研究还估算,如果黑人和亚裔申请者获得与最受优待群体相同的推荐率,约 4 万份申请本可进入下一轮。

这里最容易误读的是“总体推荐率”。把所有岗位合在一起看,可能看不出明显问题。原因很简单:不同岗位的相反偏差会互相抵消。

看法容易得到的结论研究给出的修正
汇总所有岗位看推荐率好像没有明显不利影响岗位之间的相反偏差会互相抵消
按具体岗位看推荐率能看到某些岗位对特定群体不利更接近真实招聘决策单位
把结果当成个案歧视证据证据不够研究说明的是群体层面的统计不利影响

这就是这篇研究最有价值的地方。

它把问题从“模型整体公平吗”,拉回到“某个岗位的筛选结果公平吗”。招聘不是抽象发生的。求职者也不是投递一个“总体岗位”。他投的是某家公司、某个岗位、某一轮筛选。

一平均,山高水低都没了。但门槛还在。

同一供应商复用后,“全拒”风险会集中

更麻烦的是供应商集中。

企业采购 AI 招聘工具,理由很现实:申请量太大,人力团队要提效,筛简历、排序、匹配岗位都需要自动化。对企业来说,这是降本工具。对求职者来说,这可能是一个看不见、问不到、很难申诉的过滤器。

斯坦福研究进一步看了“系统性拒绝”。在投递 4 个岗位的申请者中,10% 被全部拒绝。研究还发现,在同一供应商筛选下,申请者遭遇全拒的比例,高于“各家公司独立决策”所能解释的基线。

这句话要谨慎读。

它不是说每个被全拒的人都被算法不公平对待,也不是说这家供应商的所有结果都有问题。它说明的是:当多个岗位使用同一套筛选逻辑时,拒绝不再完全像独立事件。

如果某个简历特征、标签设定或模型偏好在系统里持续生效,求职者可能不是被一家企业拒掉,而是在一串相似岗位里反复被同一种逻辑挡住。

研究还对照了此前一项招聘研究:研究者曾向 108 家财富 500 强公司发送 8.3 万份申请,未发现类似高于独立决策基线的全拒现象。这个对照不能直接证明因果,但足以提示一个变量:同一供应商的集中筛选,可能改变拒绝的相关性。

对劳动市场来说,这比单次误判更难处理。单次误判还能归因到某家公司。系统性拒绝更像一张无形筛网,求职者甚至不知道自己卡在哪里。

对企业和监管,审计口径要从“总盘子”拆到岗位

这项研究最该影响两类人。

一类是关注 AI 治理和劳动市场的人。以后看 AI 招聘公平性,不能只看供应商给出的总体报告。更有用的问题是:是否按岗位、群体、招聘阶段分别审计?是否公开推荐率、阈值变化和模型更新后的差异?如果只披露总数,平均数很容易把问题磨平。

另一类是企业招聘和合规负责人。采购 AI 筛选工具时,不能只买“效率”。要把可审计性写进采购条件。

更具体一点,企业可以做三件事:

对象该做的动作原因
招聘负责人对高申请量岗位做岗位级不利影响评估总体指标可能看不出岗位偏差
合规团队要求供应商保留推荐率、阈值、模型版本记录出问题时需要追溯,不是只看一次性报告
采购团队对无法解释审计口径的工具延后采购或缩小试点黑箱工具进入规模化招聘后,纠错成本更高

这不是让企业不用 AI。现实里,很多公司已经离不开自动化筛选。问题是,招聘属于高风险决策,不能把“供应商说通过审核”当成长期通行证。

研究也有边界。样本来自单一第三方供应商,不能外推到所有美国雇主,也不能代表所有 AI 招聘系统。研究没有披露这家匿名供应商的模型结构、训练数据、雇主最终采纳推荐的比例,也看不清不同岗位是否使用相同阈值。

这些限制很重要。证据到哪里,判断就该停在哪里。

但它已经足够改变审计优先级:少看一点漂亮的总体公平分,多看具体岗位里的推荐差异;少听一点“AI 更客观”的承诺,多问一句“如果出错,谁能解释,谁来负责”。

纽约市已经要求自动化就业决策工具进行偏见审计。真正的分水岭不在有没有审计,而在审计落到哪里。停在总体披露,平均数仍能遮住门槛;落到岗位级,企业的采购、流程和责任才会被重新计算。

回到开头那 400 万份申请。最刺眼的不是 AI 拒绝了多少人,而是同一把尺子被反复使用时,求职者可能连自己为什么被挡在门外都不知道。