你从维基百科复制一整页“旧金山湾区城市和城镇列表”,直接粘到一个网页工具里。它把里面的表格识别出来,给你预览,再导出成 Markdown、CSV、TSV、JSON 或 HTML。

这就是 Simon Willison 新发的 HTML table extractor。

新闻很小。小到不像新闻。但对开发者、技术写作者、经常从网页搬表格的人,它击中的不是新需求,而是一直没死的旧麻烦:复制出来的东西,离真正可用还差一截。

它做的事很窄:粘贴、识别、转换

HTML table extractor 的用法很直:复制网页内容,粘进去,工具自动检测并显示其中的表格,然后选择导出格式。

它支持的输入不只是一段干净 HTML。原文提到的是从浏览器复制来的富文本,也包括 HTML 或纯文本里的表格。导出格式则覆盖 HTML、Markdown、CSV、TSV、JSON。

问题目前能确认的信息
输入浏览器复制的富文本、HTML、纯文本
处理自动检测并显示其中的表格
导出HTML、Markdown、CSV、TSV、JSON
示例复制维基百科“旧金山湾区城市和城镇列表”页面后直接粘贴转换
定位Simon Willison 个人 paste-conversion tools 系列中的一个工具

这不是平台发布,也不是商业产品线。更不是“数据自动化革命”。

它就是一个粘贴转换工具。边界越清楚,越不容易被吹歪。

同一条线上,Simon Willison 还重建了自己的 Rich text to markdown 工具。新增了表格支持,也改进了 UI。两个动作放在一起看,重点很明显:网页富文本复制到写作和开发工作流里,表格是最烦的部分之一。

受影响的人很具体:少写脚本,少修格式

这个工具最直接服务两类人。

一类是开发者。以前从网页拿到一张表,常见动作是临时写解析脚本,或者先丢进表格软件,再导出 CSV。现在如果表格结构能被识别,就可以直接转成 CSV、TSV 或 JSON,少走一段脏路。

另一类是技术写作者和资料整理者。写文档、写博客、整理资料时,网页表格常常要变成 Markdown。手工改竖线、分隔符、换行,很不值钱,但很耗人。

人群典型动作变化
开发者从“复制网页表格后写临时解析脚本”,变成“先粘贴转换成 CSV、TSV 或 JSON”
技术写作者从“手工重排 Markdown 表格”,变成“复制、粘贴、导出 Markdown”
数据整理者从“在多个工具之间倒格式”,变成“先把网页表格转成可处理文本”

这里要克制一点。原文没有说它能处理所有复杂表格,也没有给性能指标、开源许可、技术栈或隐私处理方式。

所以更现实的观察点不是“它能不能替代数据清洗”,而是几个小问题:复杂合并单元格表现如何?嵌套表格怎么处理?粘贴内容是否只在浏览器内完成?这些材料里目前看不清。

但这不削弱它的价值。小工具最怕装大。它没有装。

大模型往前冲,剪贴板还在收税

我喜欢这个工具,不是因为它技术惊人,而是因为它诚实。

今天很多 AI 产品喜欢讲“从问题到答案”。可真实工作里,问题经常卡在更前面:表格复制出来乱了,Markdown 不认,CSV 分隔不对,JSON 还得手改。你还没开始分析,先被格式拦住。

大模型能生成一段解释,却不必然能把剪贴板里的网页表格稳定变成可用数据。格式不是边角料。格式是工作流的路面。路面有坑,再好的车也要减速。

技术史里这种事反复出现。PC 普及后,文件格式折磨了很多年;Web 起来后,编码、换行、复制粘贴又折磨了很多年。今天换成 AI,表格、富文本、剪贴板没有退场,只是躲在更日常的位置继续收过路费。

“天下熙熙,皆为利来。”放在工具世界也成立。大公司追模型、平台、入口,个人开发者反而更容易看见这些小裂缝。因为他们自己也踩。

HTML table extractor 的价值就在这里:它不替你思考,只把一段网页内容变成更容易处理的形状。

我不太买账“AI 会消灭数据清洗”这种说法。更可能发生的是:AI 让更多人想处理数据,于是复制、转换、整理这些旧需求反而变多。

模型看着更强,产品有时反而更虚。能把一个小摩擦稳定抹平,已经比很多宏大叙事更接近生产力。

回到开头那张维基百科表格。真正的关键不是它能不能震撼行业,而是它能不能让一个人少花十分钟修格式。很多有效工具,就是从这十分钟里长出来的。