AI 时代，复制网页表格还是一件脏活

核心摘要 Summary

Simon Willison 发布了 HTML table extractor：把从浏览器复制来的富文本、HTML 或纯文本中的表格提取出来，转成 HTML、Markdown、CSV、TSV 或 JSON。
它不是大产品，只是个人 paste-conversion tools 系列里的一个小工具。
真正有意思的是：大模型在生成答案，很多人却仍卡在复制、清洗、转格式这种老摩擦上。

内容导图 Mind Map

表格提取

小工具解决旧摩擦

工具定位

粘贴识别再转换

输入输出

富文本转多格式

边界清楚

非平台级产品

受益人群

减少格式脏活

开发者

少写临时脚本

写作者

少修 Markdown 表格

现实限制

复杂场景未验证

表格复杂度

合并嵌套待确认

隐私处理

本地与否不清楚

AI 反差

模型强但格式仍卡

旧需求回潮

数据处理人群变多

生产力落点

抹平十分钟摩擦

你从维基百科复制一整页“旧金山湾区城市和城镇列表”，直接粘到一个网页工具里。它把里面的表格识别出来，给你预览，再导出成 Markdown、CSV、TSV、JSON 或 HTML。

这就是 Simon Willison 新发的 HTML table extractor。

新闻很小。小到不像新闻。但对开发者、技术写作者、经常从网页搬表格的人，它击中的不是新需求，而是一直没死的旧麻烦：复制出来的东西，离真正可用还差一截。

它做的事很窄：粘贴、识别、转换

HTML table extractor 的用法很直：复制网页内容，粘进去，工具自动检测并显示其中的表格，然后选择导出格式。

它支持的输入不只是一段干净 HTML。原文提到的是从浏览器复制来的富文本，也包括 HTML 或纯文本里的表格。导出格式则覆盖 HTML、Markdown、CSV、TSV、JSON。

问题	目前能确认的信息
输入	浏览器复制的富文本、HTML、纯文本
处理	自动检测并显示其中的表格
导出	HTML、Markdown、CSV、TSV、JSON
示例	复制维基百科“旧金山湾区城市和城镇列表”页面后直接粘贴转换
定位	Simon Willison 个人 paste-conversion tools 系列中的一个工具

这不是平台发布，也不是商业产品线。更不是“数据自动化革命”。

它就是一个粘贴转换工具。边界越清楚，越不容易被吹歪。

同一条线上，Simon Willison 还重建了自己的 Rich text to markdown 工具。新增了表格支持，也改进了 UI。两个动作放在一起看，重点很明显：网页富文本复制到写作和开发工作流里，表格是最烦的部分之一。

受影响的人很具体：少写脚本，少修格式

这个工具最直接服务两类人。

一类是开发者。以前从网页拿到一张表，常见动作是临时写解析脚本，或者先丢进表格软件，再导出 CSV。现在如果表格结构能被识别，就可以直接转成 CSV、TSV 或 JSON，少走一段脏路。

另一类是技术写作者和资料整理者。写文档、写博客、整理资料时，网页表格常常要变成 Markdown。手工改竖线、分隔符、换行，很不值钱，但很耗人。

人群	典型动作变化
开发者	从“复制网页表格后写临时解析脚本”，变成“先粘贴转换成 CSV、TSV 或 JSON”
技术写作者	从“手工重排 Markdown 表格”，变成“复制、粘贴、导出 Markdown”
数据整理者	从“在多个工具之间倒格式”，变成“先把网页表格转成可处理文本”

这里要克制一点。原文没有说它能处理所有复杂表格，也没有给性能指标、开源许可、技术栈或隐私处理方式。

所以更现实的观察点不是“它能不能替代数据清洗”，而是几个小问题：复杂合并单元格表现如何？嵌套表格怎么处理？粘贴内容是否只在浏览器内完成？这些材料里目前看不清。

但这不削弱它的价值。小工具最怕装大。它没有装。

大模型往前冲，剪贴板还在收税

我喜欢这个工具，不是因为它技术惊人，而是因为它诚实。

今天很多 AI 产品喜欢讲“从问题到答案”。可真实工作里，问题经常卡在更前面：表格复制出来乱了，Markdown 不认，CSV 分隔不对，JSON 还得手改。你还没开始分析，先被格式拦住。

大模型能生成一段解释，却不必然能把剪贴板里的网页表格稳定变成可用数据。格式不是边角料。格式是工作流的路面。路面有坑，再好的车也要减速。

技术史里这种事反复出现。PC 普及后，文件格式折磨了很多年；Web 起来后，编码、换行、复制粘贴又折磨了很多年。今天换成 AI，表格、富文本、剪贴板没有退场，只是躲在更日常的位置继续收过路费。

“天下熙熙，皆为利来。”放在工具世界也成立。大公司追模型、平台、入口，个人开发者反而更容易看见这些小裂缝。因为他们自己也踩。

HTML table extractor 的价值就在这里：它不替你思考，只把一段网页内容变成更容易处理的形状。

我不太买账“AI 会消灭数据清洗”这种说法。更可能发生的是：AI 让更多人想处理数据，于是复制、转换、整理这些旧需求反而变多。

模型看着更强，产品有时反而更虚。能把一个小摩擦稳定抹平，已经比很多宏大叙事更接近生产力。

回到开头那张维基百科表格。真正的关键不是它能不能震撼行业，而是它能不能让一个人少花十分钟修格式。很多有效工具，就是从这十分钟里长出来的。

锐评 Commentary

小工具不显山露水，却专治日常硌脚。AI 越往云端飞，剪贴板这块地越不能荒。

HTML table extractorSimon Willison表格提取格式转换MarkdownCSVJSONHTML剪贴板网页数据整理