Hacker News 上这两天被讨论的一份网页,叫《How LLMs Work — A Visual Deep Dive》。页面标注基于 Andrej Karpathy 的技术讲座,把 LLM 从抓取网页、清洗文本、分词、预训练、推理采样、后训练,一路讲到 RAG。
这类内容真正有用的地方,不是告诉你模型有多玄,而是把 AI 拉回地面。约 44TB 文本、15T tokens、100K 词表、405B 参数,这些数字在页面里只是量级锚点,不是某个模型的官方承诺。重点是:规模制造能力,流程决定边界。
这份指南把LLM拆成了六个工程环节
它最适合两类人:被 AI 营销话术绕晕的产品经理,以及想快速补底层图景的开发者。看完不一定能训练模型,但至少不会再把聊天框里的流畅回答当成魔法。
| 环节 | 解决的问题 | 容易被误读的地方 |
|---|---|---|
| 数据抓取与清洗 | 从互联网文本中过滤垃圾、重复、隐私信息 | 数据不是越多越好,脏数据会按万亿 token 放大 |
| Tokenization | 把文字切成模型能处理的数字片段 | 模型看的不是词,而是 token 序列 |
| 预训练 | 学会预测下一个 token | base model 不是助手,只是互联网文本续写器 |
| 推理采样 | 从概率分布里抽下一个 token | 同一问题多次回答不同,不是异常,是机制 |
| SFT / RLHF | 把续写器调成会聊天的助手 | 助手感来自后训练,不是预训练天然长出来的礼貌 |
| RAG | 把外部资料塞进上下文 | 能降低知识型错误,但不消灭幻觉 |
这里有个关键区分:base model 不等于 ChatGPT 式助手。预训练后的模型更像一个高压缩率、会续写的互联网模拟器。你给它维基百科语气,它续维基;你给它问答格式,它可能答题,也可能续出一段考试解析。真正的“我来帮你”来自 SFT、RLHF 这类后训练。
幻觉不是道德失败,是概率机器的副作用
很多产品宣传把幻觉说成“模型不够诚实”。这说法太省事。幻觉通常来自三件事叠加:模型按概率续写,训练知识有截止日期,当前上下文缺少证据。
问一个模型没见过的人名,它仍会产出像样履历,因为互联网上“Who is X”后面常接一段自信介绍。它不是故意骗人,它是在按熟悉格式补空。问题不在“会不会撒谎”这个人格词,而在系统有没有给它“不知道”的训练、检索证据和拒答边界。
RAG 的现实意义就在这里。把公司文档、产品手册、最新公告切块、向量化、检索,再塞进上下文,模型就少靠模糊记忆,多靠当前证据。企业做客服、投研、法务检索,靠的正是这条路。但 RAG 也有硬限制:检索错了,引用就歪;文档本身过期,回答照样过期;需要多步推理的问题,塞资料不等于能算对。
AI叙事该去魅,分水岭在执行和诚实
“知其然,更要知其所以然。”这句话放在 LLM 上很合适。今天行业最吵的地方,是把模型人格化、神谕化;真正该盯的,是数据质量、上下文设计、评测方式、后训练偏好和产品交互。
这有点像早期铁路。公众看见的是车头轰鸣,真正决定运输效率的是轨距、调度、维护和票务系统。LLM 也一样,演示视频很容易做成烟花,企业落地却死在权限、知识库更新、错误责任和成本账上。
对产品经理来说,这份指南的提醒很具体:别只问“接哪个大模型”,要问知识从哪来、多久更新、错了谁兜底、哪些问题必须拒答。对开发者来说,也别把 RAG 当万能胶。更现实的做法是把检索质量、提示词结构、引用可追溯、人工复核一起设计进去。
接下来真正该观察的,不是哪家公司又把参数说得更大,而是产品是否诚实承认边界:模型何时查资料,何时靠记忆,何时说不知道。能把这三件事讲清楚的 AI 产品,才有资格进入严肃业务。
