Hacker News 上这两天被讨论的一份网页,叫《How LLMs Work — A Visual Deep Dive》。页面标注基于 Andrej Karpathy 的技术讲座,把 LLM 从抓取网页、清洗文本、分词、预训练、推理采样、后训练,一路讲到 RAG。

这类内容真正有用的地方,不是告诉你模型有多玄,而是把 AI 拉回地面。约 44TB 文本、15T tokens、100K 词表、405B 参数,这些数字在页面里只是量级锚点,不是某个模型的官方承诺。重点是:规模制造能力,流程决定边界。

这份指南把LLM拆成了六个工程环节

它最适合两类人:被 AI 营销话术绕晕的产品经理,以及想快速补底层图景的开发者。看完不一定能训练模型,但至少不会再把聊天框里的流畅回答当成魔法。

环节解决的问题容易被误读的地方
数据抓取与清洗从互联网文本中过滤垃圾、重复、隐私信息数据不是越多越好,脏数据会按万亿 token 放大
Tokenization把文字切成模型能处理的数字片段模型看的不是词,而是 token 序列
预训练学会预测下一个 tokenbase model 不是助手,只是互联网文本续写器
推理采样从概率分布里抽下一个 token同一问题多次回答不同,不是异常,是机制
SFT / RLHF把续写器调成会聊天的助手助手感来自后训练,不是预训练天然长出来的礼貌
RAG把外部资料塞进上下文能降低知识型错误,但不消灭幻觉

这里有个关键区分:base model 不等于 ChatGPT 式助手。预训练后的模型更像一个高压缩率、会续写的互联网模拟器。你给它维基百科语气,它续维基;你给它问答格式,它可能答题,也可能续出一段考试解析。真正的“我来帮你”来自 SFT、RLHF 这类后训练。

幻觉不是道德失败,是概率机器的副作用

很多产品宣传把幻觉说成“模型不够诚实”。这说法太省事。幻觉通常来自三件事叠加:模型按概率续写,训练知识有截止日期,当前上下文缺少证据。

问一个模型没见过的人名,它仍会产出像样履历,因为互联网上“Who is X”后面常接一段自信介绍。它不是故意骗人,它是在按熟悉格式补空。问题不在“会不会撒谎”这个人格词,而在系统有没有给它“不知道”的训练、检索证据和拒答边界。

RAG 的现实意义就在这里。把公司文档、产品手册、最新公告切块、向量化、检索,再塞进上下文,模型就少靠模糊记忆,多靠当前证据。企业做客服、投研、法务检索,靠的正是这条路。但 RAG 也有硬限制:检索错了,引用就歪;文档本身过期,回答照样过期;需要多步推理的问题,塞资料不等于能算对。

AI叙事该去魅,分水岭在执行和诚实

“知其然,更要知其所以然。”这句话放在 LLM 上很合适。今天行业最吵的地方,是把模型人格化、神谕化;真正该盯的,是数据质量、上下文设计、评测方式、后训练偏好和产品交互。

这有点像早期铁路。公众看见的是车头轰鸣,真正决定运输效率的是轨距、调度、维护和票务系统。LLM 也一样,演示视频很容易做成烟花,企业落地却死在权限、知识库更新、错误责任和成本账上。

对产品经理来说,这份指南的提醒很具体:别只问“接哪个大模型”,要问知识从哪来、多久更新、错了谁兜底、哪些问题必须拒答。对开发者来说,也别把 RAG 当万能胶。更现实的做法是把检索质量、提示词结构、引用可追溯、人工复核一起设计进去。

接下来真正该观察的,不是哪家公司又把参数说得更大,而是产品是否诚实承认边界:模型何时查资料,何时靠记忆,何时说不知道。能把这三件事讲清楚的 AI 产品,才有资格进入严肃业务。