一份LLM可视化指南走红：AI最该被看懂，而不是被供起来

人工智能 2026年4月24日

核心摘要 Summary

内容导图 Mind Map

看后台算工程账

可视化拆解链路

产品与开发者补课

规模造能力边界

六环节决定边界

续写器变助手

回答差异属正常

概率续写副作用

概率、时效、缺证

少靠记忆多靠证据

执行诚实定成败

知识、更新、兜底

查资料、记忆、不知道

Hacker News 上这两天被讨论的一份网页，叫《How LLMs Work — A Visual Deep Dive》。页面标注基于 Andrej Karpathy 的技术讲座，把 LLM 从抓取网页、清洗文本、分词、预训练、推理采样、后训练，一路讲到 RAG。

这类内容真正有用的地方，不是告诉你模型有多玄，而是把 AI 拉回地面。约 44TB 文本、15T tokens、100K 词表、405B 参数，这些数字在页面里只是量级锚点，不是某个模型的官方承诺。重点是：规模制造能力，流程决定边界。

这份指南把LLM拆成了六个工程环节

它最适合两类人：被 AI 营销话术绕晕的产品经理，以及想快速补底层图景的开发者。看完不一定能训练模型，但至少不会再把聊天框里的流畅回答当成魔法。

这里有个关键区分：base model 不等于 ChatGPT 式助手。预训练后的模型更像一个高压缩率、会续写的互联网模拟器。你给它维基百科语气，它续维基；你给它问答格式，它可能答题，也可能续出一段考试解析。真正的“我来帮你”来自 SFT、RLHF 这类后训练。

很多产品宣传把幻觉说成“模型不够诚实”。这说法太省事。幻觉通常来自三件事叠加：模型按概率续写，训练知识有截止日期，当前上下文缺少证据。

问一个模型没见过的人名，它仍会产出像样履历，因为互联网上“Who is X”后面常接一段自信介绍。它不是故意骗人，它是在按熟悉格式补空。问题不在“会不会撒谎”这个人格词，而在系统有没有给它“不知道”的训练、检索证据和拒答边界。

RAG 的现实意义就在这里。把公司文档、产品手册、最新公告切块、向量化、检索，再塞进上下文，模型就少靠模糊记忆，多靠当前证据。企业做客服、投研、法务检索，靠的正是这条路。但 RAG 也有硬限制：检索错了，引用就歪；文档本身过期，回答照样过期；需要多步推理的问题，塞资料不等于能算对。

“知其然，更要知其所以然。”这句话放在 LLM 上很合适。今天行业最吵的地方，是把模型人格化、神谕化；真正该盯的，是数据质量、上下文设计、评测方式、后训练偏好和产品交互。

这有点像早期铁路。公众看见的是车头轰鸣，真正决定运输效率的是轨距、调度、维护和票务系统。LLM 也一样，演示视频很容易做成烟花，企业落地却死在权限、知识库更新、错误责任和成本账上。

对产品经理来说，这份指南的提醒很具体：别只问“接哪个大模型”，要问知识从哪来、多久更新、错了谁兜底、哪些问题必须拒答。对开发者来说，也别把 RAG 当万能胶。更现实的做法是把检索质量、提示词结构、引用可追溯、人工复核一起设计进去。

接下来真正该观察的，不是哪家公司又把参数说得更大，而是产品是否诚实承认边界：模型何时查资料，何时靠记忆，何时说不知道。能把这三件事讲清楚的 AI 产品，才有资格进入严肃业务。

锐评 Commentary

AI的魔术越好看，越要看后台。去魅不是泼冷水，是把工程账算清。

大语言模型LLM可视化指南How LLMs Work — A Visual Deep DiveAndrej KarpathyRAG预训练Tokenization数据清洗后训练Hacker News