whichllm 发布：本地 LLM 的麻烦，已经从装模型变成信推荐

核心摘要 Summary

如果你有一张 RTX 4090，直觉上可能会选参数更大的模型。whichllm 的工具输出示例偏不这么排：它把 Qwen3.6-27B Q5_K_M 放在 Qwen3-32B Q4_K_M 前面。

理由不是 27B 有什么玄学优势，而是在项目当前快照里，它的综合基准分和代际新鲜度更占优。这件事的反常点也在这里：本地 LLM 的门槛，正在从“我能不能装上”，变成“我凭什么相信这个推荐”。

whichllm 把本地模型选择做成一张账本

whichllm 是一个命令行工具。它会检测本机的 NVIDIA、AMD、Apple Silicon，也支持 CPU-only 环境，再从 HuggingFace 拉取模型数据，按硬件适配、速度估算和基准表现排序。

它不是只问“显存塞不塞得下”。它问的是：塞得下的模型里，哪个更可能值得跑。

问题	whichllm 给出的处理方式
怎么装	`pipx install whichllm`，也支持 Homebrew / pip
怎么用	输入 `whichllm` 自动推荐；`--gpu "RTX 4090"` 可模拟显卡
怎么接系统	支持普通表格、`--json` 输出，方便进脚本和流水线
怎么跑起来	`whichllm run` 可下载并启动聊天；`snippet` 可生成 Python 代码
适合谁	本地 LLM 玩家、开发者、准备买显卡跑模型的人

它合并 LiveBench、Artificial Analysis、Aider、Vision、Chatbot Arena、Open LLM Leaderboard 等基准来源，再按证据强弱打折。

证据分 direct、variant、base、interpolated、self-reported。直连模型 ID 的分数更可信；继承、插值、自报分数会降权。

这个设计很接地气。HuggingFace 上有太多改名、重打包、衍生模型。模型卡写得漂亮，不等于模型真强。榜单分数也不是天然可比。

硬件侧，它会估算权重、KV cache、激活开销、框架开销。速度则参考显存带宽、量化效率和后端系数。MoE 模型还会区分总参数和 active 参数：质量更接近看总量，速度更接近看激活参数。

对开发者来说，这类工具最直接的用法不是“替你做最终决定”，而是缩短初筛时间。少下一堆模型，少跑几轮无效实验。

对准备买显卡的人，它更像采购前的模拟器。先用 --gpu 看不同显卡能跑什么，再决定是现在下单，还是把预算往后放。别为了一个纸面 70B，买回一套低体验组合。

whichllm 容易被误会成另一个本地模型平台。不是。

Ollama 和 LM Studio 更像运行、管理和交互入口。OpenRouter 更偏云端模型路由。本地 benchmark 工具更适合你已经选定模型后，自己跑任务验证。

whichllm 站在更前面：帮你决定“先试哪几个”。

这个差别很关键。

本地 LLM 的真实痛点，已经不是“模型不够多”。恰恰相反，是模型太多，名字太像，量化版本太碎，榜单太杂。

一个 Q4、Q5、Q8 的差别，不只是文件大小。上下文长度、后端兼容、显存 offload、tok/s、任务类型，都会改变体验。

所以 whichllm 做对的地方，是把选择成本显性化。它不是把复杂性消灭了，而是把复杂性排成表，让人能先看清。

“没有度量衡，市场只剩吆喝。”这句话放在今天的本地 LLM 生态里并不夸张。参数量、下载量、模型卡、榜单截图，都可能变成吆喝。whichllm 至少试图给这些吆喝加一把尺。

但尺不是天生公正。尺是谁造的，刻度怎么定，仍然要看。