AMD 的 Strix Halo 正在露出它最有意思的一面:不是游戏性能,也不是传统轻薄本叙事,而是把 128GB 统一内存变成一块可被 CPU 和 GPU 共同调度的 AI 试验场。根据开发者 Marco Inácio 的最新上手记录,这套平台已经能在 Ubuntu 24.04 LTS 上安装 ROCm 7.2,跑通 PyTorch 2.11.0+rocm7.2,并通过 llama.cpp 驱动 Qwen3.6 模型,甚至把上下文窗口开到 327680 token 这一量级。
这件事真正重要的地方,在于它让“本地大模型开发机”出现了一个不同于英伟达独显的选项;不那么重要的地方,则是它暂时还只是给愿意折腾 BIOS、内核参数和容器的人准备的。对于大多数团队来说,这更像一条被验证可行的技术路径,而不是可以立刻大规模采购的标准答案。
Strix Halo 的价值,开始从硬件参数转向可用性
原文里最关键的细节,不是跑了哪个模型,而是作者必须先升级 BIOS,PyTorch 才能识别 GPU。这说明 AMD 这套软硬件栈已经进入“能用”阶段,但仍明显依赖固件成熟度。作者还把显存预留压到 512MB,更多内存交给 GTT 共享,再通过 amdgpu.gttsize=114688 等 GRUB 参数,把约 112GB 级别的空间交给 GPU 侧使用——这正是 Strix Halo 这类统一内存架构最吸引人的地方。
换句话说,Strix Halo 的卖点不是“它像一张更强的核显”,而是“它把一台高内存主机和一块可吃系统内存的 GPU 装进了同一台机器”。过去要在本地跑 30B 级模型,开发者通常会看向 RTX 4090、Mac Studio,或者干脆租云。现在 AMD 给了第四种路线:带宽不如顶级独显,但容量组织方式更灵活,门槛也可能比专业卡低。
这对 AMD 很重要,因为它终于摸到了 AI PC 的真实落点
过去两年,“AI PC”更多停留在 NPU 演示、摘要生成和会议纪要这些轻量场景上,离开发者真正关心的模型调试、量化推理、本地 agent 工作流还有距离。作者这次跑通的不是营销 Demo,而是完整链路:ROCm、PyTorch、llama.cpp、Podman、Qwen3.6,再接到 Opencode 做本地编码助手。这说明 AMD 不只是想卖一颗 APU,而是在争取开发者工作流入口。
横向看,AMD 现在面对的是两种完全不同的竞争者:
| 路线 | 代表平台 | 优势 | 短板 |
|---|---|---|---|
| CUDA 独显路线 | NVIDIA RTX 4090 / 5090 系列 | 框架成熟,教程多,兼容性最好 | 显存贵,功耗高,整机体积大 |
| 统一内存路线 | Apple M 系列 Mac Studio / MacBook Pro | 内存池大,本地推理体验稳定 | 生态更封闭,训练框架选择受限 |
| AMD APU+ROCm 路线 | Strix Halo | 统一内存灵活,Linux 开放度高 | 可用性仍依赖调参,生态心智弱 |
如果你是个人开发者,这意味着你今后买机器时,选项不再只是“上英伟达”或“买苹果”。如果你是小团队技术负责人,现实变化则是:你也许会把一两台 Strix Halo 设备当成边缘实验机或本地 coding agent 节点,但大概率还不会直接替代 CUDA 主力机。
能跑大上下文,不等于已经适合所有人
作者用 llama.cpp 的 ROCm 镜像运行 Qwen3.6,并设置 -c 327680,这是一个非常具体的信号:这台机器的内存容量确实允许它承接长上下文模型实验。这对做代码补全、仓库问答、文档检索的人尤其有吸引力,因为本地上下文越大,越容易把整个项目喂给模型,而不用频繁切块。
但原文里其实也埋着几个容易被忽略的限制:
- BIOS 不更新,GPU 可能直接不可见
- 共享内存吃得过多,会压缩 CPU 安全余量
- 部分旧软件可能只识别到 512MB 显存
- 这套配置更像高手脚本,不像消费级体验
这也是我对这件事的判断:它证明 AMD 已经跨过“完全不能用”的门槛,但还没跨过“可以放心推荐给普通用户”的门槛。历史上 ROCm 最大的问题从来不是跑分,而是安装复杂、版本碎片化、支持矩阵不清晰。如今 Strix Halo 让人看到希望,可行业现实仍是,开发者首先购买的是确定性,其次才是性价比。
下一步要看的,不是单次跑通,而是支持矩阵能否稳定下来
原作者给出了很完整的工具链细节,包括 Ubuntu 24.04、ROCm 7.2、PyTorch 2.11.0+rocm7.2,以及通过 Podman 暴露 /dev/kfd 和 /dev/dri 来跑容器。这些都说明,今天的 AMD 本地 AI 方案已经不缺“民间攻略”,缺的是厂商级的一致性体验:同一代芯片、同一版驱动、同一套发行版,是否能让更多人少踩坑地复现。
公开说法总爱强调 AI 性能和 TOPS,但行业现实是,真正决定采购的往往是驱动、框架、文档和排障成本。AMD 如果想把 Strix Halo 从“极客惊喜”变成“开发机候选”,接下来至少要解决三件事:BIOS 默认策略更合理、ROCm 对移动平台的支持说明更清晰、PyTorch 和容器方案少一点版本玄学。否则它会持续赢得论坛口碑,却很难赢下企业标准化部署。
