AMD Strix Halo 跑通 ROCm 了，但真正的突破不在参数表里

核心摘要 Summary

开发者最新实测显示，搭载 Strix Halo 的 AMD 平台已经能在 Ubuntu 24.04 上跑起 ROCm、PyTorch 和 llama.cpp，本地加载 Qwen3.6 这类大模型也开始变得现实。
真正有价值的不是“终于能跑”，而是 AMD 正在把一类过去必须上独显或服务器的 AI 工作负载，压缩进高内存一体化设备里。
可这条路离“开箱即用”还很远，BIOS、GRUB 和兼容性细节仍然会筛掉大多数普通用户。

AMD 的 Strix Halo 正在露出它最有意思的一面：不是游戏性能，也不是传统轻薄本叙事，而是把 128GB 统一内存变成一块可被 CPU 和 GPU 共同调度的 AI 试验场。根据开发者 Marco Inácio 的最新上手记录，这套平台已经能在 Ubuntu 24.04 LTS 上安装 ROCm 7.2，跑通 PyTorch 2.11.0+rocm7.2，并通过 llama.cpp 驱动 Qwen3.6 模型，甚至把上下文窗口开到 327680 token 这一量级。

这件事真正重要的地方，在于它让“本地大模型开发机”出现了一个不同于英伟达独显的选项；不那么重要的地方，则是它暂时还只是给愿意折腾 BIOS、内核参数和容器的人准备的。对于大多数团队来说，这更像一条被验证可行的技术路径，而不是可以立刻大规模采购的标准答案。

Strix Halo 的价值，开始从硬件参数转向可用性

原文里最关键的细节，不是跑了哪个模型，而是作者必须先升级 BIOS，PyTorch 才能识别 GPU。这说明 AMD 这套软硬件栈已经进入“能用”阶段，但仍明显依赖固件成熟度。作者还把显存预留压到 512MB，更多内存交给 GTT 共享，再通过 amdgpu.gttsize=114688 等 GRUB 参数，把约 112GB 级别的空间交给 GPU 侧使用——这正是 Strix Halo 这类统一内存架构最吸引人的地方。

换句话说，Strix Halo 的卖点不是“它像一张更强的核显”，而是“它把一台高内存主机和一块可吃系统内存的 GPU 装进了同一台机器”。过去要在本地跑 30B 级模型，开发者通常会看向 RTX 4090、Mac Studio，或者干脆租云。现在 AMD 给了第四种路线：带宽不如顶级独显，但容量组织方式更灵活，门槛也可能比专业卡低。

这对 AMD 很重要，因为它终于摸到了 AI PC 的真实落点

过去两年，“AI PC”更多停留在 NPU 演示、摘要生成和会议纪要这些轻量场景上，离开发者真正关心的模型调试、量化推理、本地 agent 工作流还有距离。作者这次跑通的不是营销 Demo，而是完整链路：ROCm、PyTorch、llama.cpp、Podman、Qwen3.6，再接到 Opencode 做本地编码助手。这说明 AMD 不只是想卖一颗 APU，而是在争取开发者工作流入口。

横向看，AMD 现在面对的是两种完全不同的竞争者：

路线	代表平台	优势	短板
CUDA 独显路线	NVIDIA RTX 4090 / 5090 系列	框架成熟，教程多，兼容性最好	显存贵，功耗高，整机体积大
统一内存路线	Apple M 系列 Mac Studio / MacBook Pro	内存池大，本地推理体验稳定	生态更封闭，训练框架选择受限
AMD APU+ROCm 路线	Strix Halo	统一内存灵活，Linux 开放度高	可用性仍依赖调参，生态心智弱

如果你是个人开发者，这意味着你今后买机器时，选项不再只是“上英伟达”或“买苹果”。如果你是小团队技术负责人，现实变化则是：你也许会把一两台 Strix Halo 设备当成边缘实验机或本地 coding agent 节点，但大概率还不会直接替代 CUDA 主力机。

能跑大上下文，不等于已经适合所有人

作者用 llama.cpp 的 ROCm 镜像运行 Qwen3.6，并设置 -c 327680，这是一个非常具体的信号：这台机器的内存容量确实允许它承接长上下文模型实验。这对做代码补全、仓库问答、文档检索的人尤其有吸引力，因为本地上下文越大，越容易把整个项目喂给模型，而不用频繁切块。

但原文里其实也埋着几个容易被忽略的限制：

BIOS 不更新，GPU 可能直接不可见
共享内存吃得过多，会压缩 CPU 安全余量
部分旧软件可能只识别到 512MB 显存
这套配置更像高手脚本，不像消费级体验

这也是我对这件事的判断：它证明 AMD 已经跨过“完全不能用”的门槛，但还没跨过“可以放心推荐给普通用户”的门槛。历史上 ROCm 最大的问题从来不是跑分，而是安装复杂、版本碎片化、支持矩阵不清晰。如今 Strix Halo 让人看到希望，可行业现实仍是，开发者首先购买的是确定性，其次才是性价比。

下一步要看的，不是单次跑通，而是支持矩阵能否稳定下来

原作者给出了很完整的工具链细节，包括 Ubuntu 24.04、ROCm 7.2、PyTorch 2.11.0+rocm7.2，以及通过 Podman 暴露 /dev/kfd 和 /dev/dri 来跑容器。这些都说明，今天的 AMD 本地 AI 方案已经不缺“民间攻略”，缺的是厂商级的一致性体验：同一代芯片、同一版驱动、同一套发行版，是否能让更多人少踩坑地复现。

公开说法总爱强调 AI 性能和 TOPS，但行业现实是，真正决定采购的往往是驱动、框架、文档和排障成本。AMD 如果想把 Strix Halo 从“极客惊喜”变成“开发机候选”，接下来至少要解决三件事：BIOS 默认策略更合理、ROCm 对移动平台的支持说明更清晰、PyTorch 和容器方案少一点版本玄学。否则它会持续赢得论坛口碑，却很难赢下企业标准化部署。

AMD Strix Halo 跑通 ROCm 了，但真正的突破不在参数表里

Strix Halo 本地实测

硬件价值重估

大内存长上下文

完整链路跑通

生态工具跑通

可用性仍受限

固件强依赖

后续商业化关键

BIOS 策略优化

Strix Halo 的价值，开始从硬件参数转向可用性

这对 AMD 很重要，因为它终于摸到了 AI PC 的真实落点

能跑大上下文，不等于已经适合所有人

下一步要看的，不是单次跑通，而是支持矩阵能否稳定下来