amd的u搭配n卡,跑ai没有问题吧?

reddit.com/r/StableDiff

25-11-29 initialxy1

作者用Arch Linux。

想用 Z-Image Turbo 训练 LoRA 的小伙伴们,用的还是 ai-toolkit。你可能会注意到它说需要 N卡。当你启动它的 UI 时,会有一个大大的吓人的横幅,上面写着找不到 Nvidia-smi。当你尝试保存一个训练任务时,它会失败,因为它无法识别 CUDA 设备。即使你删除了那个检查,并且在 route.js里硬编码了 gpu_ids = "0"; ,它也会排队一个任务,但永远不会开始运行。

我深入研究了一下,发现唯一的真正障碍是 bitsandbytes。好消息是有一个 bitsandbytes 的 ROCm 分支 ,但你必须按照 AMD 的指南git clone,构建并安装到 ai-toolkit 的 venv 里。但是,正如我在 搞一些不相关的东西时注意到的,AMD 的指南字面意思上忘记了 make 这一步,这意味着二进制文件实际上从未构建。所以记得在 cmake -DBNB_ROCM_ARCH="YOUR_GPU" -DCOMPUTE_BACKEND=hip -S . 步之后运行 make

(这部分你得亲自动手,从源码开始构建)

此外,请记住在安装你本地构建的 ROCm bitsandbytes 之前,卸载从 requirements.txt 安装的 bitsandbytes。当然,也要从这里](https://pytorch.org/get-started/locally/)安装 ROCm 版本的 [pytorch。例如 pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.4

一旦你有了所有这些,你就可以使用 ai-toolkit 的 run.py 而不是它的 UI 来开始训练会话。(你可以在这个时候直接关闭它的 UI。)例如。

# while venv is active
python run.py <PATH_TO_JOB_CONFIG>.yaml

你可以使用它的 UI 来创建一个任务配置,并从 "advanced" 标签中复制它的 yaml,并将其保存为 .yaml 文件。我做了一个 100 步的测试运行,看起来好像在工作??? 没崩溃,而且当 LoRA 权重为 1 时,Comfy 生成了一个略有不同的图像。默认的 3000 步运行在我的 RTX 7900 XTX 上需要 6 个小时。所以我只做了一个快速测试。后来3000 步的训练任务搞定了。看起来效果不错。


顺便可以看看——RX9070XT 架構ROCm7 SD WebUI 跑圖心得+Z-Image-Turbo

forum.gamer.com.tw/C.ph

更新AMD驅動
https://www.amd.com/en/resources/support-articles/release-notes/RN-AMDGPU-WINDOWS-PYTORCH-7-1-1.html

支持

  • Updated with AMD ROCm 7.1.1.
  • Support for AO Triton with PyTorch
  • Support for pytorch-cross-attention flag with SD3.5 models.

编辑于 2026-01-13 · 著作权归作者所有