AI-Toolkit @ DGX Spart GB10 – 安裝教學

AI-Toolkit @ DGX Spart GB10

安裝步驟

要在 DGX OS 上執行 AI Toolkit,需要使用 Python 3.11。最簡單的方法是在不影響系統 Python 安裝的情況下,使用Miniconda創建一個虛擬環境,這樣就可以指定環境中要使用的 Python 版本。

1) 取得Python 3.11(透過miniconda)

安裝最新版本的miniconda:

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-aarch64.sh
chmod u+x Miniconda3-latest-Linux-aarch64.sh
./Miniconda3-latest-Linux-aarch64.sh

重新啟動你的 bash 或 ssh 會話。如果 miniconda 安裝成功,它預設會自動載入「base」環境。基本上可以停用此功能,請執行:

conda config --set auto_activate_base false

為 ai-toolkit 建立一個 Python 3.11 環境:

conda create --name ai-toolkit python=3.11

然後使用以下命令啟動環境:

conda activate ai-toolkit

2) 安裝官方的 PyTorch

pip3 install torch==2.9.1 torchvision==0.24.1 torchaudio==2.9.1 --index-url https://download.pytorch.org/whl/cu130

3) 安裝AI-Toolkit

git clone https://github.com/ostris/ai-toolkit.git
cd ai-toolkit

4) 安裝失敗的解決方案

如果使用官方的安裝會失敗,因為scikit-learn會用舊的1.1.2版,所以在安裝 dgx_requirements.txt 之前 我們要先建立一個 constraint.txt:

echo "scikit-learn>=1.3.2" > constraint.txt
echo "numpy> constraint.txt

5) 安裝剩餘的依賴項

pip cache purge
pip install -r dgx_requirements.txt -c constraint.txt

6) 再來把Python 環境中缺少 FFmpeg 的系統級函式庫補上

conda install -c conda-forge ffmpeg

7) 統一 PyTorch 生態系編譯版本(解決 undefined symbol 與 ARM 架構問題)

GB10 是 ARM 架構,一般的 PyPI 預設套件會報錯。我們必須清空舊包,並直接從官方的 Nightly 通道拉取為 CUDA 13.0 同步編譯的 ARM 版:

pip uninstall -y torch torchvision torchaudio torchcodec
pip install --pre torch torchvision torchaudio torchcodec --index-url https://download.pytorch.org/whl/nightly/cu130

安裝完後..試著下面的指令:

python -c "import torch; import torchcodec; print(f'裝置名稱: {torch.cuda.get_device_name(0)}'); print(f'CUDA 版本: {torch.version.cuda}'); print(f'Torchcodec 版本: {torchcodec.__version__}'); print(f'GPU 可用狀態: {torch.cuda.is_available()}')"

應該會出現:

裝置名稱: NVIDIA GB10
CUDA 版本: 13.0
Torchcodec 版本: 0.12.0.dev20260411+cu130
GPU 可用狀態: True

這樣基本上核心已經安裝完畢。

8) Hugging Face 模型下載權限問題

如果在DGX GB10上有其它和huggingface下載模型有相關的服務(例如vLLM),有可能會出現目錄權限被鎖定無法下載模型的問題。首先先建立想放模型的目錄:

mkdir -p {你的ai-toolkit目錄}/hf_cache

再來設定環境變數(未來重開機這個變數要重新設定):

export HF_HOME="{你的ai-toolkit目錄}/hf_cache"

WebUI 安裝/執行

1) 安裝 npm(如需要)

sudo apt install npm

2) 啟動 WebUI

cd ui
npm run build_and_start

出現類似下面的訊息..就代表已經完成:

[UI]    ▲ Next.js 15.5.9
[UI]    - Local:        http://localhost:8675
[UI]    - Network:      http://{你的機器IP}:8675

[UI]  ✓ Starting...
[UI]  ✓ Ready in 358ms

這時到瀏覽器,用 http://{你的機器IP}:8675 就可以開始訓練LoRA囉!🎉

畫面中的記憶體看不到是正常的.. 因為GB10是共用記憶體.. 在開始建立訓練資料時就會看到了(如下圖)

 

未來如果有重新開機…只要用下面的步驟執行即可.

conda activate ai-toolkit
export HF_HOME="{你的ai-toolkit目錄}/hf_cache"
cd {你的ai-toolkit目錄}/ui
npm run build_and_start