
一、前言
使用llama.cpp跑Qwen3.5-9B-GGUF的模型
二、检查GPU使用情况
通过nvida-smi命令查看gpu使用情况
Thu May 21 11:27:57 2026
+—————————————————————————————–+
| NVIDIA-SMI 596.36 Driver Version: 596.36 CUDA Version: 13.2 |
+—————————————–+————————+———————-+
| GPU Name Driver-Model | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=++======|
| 0 NVIDIA GeForce RTX 4060 Ti WDDM | 00000000:01:00.0 Off | N/A |
| 30% 42C P8 3W / 160W | 0MiB / 8188MiB | 0% Default |
| | | N/A |
+—————————————–+————————+———————-+
+—————————————————————————————–+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| No running processes found |
+—————————————————————————————–+
在这里查看对应的CUDA版本,到llama.cpp GitHub的Release页面下载对应版本的llama.cpp。
我的Windows并使用NVIDIA GPU(CUDA13),下载的是Windows x64 (CUDA 13) – CUDA 13.1 DLLs和cudart-llama-bin-win-cuda-13.1-x64.zip(后续解决方案有用)。如下图所示

下载完后,找个目录新建一个model的文件夹,将下载的llama的压缩包解压到model文件夹下。
三、下载GGUF模型
我下载的是Qwen3.5-9B-GGUF的模型。
将模型下载到model文件夹下。
四、确认是否使用GPU
使用llama-server.exe –list-devices命令查看是否有使用GPU。
D:\model\llama-b8941-bin-win-cuda-13.1-x64>llama-server.exe --list-devices
结果如下:

如果在 Available devices 看不到 GPU 的话,那就代表 llama.cpp 沒有成功读取到电脑里的GPU,按照五、解决办法步骤操作。
执行命令
llama-server.exe -m D:\model\Qwen3.5-9B-Q6_K.gguf -ngl 99 -c 16384 --parallel 2 --host 0.0.0.0 --port 8088 --reasoning off --flash-attn on
检查模型是否使用GPU
在shell输入nvidia-smi查看Processes是否有模型的进程。如下图所示:

五、解决方法
1、根据二、检查GPU使用情况中的右上角显示的GPU版本:CUDA Version:13.2,如果版本太旧,请去NVIDIA官方驱动下载页下载最新的显卡驱动进行安装、重启。使用llama-server.exe --list-devices命令查看是否有使用GPU。
2、下载cudart。根据CUDA版本下载对应的cudart。将下载的压缩包解压后,将文件夹里的文件全部复制到llama.cpp的文件夹里。使用llama-server.exe --list-devices命令查看是否有使用GPU。
3、安装CUDA Toolkit。如果前面两步,llama还是无法使用GPU,那就安装CUDA和CUDNN,进行配置。到CUDA官网,下载对应版本的CUDA和对应的CUDNN。使用llama-server.exe --list-devices命令查看是否有使用GPU。
文章摘自:https://www.cnblogs.com/lcfbk/p/20105273
