使用llama通过GPU跑模型|flask|六狼博客|技术博客|技术论坛|六狼网络|六狼科技|六狼IT|六狼星球

2026年5月21日

一、前言

使用llama.cpp跑Qwen3.5-9B-GGUF的模型

二、检查GPU使用情况

+—————————————————————————————–+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| No running processes found |
+—————————————————————————————–+
在这里查看对应的CUDA版本，到llama.cpp GitHub的Release页面下载对应版本的llama.cpp。

我的Windows并使用NVIDIA GPU(CUDA13)，下载的是Windows x64 (CUDA 13) – CUDA 13.1 DLLs和cudart-llama-bin-win-cuda-13.1-x64.zip（后续解决方案有用）。如下图所示

下载完后，找个目录新建一个model的文件夹，将下载的llama的压缩包解压到model文件夹下。

三、下载GGUF模型
我下载的是Qwen3.5-9B-GGUF的模型。
将模型下载到model文件夹下。

四、确认是否使用GPU

使用llama-server.exe –list-devices命令查看是否有使用GPU。
D:\model\llama-b8941-bin-win-cuda-13.1-x64>llama-server.exe --list-devices
结果如下：

如果在 Available devices 看不到 GPU 的话，那就代表 llama.cpp 沒有成功读取到电脑里的GPU，按照五、解决办法步骤操作。

执行命令

llama-server.exe -m D:\model\Qwen3.5-9B-Q6_K.gguf -ngl 99 -c 16384 --parallel 2 --host 0.0.0.0 --port 8088 --reasoning off --flash-attn on

检查模型是否使用GPU
在shell输入nvidia-smi查看Processes是否有模型的进程。如下图所示：

五、解决方法

1、根据二、检查GPU使用情况中的右上角显示的GPU版本：CUDA Version：13.2，如果版本太旧，请去NVIDIA官方驱动下载页下载最新的显卡驱动进行安装、重启。使用llama-server.exe --list-devices命令查看是否有使用GPU。

2、下载cudart。根据CUDA版本下载对应的cudart。将下载的压缩包解压后，将文件夹里的文件全部复制到llama.cpp的文件夹里。使用llama-server.exe --list-devices命令查看是否有使用GPU。
3、安装CUDA Toolkit。如果前面两步，llama还是无法使用GPU，那就安装CUDA和CUDNN，进行配置。到CUDA官网，下载对应版本的CUDA和对应的CUDNN。使用llama-server.exe --list-devices命令查看是否有使用GPU。

文章摘自：https://www.cnblogs.com/lcfbk/p/20105273

2026年7月
一	二	三	四	五	六	日
« 6月
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31