深度学习进阶(二十八)现代 LLM 的核心架构设计其三:Decoder-Only 下的 KV Cache


上一篇我们介绍了 SwiGLU,通过引入门控机制让 FFN 能够根据输入动态筛选信息,取代了标准 Transformer 沿用多年的单通路结构。

前两篇的内容都关于结构上的优化,本篇则关于一个核心工程优化。
我们知道,即使是现在的多数大模型,其生成回答的逻辑仍然是自回归生成,即逐个字往外蹦。
因此,为了让 AI 能够真实应用,而不至于 “一个问题等一天” ,就出现了一系列的工程的优化。
其中的基石就是 KV Cache

1. Decoder-Only

18 年,OpenAI 提出了 GPT-1 :Improving Language Understanding by Generative Pre-Training,其核心内容就是现在的 Decoder-Only 架构,这是目前绝大多数通用大语言模型采用的基本架构。

有了之前的基础,Decoder-Only 的逻辑并不难理解:
研究人员发现,对于语言建模任务而言,并不一定需要单独的 Encoder。只要让模型根据已有文本不断预测下一个 Token,就能够学习语言规律。

因此现代大模型直接移除了 Encoder,同时删除了依赖 Encoder 输出的 Cross Attention,最终仅保留 Decoder 中的 Masked Self-Attention 与 FFN 结构:

可以看到原始的 GPT-1 基本逻辑仍然是在预训练的模型基础上,继续用特定数据训练,让模型适应某个任务或领域,也就是 Fine-tuning,而这种基础的任务能力现在已经可以靠 prompt 来激活了。
因此,了解 Decoder-Only 架构本身的相关逻辑即可,这里展开两个细节:

1.1 用户输入是如何作用的?

既然没有 Encoder,一个自然的问题是:

用户输入由谁来理解?

答案是:

用户输入本身就是 Decoder 的输入序列。

我们直接举个例子,用户提问:

法国的首都是哪里?

这句话会直接被转换为 Token 序列:

法国 的 首都 是 哪里 ?

随后送入 Decoder。模型经过一次前向传播后,预测:

巴黎

此时序列变成:

法国的首都是哪里?巴黎

之后同理,继续生成直到生成结束标记:

法国的首都是哪里?巴黎。它位于……

这种根据已经出现的内容预测下一个 Token 的过程就是自回归生成(Autoregressive Generation)

1.2 Attention 中的重复计算问题

明白了 Decoder-Only 的生成逻辑后,现在我们来看一个推理时的问题

\(t\) 步时,模型需要计算 \(t\) 个 token 之间的自注意力,然后预测第 \(t+1\) 个 token。然后第 \(t+1\) 步,输入变成 \(t+1\) 个 token,再算一遍注意力,预测第 \(t+2\) 个。

现在,假设模型已经生成到了第 \(t\) 个 token,第 \(t\) 步计算了 token \(1\)\(t\) 之间所有注意力。到了第 \(t+1\) 步,输入变成了 token \(1\)\(t+1\),标准做法会把 token \(1\)\(t\) 的 K 和 V 重新计算一遍

问题就出在这个”再算一遍”上:

在第 \(t\) 步和 \(t+1\) 步之间,token \(1\)\(t\) 的 K 和 V 变了吗?

答案是没有。
在参数固定的推理阶段,token \(1\) 在第一步后就固定了。token \(t\) 的内容同理在第 \(t\) 步生成后就已经固定了。它们的 K 和 V 不会因为一个新 token 的加入而改变。每次重新计算都是纯粹的浪费。

显然,这里存在相当大的优化空间,这便是 KV Cache 要解决的问题。

2. KV Cache

2.1 KV Cache 的内容

KV Cache 的思路很简单:

在第 \(t\) 步算完 \(K_t\)\(V_t\) 后,把它们存起来。第 \(t+1\) 步只需要计算 \(K_{t+1}\)\(V_{t+1}\),然后把它们追加到缓存中。所有之前 token 的 K 和 V 直接从缓存读取。

就像这样:

步骤 计算内容 缓存
生成 token 1 \(K_1, V_1\),存起来 \([K_1, V_1]\)
生成 token 2 只算 \(K_2, V_2\),追加到缓存 \([K_{1,2}, V_{1,2}]\)
生成 token 3 只算 \(K_3, V_3\),追加到缓存 \([K_{1,3}, V_{1,3}]\)
每步只算一个 \((K_t, V_t)\) 缓存逐步增长

于是,原本的每一步的注意力计算是这样:

\[\text{Attention} = \text{softmax}\left(\frac{q_{new} \cdot K_{1:t}^T}{\sqrt{d}}\right)V_{1:t} \]

现在加入 KV Cache 就变成了这样:

\[\text{Attention} = \text{softmax}\left(\frac{q_{new} \cdot [K_{\text{cache}}; k_t]^T}{\sqrt{d}}\right)[V_{\text{cache}}; v_t] \]

其中: \(K_{\text{cache}} = [k_1, k_2, \dots, k_{t-1}]\)\(V_{\text{cache}} = [v_1, v_2, \dots, v_{t-1}]\) 是缓存的历史。只有 \(q_t, k_t, v_t\) 是当前步需要计算的。

很显然,通过 KV Cache 我们消灭了计算 KV 投影时的无用功。在长文本生成时,其带来的性能差距是数量级的。

2.2 为什么 Q 不需要缓存?

既然 K 和 V 都被缓存了,一个可能的问题是:

为什么不把 Q 也缓存起来复用?

区别在于它们的角色不同:
在自回归生成的每一步,当前 token 的 Q 作用是查询历史信息\(q_t\) 与所有历史 K 计算注意力分数,然后从所有历史 V 中聚合信息来预测下一个 token。

一旦这一步的预测完成,\(q_t\) 的历史使命就结束了。
未来步的 \(q_{t+1}, q_{t+2}, \dots\) 只关心它们自己与历史的匹配,不再需要回头看 \(q_t\)

\(k_t\)\(v_t\) 不一样。它们在第 \(t\) 步生成后,仍然会被未来的所有 token 查询
只要未来某一刻的 \(q_s\)\(s > t\))需要与第 \(t\) 步的信息做注意力计算,\(k_t\)\(v_t\) 就必须一直存在。

所以总结来说就是:Q 是查完即弃,无需保留。

2.3 KV Cache 的内存开销

KV Cache 不是免费的午餐,它的本质就是典型的空间换时间

在推理过程中,我们将历史 token 的 K 和 V 保存在显存中,以避免后续步骤重复计算。计算省下来了,但这些缓存需要一直保留到生成结束。

对于传统 Multi-Head Attention,每一层 KV Cache 的大小近似为:

\[\text{Memory}_{\mathrm{layer}} = 2 \times \mathrm{batch\_size} \times \mathrm{seq\_len} \times d_{\mathrm{model}} \times \mathrm{dtype\_bytes} \]

其中:

  1. 2:表示 K 和 V 各保存一份;
  2. batch_size:批次大小,推理中为并行请求数。
  3. seq_len:当前缓存中的累计 Token 数量。
  4. \(d_{\text{model}}\):隐藏层维度。
  5. dtype_bytes:数据精度占用字节数(FP32 为 4,FP16/BF16 为 2)。

很显然,这并不是一笔小开支。举个简单的例子,假设:

参数 取值
\(d_{\text{model}}\) 8192
Transformer 层数 80
上下文长度 4096
精度 BF16(2 Byte)

那么单层 KV Cache 大约需要:

\[2 \times 4096 \times 8192 \times 2 \approx 134\text{ MB} \]

80 层累计下来就是:

\[134 \times 80 \approx 10.7\text{ GB} \]

也就是说,一个拥有数千 token 上下文的大模型会话,仅 KV Cache 就可能占据十 GB 量级的显存。

如果进一步进行批量推理:\(\text{batch_size} = 64\),那么 KV Cache 占用还会近似放大 64 倍。
因此,KV Cache 虽然解决了重复计算的问题,却把压力从计算转移到了内存上。

于是这种内存压力,又反过来驱动了注意力结构的变革和一系列配套工程优化,这便是之后的内容了。

文章摘自:https://www.cnblogs.com/Goblinscholar/p/20373378