Serving System

LLM 推理系统

推理总览 · 请求生命周期 · Prefill/Decode · KV Cache · 性能优化 · 引擎选型

llminferencekv-cacheserving

Module Switcher

LLM 推理系统化模块

总览与流程3

Prefill 与 Decode2

KV Cache 与 Attention4

性能与优化2

引擎与面试3

内容模块

端到端链路

基础★☆☆⏱ 12 min

一句话结论

端到端推理链路要从用户请求进入服务开始，一直讲到 token 流式返回和资源释放。

复习定位

维度	内容
所属模块	LLM 推理系统
章节类型	机制类
解决问题	围绕请求生命周期、Prefill/Decode、KV Cache、Attention 优化、Serving Engine 和性能瓶颈建立系统化面试答案。
面试抓手	面试时按阶段讲，不要直接跳到 Transformer 公式。

完整推理链路概览

一个 prompt 从输入到输出，大体会经历 6 个阶段。核心本质是：模型先并行"读懂"整段输入，建立上下文状态和 KV cache，然后再进入自回归生成循环，每次只预测下一个 token。

请求封装

组织 system、user、assistant 消息和生成参数

Tokenization

把自然语言切成模型可读的 token IDs

推理调度

排队、优先级、continuous batching、KV Cache 预算

Prefill

并行处理完整 prompt，建立初始 KV Cache

Decode

逐 token 自回归生成，并持续更新 KV Cache

反解码返回

采样、detokenize，并通过流式接口返回

这种"自回归 + 不做本次梯度更新"的推理方式，正是 GPT 类语言模型的基本范式；而 Transformer 则提供了它内部 attention 和前馈网络的计算骨架。

第一阶段：请求封装与 Tokenization

用户输入的自然语言并不是模型真正看到的内容。服务层会先把 system、user、assistant 等多轮消息按固定模板组织起来，补上特殊标记。随后，文本经过 tokenizer（如 BPE 算法的 tiktoken），被切成 token 序列。对模型来说，一切输入都是 token IDs，不是"句子"。

第二阶段：推理调度层

请求到达后不会立刻进入 GPU，而是先进入推理服务框架（如 vLLM、TGI）。它们负责：

请求排队与优先级管理
动态 batching（continuous batching）
KV 缓存管理
流式返回

从系统视角看：用户输入 → prompt 模板展开 → tokenization → 请求调度/batching → 送入模型。vLLM 架构至少有 1 个 API server 负责 HTTP 和 tokenization，1 个 engine core 负责 scheduler 和 KV cache 管理，N 个 GPU worker 执行前向计算。

Q: Tokenization 属于 Transformer 前向推理的一部分吗？

严格来说，tokenization 不属于 Transformer 前向推理本身——模型只接收 input_ids。但在现代推理服务中，tokenizer 往往和 serving 引擎绑定在一起，工程上看起来像是推理引擎在处理原始字符串。vLLM 同时支持 text prompt 和 pre-tokenized prompt，两种模式都能跑。

第三阶段：Embedding 与位置编码

Token IDs 进入模型后，第一步是 embedding lookup——每个 token 查一张巨大的 embedding 表，得到高维向量表示。此时模型才真正进入连续空间的数值计算。

仅有 token 向量还不够，模型还需知道"谁在前、谁在后"。现代大模型通常使用 RoPE（Rotary Position Embedding），把位置信息融入 attention 计算，让模型在处理 token 时同时保留相对位置信息。

第四阶段：Transformer Block 内部计算

一个典型的 decoder-only LLM，每一层做两件事：

Self-Attention：当前位置的 token 查看上下文中哪些 token 最相关。模型把隐藏状态投影成 Q、K、V 三组向量，通过 Q 和 K 的相似度算出注意力权重，再对 V 加权求和。Causal mask 确保当前位置只能看到自己和前面的 token，不能偷看未来——这决定了模型天然是自回归生成的。
FFN / MLP：对每个 token 的表示单独做非线性变换，进一步提纯和增强特征，不跨位置交互。

可以粗略理解：Attention 负责"从上下文搬运信息"，FFN 负责"对当前位置做进一步加工"。中间配合残差连接和归一化。

Q: Q、K、V 的直觉理解？

Q = 我现在想找什么；K = 每个词身上的"索引标签"；V = 每个词真正携带的信息。类比图书馆检索：你的问题是 Q，书架上每本书的标签是 K，书里的内容是 V。先拿 Q 和所有 K 比较，相关度高的那些 V 被更多取出来，合成当前步该看的信息。Transformer 论文对 attention 的定义，本质上就是"一个 query 对一组 key-value 对做匹配，输出是 values 的加权和"。

第五阶段：Prefill——读完 Prompt

Prefill 阶段把整段 prompt 一次性跑完整个前向过程，为所有 token 计算各层隐藏状态，并生成后续 decode 要用到的 KV cache。这一步可以高度并行，因为整段输入已经完整给定，GPU 能把很多矩阵操作一起做完。Prefill 更像"先整体读题"，吞吐通常更高，属于 compute-bound 阶段。

第六阶段：Decode——逐 token 生成

Prefill 完成后，模型取最后一个位置的隐藏状态，通过输出层映射成整个词表上的 logits（下一个 token 的打分），再经 softmax 和解码策略决定输出。常见解码策略：

策略	方式	特点
Greedy	选概率最大的 token	确定性输出，缺乏多样性
Top-k	从概率最高的 k 个中采样	控制候选范围
Top-p（nucleus）	从累积概率达 p 的最小集合中采样	动态调整候选数
Temperature	调整 softmax 温度	高温更随机，低温更确定

随后进入循环：把刚生成的 token 接到上下文后面 → 复用 KV cache → 只为新 token 跑一遍前向 → 得到新的 logits → 再生成下一个 token。这就是大模型回答总是一个 token 一个 token 流式吐出来的原因。

Q: 为什么"第一个字慢，后面快"？

Prefill 更偏 compute-bound，可以把整段输入并行做大矩阵乘法，吃满 GPU 算力；Decode 更偏 memory-bound，每步只算一个 token，但强依赖历史 KV cache，频繁访问显存，步骤间有严格顺序依赖。所以工程上需要 FlashAttention、continuous batching、chunked prefill / Paged Attention 等优化来提升推理效率。

推理引擎与模型本体的职责划分

职责方	负责内容
推理引擎 / serving 系统	接 HTTP 请求、tokenization / 输入处理、调度 batching、管理 KV cache、协调 GPU worker、流式返回、采样与系统优化
LLM 模型本体	对 input_ids 做 embedding，经多层 Transformer block 的 self-attention 和 FFN，输出 logits（下一个 token 的分数分布）

推理引擎决定"怎么高效地跑"，模型决定"到底生成什么"。前者偏"编排与优化"，后者偏"语义计算与内容生成"。

关联模块

GPU 硬件与资源共享：提供 SM、HBM、NVLink、MIG/MPS、利用率诊断等底层直觉。
LLM 推理系统：提供 Prefill/Decode、KV Cache、Serving Engine 和推理优化语境。
Kubernetes 核心：提供调度、资源模型、控制器和扩展机制。
分布式训练 / 调度与集群：提供多卡通信、队列、公平性、拓扑和容错背景。

内容模块

推理总览

基础★☆☆⏱ 10 min

一句话结论

Prefill/Decode 是 LLM 推理最核心的阶段划分：prefill 负责一次性读完 prompt 并建立 KV cache，decode 负责逐 token 生成并持续读写 KV cache。

复习定位

维度	内容
所属模块	LLM 推理系统
章节类型	机制类
解决问题	围绕请求生命周期、Prefill/Decode、KV Cache、Attention 优化、Serving Engine 和性能瓶颈建立系统化面试答案。
面试抓手	先分阶段，再解释 TTFT/TPOT，最后落到 compute-bound 与 memory-bound。

LLM 推理是什么

LLM 推理是模型接收用户输入，并逐步生成回复的过程。一次完整请求通常包含请求调度、Prompt 预处理、Prefill 计算、Decode 逐 token 生成和结果返回几个阶段。

推理可以拆成两个核心阶段：Prefill 一次性处理完整 Prompt，生成初始 KV Cache；Decode 基于已有上下文逐 token 生成回复，并持续更新 KV Cache。

核心判断：Prefill 更偏计算密集，主要受输入长度、模型规模和 GPU 算力影响；Decode 更偏访存密集，主要受 KV Cache 读写、显存带宽和 batch 调度影响。

核心概念

概念	说明
Prompt	用户输入给模型的上下文
Token	模型处理和生成文本的基本单位
Prefill	处理完整输入，生成首 token 所需上下文和 KV Cache
Decode	每次生成一个新 token，并更新 KV Cache
KV Cache	缓存历史 token 的 Key 和 Value，避免重复计算
TTFT	Time To First Token，首 token 延迟
TPOT	Time Per Output Token，单 token 生成耗时

Prefill 与 Decode

维度	Prefill	Decode
输入	完整 Prompt token 序列	上一步生成的 token 和历史 KV Cache
输出	初始上下文、KV Cache、首 token 分布	下一个 token 和新增 KV Cache
计算模式	并行处理多个 token	串行逐 token 生成
主要瓶颈	矩阵计算、长上下文 attention	KV Cache 读取、显存带宽
关键指标	TTFT	TPOT、吞吐、P99 延迟

记忆框架

LLM 推理系统的主线可以按“请求怎么流动、每个阶段做什么、瓶颈在哪里、如何优化、用什么引擎落地”来理解。

后续模块按这个顺序展开：先讲请求生命周期，再分别拆 Prefill 和 Decode，然后解释 KV Cache 与 Attention，最后落到性能指标、优化技术和推理引擎选型。

关联模块

GPU 硬件与资源共享：提供 SM、HBM、NVLink、MIG/MPS、利用率诊断等底层直觉。
LLM 推理系统：提供 Prefill/Decode、KV Cache、Serving Engine 和推理优化语境。
Kubernetes 核心：提供调度、资源模型、控制器和扩展机制。
分布式训练 / 调度与集群：提供多卡通信、队列、公平性、拓扑和容错背景。

内容模块

请求生命周期

基础★★☆⏱ 12 min

一句话结论

请求生命周期要把 API 接入、tokenization、调度、prefill、decode、stream 返回和缓存释放串成一条链。

复习定位

维度	内容
所属模块	LLM 推理系统
章节类型	机制类
解决问题	围绕请求生命周期、Prefill/Decode、KV Cache、Attention 优化、Serving Engine 和性能瓶颈建立系统化面试答案。
面试抓手	回答时不要只讲模型 forward，要把引擎调度和 KV cache 管理一起讲。

请求生命周期

一次 LLM 推理请求不是“直接进模型然后输出文本”，而是经过接入、排队、调度、计算、采样和返回等多个环节。理解这条链路，才能判断 TTFT、TPOT、吞吐和显存问题分别发生在哪里。

Q: 为什么 KV 缓存只缓存 K 和 V，不缓存 Q？

一个东西值不值得缓存，不看它"重不重要"，而看它"后面还会不会再次被用到"。Q 只在当前这一步有用一次——当前 token 的 Query 只需要和历史 K/V 做注意力计算；而 K、V 会在后面每一步继续被反复用到——未来每个新 token 的 Query 都需要和所有历史 token 的 Key 做匹配。所以 KV cache 只缓存 K 和 V，不缓存 Q，不是因为 Q 不重要，而是因为 Q 不需要重复使用。

PagedAttention（vLLM）

传统 KV 缓存预分配连续内存，最大长度固定，短请求浪费严重。PagedAttention 借鉴操作系统虚拟内存的分页思想：

把 KV 缓存切成固定大小的 block（如 16 token 一块）
用 block table 维护逻辑到物理的映射
按需分配，请求结束释放，消除内部碎片
支持 copy-on-write，多个 beam 可共享公共前缀

端到端流程

阶段	输入	主要动作	输出
请求接入	用户 Prompt、生成参数	鉴权、限流、参数校验	标准化请求
Tokenization	文本 Prompt	切分为 token ID	token 序列
调度排队	token 序列、优先级、SLO	选择进入 batch 的请求	执行计划
Prefill	完整 Prompt token	并行计算上下文和 attention	初始 KV Cache
Decode	历史 KV Cache、新 token	逐 token 自回归生成	新 token、更新后的 KV Cache
采样与返回	logits、采样参数	temperature、top-p、top-k、反序列化	流式文本或完整文本

调度器职责

调度器决定“哪些请求先跑、哪些请求一起跑、显存不够时怎么办”。它需要同时处理计算资源、显存资源和服务延迟目标。

职责	说明
准入控制	根据显存、batch、优先级决定请求能否进入运行队列
Batch 组织	把多个请求组合成更高效的执行批次
KV Cache 分配	为每个请求分配或复用 KV block
抢占与恢复	显存不足时换出、重算或终止低优先级请求
完成回收	请求结束后释放 KV Cache 和调度状态

核心路径

用户请求

Prompt、会话上下文、生成参数进入服务层

网关 / API Server

鉴权、限流、参数校验、路由到推理引擎

Tokenizer

文本转 token IDs，必要时应用聊天模板

Scheduler

组织 batch、分配 KV Cache、决定 prefill/decode 顺序

Prefill Worker

处理完整 prompt，写入初始 KV Cache

Decode Worker

每轮生成新 token，并追加 K/V

Sampler

根据 logits 执行 temperature、top-p、top-k 等采样

Stream Response

detokenize 后通过 SSE/WebSocket/HTTP 返回

常见问题定位

现象	更可能的问题位置	排查方向
首 token 很慢	排队、Tokenization、Prefill	看 TTFT、prefill batch、prompt 长度
输出过程中卡顿	Decode、采样、流式返回	看 TPOT、KV Cache 读取、网络返回
并发上不去	KV Cache、显存、调度	看显存余量、block 碎片、最大 batch
GPU 利用率低	Decode memory-bound	看 MFU、HBM 带宽、batch size
P99 抖动大	长 prompt 阻塞、抢占、换出	看 chunked prefill、优先级调度

关联模块

GPU 硬件与资源共享：提供 SM、HBM、NVLink、MIG/MPS、利用率诊断等底层直觉。
LLM 推理系统：提供 Prefill/Decode、KV Cache、Serving Engine 和推理优化语境。
Kubernetes 核心：提供调度、资源模型、控制器和扩展机制。
分布式训练 / 调度与集群：提供多卡通信、队列、公平性、拓扑和容错背景。

内容模块

Prefill 阶段

进阶★☆☆⏱ 12 min

一句话结论

Prefill 阶段的核心是大矩阵计算和首 token 延迟，优化重点是 batching、prefix cache、算子选择和 GPU 算力利用。

复习定位

维度	内容
所属模块	LLM 推理系统
章节类型	机制类
解决问题	围绕请求生命周期、Prefill/Decode、KV Cache、Attention 优化、Serving Engine 和性能瓶颈建立系统化面试答案。
面试抓手	把 TTFT 拆成排队、tokenization、prefill compute 和返回链路。

Prefill 阶段

Prefill 阶段一次性处理完整 Prompt，计算所有输入 token 的 attention，并生成后续 Decode 所需的 KV Cache。它主要影响 TTFT，也就是用户看到第一个 token 前的等待时间。

输入与输出

项目	内容
输入	完整 Prompt token 序列
计算	Embedding、QKV 投影、Attention、FFN、Logits
输出	首 token 分布、完整 Prompt 的 KV Cache
关键指标	TTFT、Prefill tokens/s、排队等待时间

为什么计算密集

Prefill 会并行处理多个 token，矩阵乘规模大，能够较好地利用 Tensor Core。长 Prompt 下 attention 的计算和显存访问都会增加，但整体通常更偏 compute-bound。

影响因素	影响方式	优化方向
Prompt 长度	输入越长，attention 和 FFN 计算越多	Prompt 压缩、Prefix Cache
模型参数量	模型越大，前向计算越重	量化、模型裁剪、并行
Batch 大小	大 batch 提升吞吐，也可能增加排队	动态 batch、优先级调度
Attention 实现	标准 attention 中间读写开销高	FlashAttention、算子融合
长 Prompt	单次 Prefill 时间过长	Chunked Prefill

TTFT 拆解

TTFT = 排队等待 + Tokenization + Prefill 计算 + 首 token 采样 + 网络返回

其中 Prefill 计算通常是主要部分，但在高并发服务中，排队等待也可能成为 TTFT 的主要来源。

优化重点

目标	手段	说明
降低首 token 延迟	FlashAttention、算子融合	减少 attention 中间读写
减少重复计算	Prefix Cache	复用相同 system prompt 或历史上下文
防止长 Prompt 阻塞	Chunked Prefill	把长 Prompt 拆块，穿插 Decode 执行
提升吞吐	Continuous Batching	调度器动态填充 batch
降低显存占用	量化、KV Cache 管理	给更多并发请求留空间

易错点

Prefill 不等于“生成阶段”，它主要处理输入上下文。Prefill 慢不一定是模型本身慢，也可能是排队、Prompt 过长、batch 组织不合理或前缀缓存没有命中。

关联模块

GPU 硬件与资源共享：提供 SM、HBM、NVLink、MIG/MPS、利用率诊断等底层直觉。
LLM 推理系统：提供 Prefill/Decode、KV Cache、Serving Engine 和推理优化语境。
Kubernetes 核心：提供调度、资源模型、控制器和扩展机制。
分布式训练 / 调度与集群：提供多卡通信、队列、公平性、拓扑和容错背景。

内容模块

Decode 阶段

进阶★☆☆⏱ 12 min

一句话结论

Decode 阶段的核心是逐 token 生成和 KV cache 访存，batch 小时常见 memory-bound。

复习定位

维度	内容
所属模块	LLM 推理系统
章节类型	机制类
解决问题	围绕请求生命周期、Prefill/Decode、KV Cache、Attention 优化、Serving Engine 和性能瓶颈建立系统化面试答案。
面试抓手	把 TPOT 拆成调度、KV 读取、单步 forward、采样和流式返回。

Decode 阶段

Decode 阶段负责自回归生成。模型每一步只生成一个新 token，但每一步都需要读取历史 KV Cache，所以它通常是推理服务中最容易受到显存带宽限制的阶段。

输入与输出

项目	内容
输入	上一步生成的 token、历史 KV Cache、采样参数
计算	单 token 前向、读取历史 K/V、生成 logits
输出	下一个 token、新增 K/V、更新后的序列
关键指标	TPOT、tokens/s、P95/P99 延迟

为什么访存密集

Decode 每步只处理一个新 token，矩阵乘规模小，无法充分吃满 GPU 算力；但它要读取历史所有 token 的 K/V，序列越长、batch 越大，读取量越高。

资源	Decode 中的表现
算力	单 token 计算量小，Tensor Core 利用率不高
显存带宽	每步读取模型权重和 KV Cache，容易成为瓶颈
显存容量	KV Cache 随上下文长度和并发数线性增长
调度	batch 组织决定权重读取能否被多请求摊销

TPOT 拆解

TPOT = 单步模型计算 + KV Cache 读取 + 采样 + 流式返回

Decode 阶段的用户感知不是“第一个 token 多快”，而是“后续 token 是否稳定、连续、不卡顿”。

优化重点

目标	手段	说明
降低单 token 延迟	CUDA Graph、Kernel Fusion	减少 CPU-GPU 调度和中间读写
提高吞吐	Continuous Batching	多请求共享权重读取成本
降低 KV 读取压力	GQA/MQA、KV Cache 量化	减少每步读取的数据量
减少显存碎片	PagedAttention	按需分配 KV block
降低长尾延迟	优先级调度、抢占、分离式推理	避免长请求拖垮短请求

易错点

Decode 的 GPU 利用率低不一定是实现差，根因通常是 memory-bound。增大 batch 可以摊销权重读取，但 KV Cache 读取也会随 batch 和序列长度增长，所以 batch 不是无限增大的。

关联模块

GPU 硬件与资源共享：提供 SM、HBM、NVLink、MIG/MPS、利用率诊断等底层直觉。
LLM 推理系统：提供 Prefill/Decode、KV Cache、Serving Engine 和推理优化语境。
Kubernetes 核心：提供调度、资源模型、控制器和扩展机制。
分布式训练 / 调度与集群：提供多卡通信、队列、公平性、拓扑和容错背景。

内容模块

KV Cache 与 Attention

进阶★☆☆⏱ 18 min

一句话结论

KV Cache、PagedAttention、FlashAttention 分别解决不同问题：缓存历史、管理显存、减少 HBM IO。

复习定位

维度	内容
所属模块	LLM 推理系统
章节类型	机制类
解决问题	围绕请求生命周期、Prefill/Decode、KV Cache、Attention 优化、Serving Engine 和性能瓶颈建立系统化面试答案。
面试抓手	先讲边界，再讲为什么三者可以组合。

KV Cache 的作用

自回归生成时，模型每生成一个新 token 都需要关注历史上下文。如果每一步都重新计算全部历史 token 的 Key 和 Value，计算代价会非常高；KV Cache 的作用就是把历史 K/V 缓存下来，每步只计算新增 token 的 K/V。

KV Cache 大小 = 2 × num_layers × num_kv_heads × head_dim × seq_len × dtype_bytes

公式中的 2 分别代表 Key 和 Value。KV Cache 随序列长度、batch size 和 KV head 数量线性增长，是长上下文和高并发推理的核心显存压力来源。

显存为什么紧张

显存类别	特点	对推理的影响
模型权重	加载后固定，可通过 TP/PP 切分	决定基础显存门槛
KV Cache	每个请求独立，随上下文增长	决定并发数和最大上下文
临时激活	Prefill 时较明显，Decode 时较小	影响峰值显存
Runtime Buffer	框架和 kernel 需要的工作区	影响可用余量

Attention 变体

机制	KV Head 数	KV Cache	质量与场景
MHA	等于 Query Head 数	最大	质量好，但推理显存压力大
GQA	多个 Query Head 共享一组 K/V	缩小数倍	当前主流，质量和效率平衡
MQA	所有 Query Head 共享一组 K/V	最小	显存最省，但质量可能受影响
MLA	压缩到 latent 表示	很小	DeepSeek 系列代表的前沿方案

PagedAttention

PagedAttention 借鉴操作系统虚拟内存的分页思想，把 KV Cache 切成固定大小的 block，并用 block table 维护逻辑 token 到物理 block 的映射。

问题	传统连续分配	PagedAttention
短请求浪费	按最大长度预留，浪费大	按需分配 block
显存碎片	连续空间难复用	非连续 block 可组合
前缀共享	复用困难	支持引用计数和 copy-on-write
并发能力	受预分配限制	更接近真实显存上限

PagedAttention 为什么颠覆传统推理调度

传统推理调度常被 KV Cache 的连续显存分配限制住：每个请求要么预留最大长度，要么在生成过程中频繁扩容；请求结束后释放的空间也未必能被新请求连续复用。PagedAttention 把 KV Cache 管成固定大小的物理 block，请求看到的是逻辑 token 序列，底层可以映射到不连续 block。

这带来三个调度变化：

变化	传统方式	PagedAttention 后
接纳新请求	需要判断是否有足够连续 KV 空间	只要有足够空闲 block 就可接纳
释放请求	释放一大段连续 cache，容易形成洞	释放一组 block，直接回到 block pool
前缀复用	很难共享不同请求的公共 prompt	block 可以引用计数，支持 prefix cache 和 copy-on-write
调度粒度	多按请求级别粗粒度调度	可以按 token/block 预算做细粒度调度

因此 vLLM 这类推理引擎可以把调度器从“静态 batch + 固定显存”推进到“iteration-level scheduling + block-level KV 管理”。这也是 Continuous Batching 能稳定工作的基础：每一轮 decode 后，完成的请求释放 block，新请求只要拿到 block 就能进入 running set。

面试口径：PagedAttention 不是一个 attention kernel，而是 KV Cache 的虚拟内存系统。它解决的是显存碎片和动态请求接纳问题，从而支撑 continuous batching。

FlashAttention

FlashAttention 解决的是 attention 计算中的中间矩阵读写问题，而不是 KV Cache 管理问题。它通过分块计算和 online softmax 避免把完整 attention score 矩阵写回 HBM，从而降低显存读写并提升速度。

技术	解决的问题	主要阶段
KV Cache	避免重复计算历史 K/V	Decode
PagedAttention	降低 KV Cache 碎片和浪费	Serving 调度
FlashAttention	降低 attention 中间读写	Prefill 和长上下文
GQA/MQA	从模型结构上减少 KV Cache	Decode 和长上下文

易错点

PagedAttention 和 FlashAttention 不是同一类技术。PagedAttention 管 KV Cache 的存储和分配，FlashAttention 优化 attention kernel 的计算和访存，两者可以同时使用。

高频追问

Q: PagedAttention 和操作系统分页有什么相似点？

相似点是都把“逻辑连续”映射到“物理不连续”。OS 里进程看到连续虚拟地址，页表映射到物理页；PagedAttention 里请求看到连续 token/KV 序列，block table 映射到 GPU KV block。这样可以按需分配、释放和复用 block，降低内部/外部碎片。

Q: PagedAttention 会不会降低 attention 计算效率？

它增加了 block table 查询和非连续 block 访问的管理复杂度，但换来更高的显存利用率和更大的可运行 batch。在服务场景中，吞吐瓶颈往往来自 KV Cache 容量和调度空洞，而不是单次 attention 的极限 kernel 性能，所以整体收益通常更大。

参考资料

vLLM 官方 Anatomy 文章：系统性解释 scheduler、PagedAttention、continuous batching、chunked prefill、speculative decoding 和 disaggregated P/D。
vLLM internals 资料：从 block pool、KV cache manager 和 scheduler 角度解释 PagedAttention 的运行方式。

关联模块

GPU 硬件与资源共享：提供 SM、HBM、NVLink、MIG/MPS、利用率诊断等底层直觉。
LLM 推理系统：提供 Prefill/Decode、KV Cache、Serving Engine 和推理优化语境。
Kubernetes 核心：提供调度、资源模型、控制器和扩展机制。
分布式训练 / 调度与集群：提供多卡通信、队列、公平性、拓扑和容错背景。

内容模块

KV Cache 显存预算实算

进阶★☆☆⏱ 14 min

一句话结论

KV Cache 显存预算决定推理并发上限，单 token、单请求、并发请求要逐级放大计算。

复习定位

维度	内容
所属模块	LLM 推理系统
章节类型	机制类（含公式）
解决问题	围绕请求生命周期、Prefill/Decode、KV Cache、Attention 优化、Serving Engine 和性能瓶颈建立系统化面试答案。
面试抓手	公式要写清 layers、kv_heads、head_dim、K/V 两份和 bytes。

单 token KV Cache 到底多大：Llama-2-70B 实算

KV Cache 大小公式：

$$\text{每 token 字节数} = \text{layers} \times \text{kv\_heads} \times \text{head\_dim} \times 2 \times \text{bytes}$$

公式里的 2 是 K 和 V 各一份。代入 Llama-2-70B（FP16）：

项	含义	取值
layers	Transformer 层数	80
kv_heads	KV head 数（GQA）	8
head_dim	每个 head 维度	128
2	K 和 V 两份	2
bytes	FP16 每元素	2

$$80 \times 8 \times 128 \times 2 \times 2 = 327{,}680\ \text{bytes} \approx 320\ \text{KB/token}$$

关键：这只是一个 token 的 KV Cache，而且这是已经用 GQA（8 个 KV head）压过的结果。

从单 token 放大到并发服务：显存压力来源

把单 token 乘上序列长度和并发请求数，显存占用迅速膨胀：

规模	计算	KV Cache
1 token	—	320 KB
1 请求 · 4096 上下文	$4096 \times 320\ \text{KB}$	≈ 1.3 GB
32 并发请求	$32 \times 1.3\ \text{GB}$	≈ 41.6 GB

也就是说，仅 32 个 4096 上下文的请求，KV Cache 就能吃掉一张 A100/H100 的大半显存。模型权重之外，KV Cache 容量往往才是决定能并发多少请求的真正瓶颈，这也是 GQA/量化/PagedAttention 都在围绕它做文章的原因。

架构层定量收益：MQA / GQA 缩小多少

KV Cache 大小正比于 KV head 数，所以减少 KV head 直接按比例省显存。以 64 个 query head 为例：

机制	KV head 数	相比 MHA	权衡
MHA	64（每个 query head 独享）	1×（基准）	质量最好，显存压力最大
GQA（Llama-2-70B）	8（每 8 个 query head 共享 1 组）	$\frac{8}{64} = \frac{1}{8}$，省 8 倍	主流折中，质量与效率平衡
MQA	1（全部 query head 共享 1 组）	$\frac{1}{64}$，最省	显存最省，表达力下降可能影响质量

Llama-2-70B 用 GQA：64 个 query head 共享 8 个 KV head，KV Cache 比标准 MHA 小 8 倍——上面 320 KB/token 若退回 MHA 会膨胀到约 2.5 MB/token。

数值层定量收益：KV Cache 量化的 trade-off

量化按元素字节数直接缩小 KV Cache：

精度	每元素	相比 FP16	1.3 GB 请求量化后	风险
FP16	2 bytes	1×	1.3 GB	精度稳定，显存大
INT8	1 byte	1/2	≈ 0.65 GB	显存减半，可能轻微影响质量
INT4	0.5 byte	1/4	≈ 0.33 GB	降到 1/4，质量风险更高

难点：decode 每一步都要用历史 K/V 做 attention，误差会沿生成步累积，量化太激进会扰动注意力分布、拉低生成质量。所以 KV 量化是典型 trade-off——通常 INT8 较安全，INT4 需配合 per-channel/group 量化和敏感层保护。

和权重量化不同：权重量化误差是静态的，KV 量化误差会随 decode 步累积，所以 attention 对 KV 精度更敏感。

三层优化串起来记

层面	方法	作用	定量直觉
架构层	MQA / GQA	减少 KV head 数	GQA 省 8 倍，MQA 省 64 倍
数值层	KV Cache 量化	降低每元素字节数	INT8 省 1/2，INT4 省 3/4
系统层	PagedAttention	消除预分配浪费和碎片	按 block 按需分配，逼近真实显存上限

三者正交、可叠加：先用 GQA 把结构性 KV 降下来，再用量化压每元素字节，最后用 PagedAttention 把分配效率拉满（PagedAttention 细节见「KV Cache 与 Attention」子页）。

Q: KV Cache 为什么占这么多显存？给个量化的例子。

因为每一层、每个 KV head、每个 token 都要存 K 和 V。大小约为 layers × kv_heads × head_dim × 2 × bytes × seq_len × 并发数。对 Llama-2-70B（80 层、8 个 KV head、head_dim 128、FP16），单 token ≈ 320 KB；4096 上下文一个请求 ≈ 1.3 GB；并发 32 个就 ≈ 41.6 GB。所以 KV Cache 容量常常比权重更先成为并发上限。

Q: 为什么 KV Cache 量化比权重量化更需要小心？

权重量化误差是静态的、一次性的；而 KV 在 decode 阶段每一步都被反复读出来做 attention，量化误差会沿生成步累积并扰动注意力分布，越长的序列影响越明显。所以 KV 一般 INT8 较稳，INT4 要配合 per-channel/group 量化、保护敏感层，否则容易掉点。

关联模块

GPU 硬件与资源共享：提供 SM、HBM、NVLink、MIG/MPS、利用率诊断等底层直觉。
LLM 推理系统：提供 Prefill/Decode、KV Cache、Serving Engine 和推理优化语境。
Kubernetes 核心：提供调度、资源模型、控制器和扩展机制。
分布式训练 / 调度与集群：提供多卡通信、队列、公平性、拓扑和容错背景。

内容模块

PagedAttention 图解

进阶★☆☆⏱ 16 min

一句话结论

PagedAttention 把 KV cache 从连续大块分配变成 block table 映射，核心价值是减少碎片和支持 continuous batching。

复习定位

维度	内容
所属模块	LLM 推理系统
章节类型	机制类
解决问题	围绕请求生命周期、Prefill/Decode、KV Cache、Attention 优化、Serving Engine 和性能瓶颈建立系统化面试答案。
面试抓手	用 OS 分页类比，但要说明 GPU attention 仍需高效访存。

一句话先抓住本质

PagedAttention 不是一种 attention 算法，而是 vLLM 给 KV Cache 设计的一套“虚拟内存”管理系统。它把 KV Cache 切成固定大小的小块（block），让一个请求逻辑上看到连续的 token 序列，物理显存里却可以散落在任意位置——和操作系统用分页管理内存是同一个思路。

类比一句话：PagedAttention 之于 KV Cache，就像操作系统分页之于进程内存。

它要解决的痛点：传统连续分配的两种浪费

传统做法是给每个请求预分配一整块连续显存，按支持的最大长度（比如 4096）预留。问题是大多数请求根本用不到最大长度。

下图：系统支持 4096 token，但请求 A 只生成了 800 token。预留的连续大块里，绝大部分是被白白占住、又不能给别人用的浪费。

浪费类型	怎么产生	后果
内部浪费	按 max_len 预留，实际只用一小段	大量预留显存闲置，并发数被压低
外部碎片	请求结束释放后留下大小不一的空洞	空闲总量够、但拼不出连续大块，新请求进不来

核心做法：切成 block + 用 block table 做映射

PagedAttention 把 KV Cache 切成固定大小的 block（vLLM 默认每块放 16 个 token 的 K/V）。请求需要多少 token，就按需领多少 block，不要求这些 block 在显存里连续。一张 block table（相当于页表）记录“逻辑第几块 → 物理哪个 block”。

和操作系统分页一一对应

如果你学过操作系统的虚拟内存，PagedAttention 几乎就是把同一套机制搬到了 GPU 显存上：

操作系统虚拟内存	PagedAttention
进程看到的连续虚拟地址空间	请求看到的连续 KV / token 序列
物理内存页（page）	固定大小的 KV block（默认 16 token）
页表（page table）	block table
按需分配物理页（缺页时分配）	写满一块才领下一个 block
分页消除外部碎片	非连续 block 可组合，消除 KV 显存碎片
共享内存页 / copy-on-write	多请求共享公共 prompt 前缀（prefix cache、引用计数 + COW）

一个具体例子：从 800 token 看收益

设 block = 16 token，请求 A 实际生成 800 token：

传统连续分配：按 max_len 4096 预留连续显存，相当于占住 256 个 block 的空间，但只用了其中约 50 个，约 80% 预留显存被浪费，且整段必须连续。
PagedAttention：只领 ⌈800 / 16⌉ = 50 个 block，其余显存留给别的请求；这 50 个 block 还不必相邻。生成超过 800 时再继续领，结束后 50 个 block 全部还池。

同样的显存，PagedAttention 能塞下多得多的并发请求——因为没有人再为“可能用到的最大长度”提前占坑。这正是 vLLM 吞吐高的关键基础之一。

为什么它是 continuous batching 的地基

continuous batching 要让请求每一轮 decode 都能动态进出 batch。如果 KV Cache 还要求连续预留，请求频繁进出会立刻把显存搅成碎片，新请求常常因为“没有连续空间”而进不来。PagedAttention 把分配粒度降到固定大小的 block：请求退出就还 block，新请求按需领 block，永远不需要连续大块，于是高频的 iteration-level 调度才跑得稳。

Q: 用一句话解释 PagedAttention，再说它解决什么问题。

PagedAttention 是 vLLM 借鉴操作系统分页、给 KV Cache 做的虚拟内存管理：把 KV Cache 切成固定大小的 block，逻辑连续、物理可不连续，用 block table 维护映射。它解决两件事——预分配按最大长度预留造成的内部浪费，以及请求进出留下空洞造成的外部碎片，从而提升显存利用率和并发数，并支撑 continuous batching 和前缀共享。

Q: block 切小或切大有什么影响？

block 越小，内部浪费越少（最后一块尾部空余更小），但 block table 项更多、管理和查表开销更大；block 越大，管理开销小，但每个请求最后一块的尾部浪费更明显，前缀共享的粒度也更粗。vLLM 默认 16 token 一块，是浪费和开销之间的折中。

Q: 物理 block 不连续，attention 计算会不会变慢或出错？

不会出错：kernel 读 KV 时先查 block table 找到每个逻辑块对应的物理 block，再去取数，逻辑顺序由映射保证。性能上确实多了查表和非连续访问的开销，但服务场景的瓶颈通常是 KV Cache 容量和调度空洞，而不是单次 attention 的极限带宽，所以换来更高并发和吞吐是划算的。

关联模块

GPU 硬件与资源共享：提供 SM、HBM、NVLink、MIG/MPS、利用率诊断等底层直觉。
LLM 推理系统：提供 Prefill/Decode、KV Cache、Serving Engine 和推理优化语境。
Kubernetes 核心：提供调度、资源模型、控制器和扩展机制。
分布式训练 / 调度与集群：提供多卡通信、队列、公平性、拓扑和容错背景。

内容模块

FlashAttention

进阶★☆☆⏱ 30 min

一句话结论

FlashAttention 的本质是 tiling + online softmax，让 attention 中间大矩阵不落 HBM。

复习定位

维度	内容
所属模块	LLM 推理系统
章节类型	机制类
解决问题	围绕请求生命周期、Prefill/Decode、KV Cache、Attention 优化、Serving Engine 和性能瓶颈建立系统化面试答案。
面试抓手	讲清标准 attention 慢在 IO，不是数学结果变了。

一句话先抓住本质

FlashAttention 不减少 attention 的计算量（FLOPs 一点没少，甚至略增），它减少的是 GPU 显存（HBM）的读写次数。因为标准 attention 是 memory-bound——瓶颈在搬数据而不是算数据，所以“少搬数据”比“少算”更能加速。它是精确的，结果和标准 attention 完全一致，不是近似。

记忆口径：不省计算、只省 HBM 读写；精确而非近似；手段是 tiling + online softmax + kernel fusion。

先讲清楚标准 Attention 慢在哪

标准实现里，QKᵀ 会先算出一个 seq_len × seq_len 的注意力分数矩阵。长序列下这个矩阵非常大（比如 seq_len=4096 就是 4096×4096）。它要被写到 HBM，Softmax 再从 HBM 读回来处理、写回去，最后再读出来跟 V 做矩阵乘。中间这个大矩阵在 HBM 上来回读写好几趟。

问题是 attention 本身算术强度低：相对于要搬运的数据量，真正做的浮点运算并不多。于是时间几乎全花在 HBM 读写上，GPU 的算力单元大量空闲。

什么是 tiling（分块）

tiling 就是把一个大矩阵切成一格一格的小块，分批处理，而不是一次性整体处理。这个词来自“铺瓷砖”——一面大墙不是一整块，而是用许多小瓷砖拼起来。

为什么要切？因为 SRAM 容量极小（KB~MB 级），整个 seq×seq 的注意力矩阵（4096×4096 可能上百 MB）根本塞不进去。但如果只取 Q 的一小段行、K/V 的一小段，它们的乘积就是一个能装进 SRAM 的小块。于是把大矩阵乘法拆成“逐个小块计算、累加结果”：每次只搬一小块进 SRAM 算，算完丢弃中间结果、只留累加值，再搬下一块。

一句话：tiling = 把装不下的大矩阵乘法，拆成一格一格装得下的小块，逐块算、累加。它是几乎所有 GPU 高性能 kernel（不只 attention）的通用手段。

核心做法：tiling + online softmax，让大矩阵永不落 HBM

FlashAttention 把 Q、K、V 切成小块（tile），每次只把一小块加载进 SRAM（GPU 片上缓存，带宽比 HBM 高一到两个数量级），在 SRAM 里就地算完这一块的局部 attention。靠 online softmax（在线增量更新 softmax 的最大值和分母）的数学技巧，不需要先算出完整 QKᵀ 再做 softmax，而是一块一块累加出最终结果。

于是那个巨大的中间矩阵从头到尾不写回 HBM，始终在 SRAM 上被就地消费掉。HBM 上只读一次 Q/K/V、写一次输出。

为什么 SRAM 这么关键：GPU 存储层级

FlashAttention 的全部收益建立在“SRAM 比 HBM 快得多”这个事实上。GPU 存储是金字塔：越靠近计算单元越快、越小。

层级	速度/带宽	容量	角色
寄存器 / SRAM（片上）	极快（比 HBM 高 1–2 个数量级）	很小（KB~MB 级）	FlashAttention 在这里算局部 attention
HBM（显存）	快但远不如 SRAM	大（GB 级）	放权重、KV Cache、输入输出

把中间矩阵留在 SRAM、避免落 HBM，就是把工作从“慢通道”挪到“快通道”。这种“针对数据搬运而非计算做优化”的思路，论文里叫 IO-Awareness。

面试经典追问（区分“背答案”和“真懂”的试金石）

追问：“FlashAttention 实际 FLOPs 比标准 Attention 还高（反向传播要重计算），为什么反而更快？”

标准答法：因为 attention 是 memory-bound 操作，瓶颈在数据搬运量而不是计算量。FlashAttention 用少量额外计算，换来大幅减少的 HBM 读写；在 memory-bound 场景下，这笔买卖是划算的。

能这样回答，说明你真正理解了 Roofline 模型的思维：compute-bound 的操作想办法提高计算效率，memory-bound 的操作想办法减少数据搬运。AI Infra 里绝大部分优化，本质都是先用 Roofline 分析瓶颈，再对症下药。更完整的 FLOPs 推导、算术强度和逐算子 bound 分类已经迁到「Transformer 与大模型基础」里的「计算分析」分组。

FlashAttention-2 相比 V1 的改进

减少非矩阵乘运算 + 置换内外循环：GPU 上非 matmul 运算吞吐远低于 matmul，减少它能提速；配合调整循环顺序减少重复 rescaling。
增加并行维度：在 seq_len 维度上也做并行，让 SM（流多处理器）利用率打满，不只在 batch×head 上并行。
优化 warp 级工作划分：减少 warp 之间的通信和对 shared memory 的读写次数。

一句话：V1 解决“要不要落 HBM”，V2 在“怎么把 GPU 算得更满”上继续抠。

三个易混技术的边界

技术	解决什么	作用对象
FlashAttention	降低 attention 中间矩阵的 HBM 读写	attention kernel 的计算与访存
PagedAttention	降低 KV Cache 的显存浪费和碎片	KV Cache 的存储与分配
GQA / MQA	从模型结构上减少 KV head 数	KV Cache 的总量

三者正交、可同时使用：FlashAttention 优化“算 attention 时怎么访存”，PagedAttention 优化“KV Cache 怎么存放”，GQA/MQA 优化“KV Cache 有多大”。

Q: 用一句话讲 FlashAttention 的原理，以及它为什么能加速。

标准 attention 要把巨大的 QKᵀ 中间矩阵反复写读 HBM，而 attention 是 memory-bound 的，瓶颈在搬数据。FlashAttention 用 tiling 把 Q/K/V 分块加载进 SRAM，靠 online softmax 增量计算，让中间矩阵永不落 HBM，从而把 HBM 读写从 O(seq²) 级降下来。它没减少 FLOPs（甚至略增），但大幅减少了 HBM 访问，所以在 memory-bound 场景下更快；并且结果精确，不是近似。

Q: FlashAttention 和 PagedAttention 是一回事吗？

不是。FlashAttention 是 attention kernel 的计算/访存优化，目标是减少中间矩阵的 HBM 读写；PagedAttention 是 KV Cache 的存储管理（虚拟内存式分页），目标是减少显存浪费和碎片。两者解决不同问题、作用在不同环节，可以同时使用。

Q: online softmax 为什么能让 attention 增量计算？

普通 softmax 要先看到一整行分数才能算分母（所有 exp 之和）和最大值。online softmax 维护“当前见过的最大值”和“当前累计分母”，每来一个新块就按数值稳定的方式更新这两个量，并对已累加的输出做相应 rescale。这样不需要先凑齐整行，就能一块一块累加出和标准 softmax 完全相同的结果——这是中间矩阵不必落 HBM 的数学前提。

关联模块

GPU 硬件与资源共享：提供 SM、HBM、NVLink、MIG/MPS、利用率诊断等底层直觉。
LLM 推理系统：提供 Prefill/Decode、KV Cache、Serving Engine 和推理优化语境。
Kubernetes 核心：提供调度、资源模型、控制器和扩展机制。
分布式训练 / 调度与集群：提供多卡通信、队列、公平性、拓扑和容错背景。

一句话结论

FlashAttention 优化单次 attention 的 IO，vLLM/PagedAttention 优化多请求 KV cache 管理和调度。

复习定位

维度	内容
所属模块	LLM 推理系统
章节类型	机制类
解决问题	围绕请求生命周期、Prefill/Decode、KV Cache、Attention 优化、Serving Engine 和性能瓶颈建立系统化面试答案。
面试抓手	不要把 FlashAttention 和 PagedAttention 混为一谈。

FlashAttention V1 的三个特性

特性	含义
Fast（IO-Awareness）计算快	它没有减少总计算量（FLOPs），而是发现卡点不在算力而在显存读写。通过分块计算（tiling）和核函数融合（kernel fusion）降低对 HBM 的访问次数，从而加快整体速度。这种思路被称为 IO-Awareness。
Memory-Efficient 省显存	标准 attention 前向要计算并保存 N×N 注意力矩阵，反向再读取做梯度，造成 O(N²) 存储压力。FlashAttention 用 online softmax 避开保存完整矩阵，把存储压力降到 O(N)。
Exact 精确	之前的加速方法（如稀疏 attention）是近似，结果不等于标准 attention。FlashAttention 的结果与标准 attention 完全等同。

面试口径：FlashAttention 不减少计算量，而是减少 HBM 读写；它是精确的，不是近似的；核心手段是分块 + online softmax + kernel fusion。

标准 Attention vs FlashAttention V1 复杂度对比

指标	标准 Attention	FlashAttention V1
计算复杂度	两者相同，均为 $O(N^2 d)$
IO 复杂度	$O(Nd + N^2)$	$O\!\left(\dfrac{N^2 d^2}{M}\right)$（M 为 SRAM 大小，通常更小）
显存占用	$O(N^2)$	$O(N)$

关键差别：计算量没变，但 FlashAttention 通过分块让中间矩阵不落 HBM，把 IO 和显存占用都显著降低。当 SRAM 容量 M 越大，需要的 HBM 访问越少。

FlashAttention V2 的三点改进

置换内外循环位置，同时减少非矩阵乘（non-matmul）的计算量——GPU 上非矩阵乘运算吞吐远低于矩阵乘，减少它能提速。
优化 thread blocks 的并行化：新增 seq_len 维度的并行，让 SM 利用率尽量打满（与内外循环置换配套）。
优化 block 内部 warp 级别的工作模式：尽量减少 warp 间通讯和读取 shared memory 的次数。

vLLM 抢占（preemption）：显存打满了怎么办

动态分配显存能同时处理更多 prompt，但没有为每个 prompt 预留充足空间。如果某一刻显存被打满、而所有 prompt 都还没推理完，vLLM 的处理策略：

FCFS（First-Come-First-Serve）：优先处理最早到来的请求。
抢占后到请求：GPU 资源不足时，为让先来的请求尽快完成，vLLM 对后到的请求执行"抢占"，暂时终止它们的执行。
一旦决定抢占，vLLM 会暂停处理新到来的请求，把被抢占请求的 KV block 全部 swap 到 CPU，交换完成后才继续处理新请求。
当 GPU 资源充足时，把 CPU 上的 KV block 重新加载回 GPU，恢复被抢占请求（或走 recomputation 重算）。

vLLM Swapping 策略：释放哪些、放到哪里

问题 1：该释放哪些 KV cache？ 一个请求可能对应多个 block，理论上可以释放部分、全部，或预测低频 block 释放（实现难、性价比低）。vLLM 采取 all-or-nothing 策略：释放被抢占请求的所有 block。

问题 2：释放到哪里？ 直接丢弃太浪费，vLLM 把这些 KV block 从 GPU swap 到 CPU，等 GPU 显存充足时再从 CPU 重载回来。

vLLM Recomputation 策略

知道 swapping 后，重计算就好理解了：对于某些任务（比如 parallel sampling 中并行采样数 n=1 的任务），被抢占时可以不做 swap，而是直接释放它们的物理块，把请求重新放回等待队列，等资源充足时从 prefill 阶段重新开始推理。

Swapping 用"空间换时间"（KV 搬到 CPU 再搬回），Recomputation 用"时间换空间"（丢掉 KV 重新算）。vLLM 根据请求特征选择更划算的一种。

Q: LLM 推理有什么瓶颈？

从算子看：decode 阶段主要算子是 GEMV（矩阵×向量），属于 memory-bound，受限于显存带宽而非算力。从内存容量看：大的 KV cache、长上下文和复杂解码算法都吃显存，KV cache 容量往往决定能并发多少请求。所以推理优化既要降低带宽压力（量化、GQA/MQA、KV cache 量化），也要提高显存利用率（PagedAttention）。

Q: vLLM swapping 和 recomputation 怎么选？

Swapping 把被抢占请求的全部 KV block（all-or-nothing）搬到 CPU 内存，恢复时再搬回 GPU，适合 KV 较大、重算代价高的情况。Recomputation 直接丢弃 KV，把请求放回等待队列从 prefill 重算，适合 KV 较小、重算便宜的情况（如 n=1 的采样）。本质是空间换时间 vs 时间换空间的权衡。

关联模块

GPU 硬件与资源共享：提供 SM、HBM、NVLink、MIG/MPS、利用率诊断等底层直觉。
LLM 推理系统：提供 Prefill/Decode、KV Cache、Serving Engine 和推理优化语境。
Kubernetes 核心：提供调度、资源模型、控制器和扩展机制。
分布式训练 / 调度与集群：提供多卡通信、队列、公平性、拓扑和容错背景。

内容模块

性能指标与瓶颈

进阶★☆☆⏱ 15 min

一句话结论

LLM 推理性能不能只看 QPS，要同时看 TTFT、TPOT、tokens/s、显存、P99 和 GPU 利用效率。

复习定位

维度	内容
所属模块	LLM 推理系统
章节类型	机制类
解决问题	围绕请求生命周期、Prefill/Decode、KV Cache、Attention 优化、Serving Engine 和性能瓶颈建立系统化面试答案。
面试抓手	先定义指标，再把 prefill/decode 的瓶颈分开。

性能指标与瓶颈：先分清 TTFT、TPOT 和吞吐

LLM 推理性能不能只看 QPS。在线服务通常同时关注首 token 延迟、每 token 延迟、端到端延迟、吞吐、显存占用和稳定性。不同指标对应不同瓶颈：prefill 更偏计算密集，decode 更偏访存和 KV cache 读取。

核心指标表

指标	含义	主要受什么影响	常见优化
TTFT	Time To First Token	排队、prompt prefill、调度	prefill batching、prefix cache、拆分 prefill/decode
TPOT	Time Per Output Token	decode 逐 token 计算和 KV 读取	continuous batching、GQA/MQA、KV cache 管理
Throughput	tokens/s 或 requests/s	batch size、显存、调度、并行度	动态 batching、量化、投机解码
显存占用	权重、KV cache、临时 workspace	模型大小、上下文长度、并发数	量化、PagedAttention、KV 压缩

KV Cache 显存估算

粗略估算单个请求 KV cache：

$$\text{KV Cache} = layers \times 2 \times kv_heads \times head_dim \times seq_len \times \text{bytes}$$

如果 batch 中有 B 个请求，近似乘以 B；如果用 GQA/MQA，kv_heads 会显著小于 query heads。

Q: 为什么 prefill 和 decode 的瓶颈不同？

回答思路：从计算形态和内存访问形态解释。

Prefill

Prefill 一次处理整段 prompt，可以形成较大的矩阵乘，GPU 算力利用更高，通常偏 compute-bound。

Decode

Decode 每次只生成一个 token，但要读取历史 KV cache，batch 小时矩阵规模小，常偏 memory-bound。

面试口径：prefill 看首 token 和算力，decode 看逐 token 延迟和 KV cache 访存。

关联模块

GPU 硬件与资源共享：提供 SM、HBM、NVLink、MIG/MPS、利用率诊断等底层直觉。
LLM 推理系统：提供 Prefill/Decode、KV Cache、Serving Engine 和推理优化语境。
Kubernetes 核心：提供调度、资源模型、控制器和扩展机制。
分布式训练 / 调度与集群：提供多卡通信、队列、公平性、拓扑和容错背景。

内容模块

优化技术

精通★☆☆⏱ 20 min

一句话结论

推理优化是多层组合：batching 提升吞吐，量化降显存和带宽，投机解码降 decode 步数，prefix cache 复用公共前缀。

复习定位

维度	内容
所属模块	LLM 推理系统
章节类型	机制类
解决问题	围绕请求生命周期、Prefill/Decode、KV Cache、Attention 优化、Serving Engine 和性能瓶颈建立系统化面试答案。
面试抓手	回答时说明每种优化改善哪个指标、牺牲什么。

优化技术：用显存、带宽和调度换延迟/吞吐

LLM 推理优化不是单一技巧，而是围绕三类资源做权衡：算力、显存和调度队列。高频优化包括 batching、KV cache 管理、量化、投机解码、prefix cache、并行切分和 prefill/decode 分离。

优化手段速查

技术	解决什么问题	代价
Continuous Batching	decode 阶段请求长短不一导致 GPU 空洞	调度器复杂度上升
PagedAttention	KV cache 连续分配和碎片问题	需要 block table 管理
Quantization	降低权重显存和带宽压力	可能有精度损失和 kernel 适配成本
Speculative Decoding	降低主模型 decode 次数	需要 draft model，接受率决定收益
Prefix Cache	复用相同 prompt 前缀	cache 命中率和失效策略很关键

量化显存收益

权重显存可以粗略估算为：

$$\text{Weight Memory} = \text{Parameters} \times \text{bytes\_per\_parameter}$$

例如 70B 模型，BF16 权重约 140GB；INT8 约 70GB；INT4 约 35GB。实际还要加 scale、zero point、KV cache 和 workspace。

Q: Continuous Batching 为什么比静态 batching 更适合 LLM decode？

回答思路：解释输出长度不一致导致静态 batch 浪费。

静态 batching 的问题

同一 batch 中请求结束时间不同，短请求结束后空位不能立刻补新请求，GPU 会被长尾请求拖住。

Continuous batching

每个 decode step 后调度器可以移除已完成请求并补入新请求，让 batch 持续保持较高利用率。

面试口径：continuous batching 解决 decode 长短不一带来的空洞，是推理引擎调度器的核心能力。

Continuous Batching：从请求级 batch 到 token 级调度

传统静态 batching 是“凑一批请求，一起跑到全部结束”。LLM decode 的问题是每个请求输出长度不同，短请求结束后位置不能立刻补入新请求，batch 会被长尾请求拖住。Continuous Batching 改成“每个 iteration 都重新调度”：完成的请求退出，等待队列里的新请求进入。

维度	静态 Batching	Continuous Batching
调度粒度	请求级，一批请求生命周期绑定	iteration/token 级，每步可增删请求
GPU 利用率	长尾请求导致空洞	持续补入新请求，空洞更少
显存管理	常按最大长度预留	结合 PagedAttention 按 block 动态分配
公平性	简单但不灵活	需要处理抢占、优先级、max token budget

推理调度器每一轮通常要回答：哪些 running request 继续 decode？哪些 waiting request 可以 prefill？本轮 token budget 是否够？KV block 是否够？是否要优先短请求或高优请求？

Prefill 与 Decode 共存时如何平衡延迟和吞吐？

Prefill 和 Decode 的资源特征不同：Prefill 处理完整 prompt，矩阵乘大，更偏 compute-bound，影响 TTFT；Decode 每步生成一个 token，读取 KV Cache 和权重，更偏 memory-bound，影响 TPOT 和流式体验。两者混跑时，长 prefill 会阻塞 decode，导致正在生成的用户卡顿；只服务 decode 又会让新请求 TTFT 过高。

策略	做法	解决问题	代价
Chunked Prefill	把长 prompt prefill 切成多个 chunk，在 decode iteration 间穿插执行	避免长 prefill 独占 GPU，降低 decode 抖动	prefill 总完成时间可能变长，调度更复杂
Token Budget	每轮限制 prefill tokens + decode tokens 的总量	控制单轮延迟，避免某类请求挤占全部预算	预算设太小会降低吞吐
Decode 优先	优先保证 running requests 的 decode step，再塞 prefill	保护 TPOT/P99，流式输出更稳定	新请求 TTFT 可能上升
Prefill/Decode 分离	不同 GPU 池分别处理 prefill 和 decode，通过网络传 KV Cache	按阶段特征独立扩缩容	KV cache 迁移依赖 RDMA/高速网络
优先级队列	短 prompt、高优用户、交互式请求优先	改善 P95/P99 体验	低优长请求可能饥饿，需要 aging

面试口径：Prefill 优化 TTFT，Decode 优化 TPOT。调度策略要避免长 prefill 破坏 decode 的稳定节奏，所以常用 chunked prefill + decode-prioritized token budget。

Speculative Decoding 下的调度变化

Speculative Decoding 用小 draft model 先生成多个候选 token，再由大 target model 一次性验证。它减少 target model 的 decode step 数，但会引入新的调度问题：draft 与 target 的资源怎么配比？接受率低时是否值得继续 spec？验证 batch 如何与普通 decode 混排？

问题	调度关注点
Draft model 放哪里	可以和 target 共卡，也可以独立小卡；共卡会抢显存和算力，独立部署增加通信
一次 draft 几个 token	k 越大，潜在加速越高，但验证失败浪费越多
接受率波动	接受率低时 spec 收益下降，调度器可动态降低 spec 长度或回退普通 decode
KV Cache 管理	被拒绝 token 的临时 KV 需要回收；接受 token 才提交到正式序列
公平性	spec 请求一次可能推进多个 token，普通请求一次只推进一个 token，需要 token-level 公平

回答时可以说：Speculative Decoding 把调度单位从“每请求每轮 1 token”扩展成“draft 多 token + target 验证”，所以调度器要看接受率、draft/target 资源占用和 token-level fairness。

Q: vLLM 的 Continuous Batching 为什么依赖 PagedAttention？

Continuous Batching 每一轮都会让请求进入和退出。如果 KV Cache 必须连续预留，频繁进出会造成严重显存碎片，并且新请求可能因为没有连续空间而无法进入。PagedAttention 把 KV Cache 切成固定 block，请求退出后释放 block，新请求按需拿 block，不要求物理连续，因此能支撑高频 iteration-level scheduling。

Q: Chunked Prefill 会不会牺牲 TTFT？为什么还要用？

会有可能。长 prompt 被切成多个 chunk 后，单个请求的 prefill 完成时间可能变长；但它避免一个长 prefill 独占 GPU，保护其他 running request 的 decode TPOT 和 P99。在线服务通常不是只优化单个请求 TTFT，而是同时优化全局吞吐、TTFT 和流式 decode 稳定性。

Q: Prefill/Decode 调度策略怎么设计？

可以设计一个 decode-prioritized token budget：每轮先给 running requests 分配 decode token，保证 TPOT；剩余预算给 waiting requests 做 prefill。长 prompt 走 chunked prefill，避免阻塞；高优请求或短 prompt 可以提高 prefill 优先级；当 decode 队列过长时暂停新 prefill，防止流式输出抖动。

参考资料

vLLM 官方 Anatomy 文章：覆盖 scheduler、PagedAttention、continuous batching、chunked prefill、prefix cache、speculative decoding 和 disaggregated P/D。
vLLM internals 资料：解释 waiting/running 队列、SchedulerOutput、KV block pool 和 continuous batching 的具体机制。

关联模块

GPU 硬件与资源共享：提供 SM、HBM、NVLink、MIG/MPS、利用率诊断等底层直觉。
LLM 推理系统：提供 Prefill/Decode、KV Cache、Serving Engine 和推理优化语境。
Kubernetes 核心：提供调度、资源模型、控制器和扩展机制。
分布式训练 / 调度与集群：提供多卡通信、队列、公平性、拓扑和容错背景。

内容模块

推理引擎对比

精通★★☆⏱ 18 min

一句话结论

推理引擎选型要看调度、KV cache、batching、并行、量化、部署生态和可观测性，不是只比较吞吐。

复习定位

维度	内容
所属模块	LLM 推理系统
章节类型	机制类
解决问题	围绕请求生命周期、Prefill/Decode、KV Cache、Attention 优化、Serving Engine 和性能瓶颈建立系统化面试答案。
面试抓手	把 vLLM、TensorRT-LLM、SGLang、TGI 的定位讲清楚。

AI Infra 视角：推理引擎 = 调度器 + 内存系统 + 计算后端 + 分布式策略 + Serving 工程

面向应用的人只需要会用 vLLM 启服务；做 AI Infra 必须能讲清楚引擎内部的请求调度、KV 内存管理、CUDA Kernel 选择、并行切分和容错。下面把推理引擎拆成 5 个子系统，每个子系统直接给出原理、关键数据结构、源码定位和实战要点。

掌握深度分层

层级	定位	典型岗位	必须能回答
L1 会用	启服务、调参、压测	算法工程师	怎么起 vLLM、怎么调 max-num-seqs
L2 会调优	读懂指标，定位瓶颈	应用侧 Infra	TTFT 高怎么排查、batch 满了为什么吞吐反降
L3 懂原理	解释 PagedAttention、continuous batching、chunked prefill	AI Infra 初级	KV 块为什么分页，prefill 和 decode 怎么共存
L4 会改源码	读 vLLM/SGLang 调度器，写自定义 sampler、kernel	AI Infra 中高级	vLLM Scheduler 的 waiting/running/swapped 状态机
L5 能设计	从零设计推理系统、做 PD 分离、做多机调度	资深 / 专家	千卡 serving 集群怎么做请求路由、KV 迁移、容灾

AI Infra 岗一般要求 L3-L4，资深岗要求 L4-L5。

子系统一：调度器（Scheduler）

调度器决定每个 forward step 跑哪些请求。vLLM 的 Scheduler 是 Python 实现，核心数据结构是三个队列 + 一组 SequenceGroup 状态机。

状态机：每个请求是一个 SequenceGroup，状态在 WAITING → RUNNING → SWAPPED → FINISHED 之间迁移。WAITING 在 waiting 队列里排队等显存；RUNNING 进入 running 队列每个 step 参与 forward；显存不够时被抢占，KV 丢弃则回到 WAITING（recompute），KV 拷到 CPU 则进入 swapped 队列（swap）。

调度循环：每个 step 调用 schedule()，先尝试唤醒 swapped，再调度 running 的 decode，再用剩余 token budget 调度 waiting 的 prefill；预算由 max_num_batched_tokens 限制，并发由 max_num_seqs 限制。

抢占：当 running + 新 prefill 总 KV 块超过可用块时，按 FCFS 反向抢占最近加入的请求；抢占策略 recompute（默认，丢 KV 重算）或 swap（拷到 CPU pinned memory）。

源码：vllm/core/scheduler.py 的 _schedule_default()、_schedule_chunked_prefill()、_preempt()；SGLang 在 python/sglang/srt/managers/scheduler.py，使用 RadixAttention 前缀树而非简单队列。

子系统二：KV Cache 内存管理（PagedAttention 详解）

KV Cache 是显存第一稀缺资源。PagedAttention 把 KV 像 OS 虚拟内存一样按 block 管理，把碎片率从 60-80% 压到 < 4%。

核心数据结构：

BlockManager：维护物理 block 池（gpu_blocks、cpu_blocks），用 free list 管理空闲块，引用计数管理共享。
BlockTable：每个 SequenceGroup 一张表，逻辑块号 → 物理块号。生成新 token 时，logical_block_id = pos // block_size，满了就 allocate 一块新物理块挂到表尾。
block_size：默认 16。太小 block table 大、kernel 访存碎；太大内部碎片回到老问题、prefix 共享粒度变粗。

Copy-on-Write：parallel sampling / beam search 共享前缀块，引用计数 > 1；任一分支要写入时，先 copy 一份再写，引用计数减一。这就是 vLLM 比 HuggingFace generate 在 beam=4 时省 4 倍显存的原因。

Prefix Cache：对相同前缀（系统提示词、few-shot）的物理块加哈希签名，跨请求复用，命中后 prefill 阶段直接跳过这些块的计算。开关：enable_prefix_caching=True；命中率指标：vllm:gpu_prefix_cache_hit_rate。

FP8 KV：显存减半，可翻倍 batch 或上下文长度。需要 SM89+（Ada/Hopper），attention kernel 需支持 FP8 反量化；长上下文（>32k）和数学/代码任务要做精度回归。

子系统三：计算后端与 Kernel

同一算法不同 kernel 实现吞吐能差 2-5 倍。AI Infra 必须能看懂下面这些 kernel 的优化点。

FlashAttention v2：把 attention 拆成外层 query block、内层 K/V block，按 K/V 维度做 online softmax，所有中间 S=QK^T、P=softmax(S) 不落 HBM，全部留在 SRAM；并行维度从 batch×head 加到 batch×head×seq_q，长序列也能打满 SM。

FlashAttention v3：针对 H100。① warp specialization（生产者 warp 跑 TMA load，消费者 warp 跑 GEMM/softmax）；② async copy（TMA + cp.async）让 load 和 compute overlap；③ FP8 路径用 incoherent processing 抵消量化误差；典型 H100 SXM 上接近 75% MFU。

PagedAttention kernel：不同于 FlashAttention 的 contiguous KV，它每个 query token 要按 block table 间接寻址 KV 块；用 __ldg 做 read-only cache，每个 thread block 处理一个 query token 的多个 head，KV 按 block 顺序加载。

FlashInfer：把 PagedAttention + FlashAttention 合并实现，支持 ragged batch、多种 KV layout（NHD/HND）、动态 block size，vLLM v0.6+ 默认 backend 之一。

CUDA Graphs：decode step 形状固定（batch_size 一定时 input shape 不变），把整个 step 的 kernel launch 序列录成 graph，replay 一次替代上百次 launch；Llama-3-8B BF16 在 A100 上能减 10-15% 延迟。前提是 input shape 不能变，所以 vLLM 给常用 batch_size 各 capture 一份。

算子融合：fused RMSNorm + QKV proj、fused SiLU + gate proj、fused MoE（top-k + dispatch + grouped GEMM）；TensorRT-LLM 通过 plugin 把 attention + rotary + KV append 融成一个 kernel。

子系统四：并行与分布式策略

大模型推理必然涉及多卡多机，下面是 4 种并行的具体含义和通信开销。

Tensor Parallel（TP）：按列切权重矩阵。Attention：QKV 投影按 head 切，attention 内部不通信，output 投影按行切，每层 attention 末尾一次 all-reduce。FFN：第一层按列切，第二层按行切，FFN 末尾一次 all-reduce。每层 2 次 all-reduce，单 token 通信量 ≈ 2 × hidden_dim × dtype_size。Llama-70B TP=8 在 A100 NVLink 上 all-reduce 占 forward 时间 15-25%；跨机走 IB 会到 50%+，所以 TP 不跨机。

Pipeline Parallel（PP）：按层切到不同 GPU，micro-batch 流水。推理 decode 阶段每次只生成 1 个 token，micro-batch 数受限，bubble 严重，所以推理很少单独用 PP，通常和 TP 混合或仅用于跨机。

Expert Parallel（EP）：MoE 模型把专家分到不同 GPU。每层 2 次 all-to-all：dispatch（按路由结果把 token 发给对应 expert 卡）、combine（算完再聚回原卡）。瓶颈是 all-to-all 跨机带宽和路由不均；DeepSeek 用 DeepEP 在 H800 NVLink 上做了大量优化，redundant experts 解决热点。

Data Parallel（DP）：多副本，配请求路由层；推理服务的横向扩展默认就是 DP。Attention DP + FFN/MoE EP 是当前 MoE 大模型部署的常见组合（SGLang/DeepSeek-V3）。

Sequence Parallel：长上下文场景把序列维度切到不同卡，配合 Ring Attention 或 Striped Attention 做 KV 通信，主要解决单卡放不下超长 prompt 的 KV。

子系统五：Serving 工程化

这部分决定能不能扛生产流量。

HTTP/gRPC 入口

接收请求、鉴权、限流和协议适配

Tokenizer

独立进程或 worker 处理文本，避免阻塞 GPU 调度

调度器队列

排队、batching、KV Cache 预算和优先级决策

Forward

GPU worker 执行 prefill/decode 前向计算

Detokenizer

逐 token 反解码，准备流式输出

SSE/WebSocket 推流

按协议持续返回增量结果

OpenAI 兼容协议：路径 /v1/chat/completions、/v1/completions、/v1/embeddings；流式用 SSE，data: {...}\n\n，结束 data: [DONE]。tool calling、structured output（JSON schema、正则约束）走 Outlines/XGrammar。

核心指标（Prometheus）：

vllm:time_to_first_token_seconds：TTFT 直方图，p50/p95/p99 都要看。
vllm:time_per_output_token_seconds：TPOT。
vllm:e2e_request_latency_seconds：端到端。
vllm:request_queue_time_seconds：队列时长，TTFT 涨先看这个。
vllm:num_preemptions_total：抢占次数，常见瓶颈信号。
vllm:gpu_cache_usage_perc、vllm:gpu_prefix_cache_hit_rate：KV 占用与命中。
vllm:num_requests_running/waiting/swapped：三队列长度。

容错与隔离：OOM 自救（recompute/swap）、单卡 NCCL timeout 检测踢出、慢节点用 p99 兜底、超长请求隔离独立队列防尾延迟、请求级超时和取消（client 断开后调度器要立刻 abort 释放 KV）。

滚动升级：weight 持久化到本地 NVMe，新副本起来读完再切流量；KV 一般不持久化（除非 PD 分离场景做 KV migration）。

关键技术点 1：Continuous Batching

调度粒度从 request 级降到 iteration（token）级。Static batching 整批进出，最长那条没结束全 batch 都得等；continuous batching（Orca OSDI'22 提出）每个 forward step 都重组 batch：完成的请求立即返回 finish 槽位，等待中的请求立即加入。

关键实现点：① 不同请求 KV 长度不同，必须配 PagedAttention 这种支持 ragged batch 的内存管理才能真正落地；② 每个 step 重新构建 attention mask 和位置索引；③ token budget 控制单 step 最多处理 N 个 token，避免 prefill 把 step 拉爆。

瓶颈：当 batch 已打满 token budget 或 KV 块用满，新请求触发 preemption；max_num_batched_tokens 太小吞吐上不去，太大 TPOT 抖动。Llama-3-8B BF16 在 H100 上典型设 8192-16384。

关键技术点 2：Chunked Prefill

Prefill 是 compute-bound，单条 8k prompt 一次 forward 把 GPU 占满几百毫秒，期间 decode 的 TPOT 直接卡死，造成尾延迟。Sarathi-Serve 提出把 prefill 拆 chunk。

算法：每个 step 给一个 token budget（如 2048），先用 decode 请求填（每个 decode 1 token），剩余预算用来跑 prefill chunk；长 prompt 分多个 step 完成 prefill。

收益：① decode 的 TPOT 抖动从几百毫秒降到几十毫秒；② GPU 利用率提升（prefill chunk 把 decode 的 memory-bound 间隙填上，变成 compute + memory 混合）；代价是单条 prefill 总耗时略涨（多次 kernel launch 和 attention mask 重建）。

开关：vLLM --enable-chunked-prefill，v0.6 起默认开启；chunk 大小由 max_num_batched_tokens 控制。

关键技术点 3：PD 分离（Disaggregated Prefill-Decode）

Chunked Prefill 治标不治本：prefill 和 decode 仍共享同一组 GPU，扩缩容耦合。DistServe（OSDI'24）和 Splitwise（ISCA'24）提出物理拆分。

架构：① Prefill 集群：高算力卡（H100/H200），追求 TTFT，TP 较大、batch 较小。② Decode 集群：可以用算力略低但显存大的卡，追求吞吐和 TPOT，batch 大、KV 多。③ KV 传输：prefill 完后通过 NVLink/RDMA 把整段 KV 传给 decode 节点；H100 NVLink 900GB/s、CX-7 IB 400Gb/s，10k token Llama-70B 的 KV ~1.4GB，传输 < 5ms。

关键工程问题：① 路由层要根据 prompt 长度和当前两端负载决定走哪个 prefill 节点；② KV layout 跨节点要兼容，常用 NVSHMEM 或自研 RDMA 库；③ decode 节点要能接收 streaming KV，第一块到了就能开始 decode 第一个 token，进一步压低 TTFT。

vLLM/SGLang 实现：vLLM v0.6+ 实验性支持 disaggregated serving；DeepSeek/月之暗面/Mooncake 都是 PD 分离生产实践。

关键技术点 4：投机解码（Speculative Decoding）

Decode 是 memory-bound，瓶颈在权重从 HBM 读到 SM。一次 forward 验证多个 token 几乎不增加权重读取，是无损加速的关键洞察。

原理：用便宜的 draft 模型生成 K 个候选 token，大模型对 K+1 个位置并行做一次 forward，得到大模型在每个位置的真实分布；按拒绝采样接受最长前缀，第一个被拒绝的位置用大模型分布重采样。数学上等价于直接从大模型采样，无损。

变体：

Draft model：用一个小模型（如 Llama-1B 配 Llama-70B），简单但 draft 也要算 forward。
Medusa：在大模型 last hidden 上接 N 个独立 head 直接预测后 N 个 token，免 draft 模型，但精度依赖 head 训练质量。
EAGLE / EAGLE-2：把大模型的 hidden state 也喂给 draft，接受率显著高于普通 draft；当前最常用。
Lookahead Decoding：用 Jacobi 迭代生成 N-gram pool，命中即接受，无需训练。

陷阱：① 接受率低（< 0.5）反而变慢；② batch 越大越没收益（GPU 已 compute-bound）；③ 实现复杂，KV 要支持回滚被拒绝位置。

关键技术点 5：MoE 推理与 EP

DeepSeek-V3、Qwen2.5-MoE、Mixtral 8x22B 推动 MoE serving 成为 2025-2026 核心战场。

瓶颈：

路由不均：top-k 路由让部分专家成为热点，整 batch 跟着最慢专家走。训练侧用 aux loss 平衡，推理侧用 redundant experts（热门专家放 2 份）。
all-to-all：每层 2 次 all-to-all（dispatch + combine），跨机 IB 是瓶颈；DeepEP 用 NVLink 做机内、IB 做机间，一次只发非零 token，比 NCCL all-to-all 快 3 倍。
显存：专家多激活少，纯 TP 把每个专家都切让 GEMM 太小；EP 每个专家完整放在一卡，配 grouped GEMM 一次算多个专家。

典型部署：DeepSeek-V3 671B 用 Attention DP=32 + Expert Parallel=32（一台 8 卡 H800 跑 8 个专家），prefill 节点和 decode 节点各跑独立 EP 集群。

计算与通信 overlap：每层 attention 算完先发 dispatch all-to-all，同时算下一组的 attention；DeepSeek DualPipe 在训练用，推理也有类似思路。

关键技术点 6：Prefix Cache 与 RadixAttention

多轮对话、Agent、few-shot prompt 有大量共享前缀。Prefix Cache 把相同前缀的 KV 块跨请求复用。

vLLM Prefix Cache：对每个完整 block 做 hash（block_size token 内容 + 前一块 hash），相同 hash 的物理块共享；命中时跳过这些 token 的 prefill 计算。开关 enable_prefix_caching。

SGLang RadixAttention：把所有活跃 KV 块组织成 radix tree（基数树），路径即 token 序列。新请求来时按 token 在树上匹配最长前缀，命中部分直接复用，未命中部分新建子节点。LRU 淘汰叶子；命中粒度比 vLLM 的 block hash 更细，多轮对话场景命中率显著更高。

命中率优化：路由层按 prompt prefix hash 把请求路由到同一实例，命中率从 30% 拉到 80%+；系统提示词命中后 TTFT 几乎为 0。

关键技术点 7：KV 量化（FP8 / INT8）

BF16 KV → FP8 KV 显存减半，可翻倍 batch 或上下文。

方案：

per-tensor scale：整个 K 或 V 用一个 scale，简单但动态范围大时精度差。
per-token scale：每个 token 一个 scale，精度更好，主流方案。
per-channel scale：对 outlier channel 单独 scale，组合 SmoothQuant 思路。

硬件：FP8 需要 SM89+（Ada L40 / Hopper H100/H800/H200）；A100 没有 FP8 但可以走 INT8。

精度回归：① 短上下文一般无损；② > 32k 累计误差需要单独评测；③ 数学/代码任务比对话敏感；④ 用业务真实评测集（不是 MMLU）卡 acc/EM/pass@1。

四大引擎深度对比

维度	vLLM	TensorRT-LLM	SGLang	TGI
核心创新	PagedAttention + continuous batching	NVIDIA 全栈 kernel + plugin	RadixAttention + 前端 DSL	工程化 + HF 生态
调度器	Python，可读性强，社区活跃	C++ in-flight batcher，半闭源	Python，前缀树调度	Rust router + Python server
KV 管理	Paged，block_size 可调，prefix cache（hash）	Paged，FP8 KV，循环 buffer	Radix tree 自动共享	Paged（早期版本较弱）
量化	AWQ/GPTQ/FP8/INT8	SmoothQuant/FP8/INT4 AWQ 全栈	AWQ/FP8	BitsAndBytes/GPTQ
投机解码	支持（draft / EAGLE / Medusa）	支持，性能强	支持 EAGLE	较弱
MoE	支持，EP 持续完善	支持，性能优	DeepSeek 优化最好	有限
多模态	较好	需要自己接	较好	有限
构建复杂度	低，pip 装	高，需要 build engine、绑版本	低	低
定位	通用 OSS 默认选项	NVIDIA 上的极致性能	复杂 prompt / agent / 结构化生成	HF 生态快速上线

Q1: 解释 PagedAttention，为什么提升吞吐？block_size 怎么选？

核心：把 KV Cache 像 OS 虚拟内存一样按 block 管理。

解决什么问题

传统按 max_seq_len 给每个序列预留连续显存，浪费严重（内部碎片 + 预分配碎片），实际利用率常 < 40%，并发上不去。

怎么做

逻辑上按 block_size（如 16）分块，物理上不连续，通过 block table 映射。新 token 满一块再申请下一块。共享前缀用引用计数 + CoW。

block_size 选型

太小（1-4）：block table 大、attention kernel 访存不友好、调度开销升高。太大（>64）：内部碎片回到老问题，prefix 共享粒度变粗。vLLM 默认 16，是 kernel 性能与碎片率的折中。

PagedAttention 把显存利用率从 ~40% 提到 >90%，吞吐提升来自更高的 batch size。

Q2: Continuous Batching 与 Static Batching 区别？

核心：调度粒度从 request 级降到 iteration（token）级。

Static

整批一起进入、一起出去。最长那条没结束全 batch 都得等，GPU 大量空转。

Continuous（Orca / vLLM）

每个 forward step 重新组 batch：完成的立即返回，等待的立即加入。配 PagedAttention，无需 padding 到同长。

瓶颈

batch 打满 token budget 后再加请求触发 preemption，max_num_batched_tokens 要按显存和 SLA 调。

continuous batching 让 GPU 永远在干活，吞吐通常 5-20 倍提升。

Q3: Prefill 和 Decode 一起跑会有什么问题？Chunked Prefill 和 PD 分离怎么解？

核心：两阶段计算特性完全不同，混跑互相伤害。

冲突

Prefill compute-bound，单条长 prompt 把 GPU 占满几百毫秒，期间 decode TPOT 卡顿。Decode memory-bound，单独跑 GPU 利用率低。

Chunked Prefill

把长 prompt 切 chunk，每个 step 拼一段 prefill + 多个 decode 进同一 batch，TPOT 抖动从几百 ms 降到几十 ms。

PD 分离

物理拆两个集群：Prefill 节点专跑首 token，Decode 节点专跑生成；KV 通过 NVLink/RDMA 传输。可独立扩缩容，TTFT 和 TPOT 解耦。

在线服务多用 chunked prefill；超大规模或 SLA 严苛用 PD 分离。

Q4: 投机解码原理？为什么能加速且不损精度？

核心：用便宜 draft 猜 K 个，大模型一次 forward 验证。

原理

Draft 生成 K 个候选 token，大模型对 K+1 个位置并行 forward，按拒绝采样接受最长前缀，第一个被拒位置用大模型分布重采样。数学上等价于直接采样，无损。

为何变快

Decode memory-bound，瓶颈是权重从 HBM 读到 SM。一次 forward 验证 K 个 token 几乎不增权重读取，TPOT 接近降为 1/K（接受率高时）。

变体

Draft model（Llama-1B + 70B）；Medusa（多头预测，免 draft）；EAGLE（在 hidden state 上 draft，接受率高）；Lookahead（Jacobi 迭代）。

提升 1.5-3x 不损精度，但接受率低反而变慢，且 batch 越大收益越小。

Q5: 设计 1k QPS、p99 TTFT < 500ms 的 70B serving 集群

核心：容量估算 + 分层架构 + SLO 拆分。

容量

70B BF16 ≈ 140GB，TP=4 在 4×A100-80G 或 2×H100-80G 跑得动。假设输入 1k、输出 256，单实例 ~30 QPS，需要 ~40 实例 + 余量。

分层

① 接入：LB + 鉴权 + 限流；② 路由：按 prefix hash 路由提高 cache 命中；③ 推理：vLLM 池，开 chunked prefill；④ 长 prompt 独立集群走 PD 分离；⑤ 监控 TTFT/TPOT/queue/preempt/cache hit。

达成 p99 TTFT

chunked prefill 控 chunk size，限单 step token 预算；超长请求隔离独立队列；预留 20% headroom；prefix cache 命中干掉系统提示词的 prefill。

容灾

多 AZ；权重持久化；KV swap 防 OOM；慢节点剔除；金丝雀升级。

设计题给分点：容量、SLO 拆分、瓶颈识别、可观测、容灾，缺一不可。

Q6: vLLM、TensorRT-LLM、SGLang 怎么选？

核心：workload + 硬件 + 团队能力三维决策。

vLLM

OSS 生态最活、上手最快、模型支持最全，适合大多数在线服务和团队，是默认选项。

TensorRT-LLM

纯 NVIDIA GPU、追求极致延迟和吞吐、能接受 build engine 的工程成本，适合大厂自营核心业务。

SGLang

有大量共享前缀、做结构化输出、tool calling、Agent 多轮，RadixAttention 命中红利明显；DeepSeek MoE 部署事实标准。

TGI

团队深度依赖 HF 生态、追求快速上线、性能要求不极致。

先问场景再选引擎，benchmark 永远要在自己 workload 上跑。

Q7: KV Cache 量化收益与风险？

核心：显存换精度。

收益

BF16→FP8 KV 显存减半，可翻倍 batch 或上下文长度；H100 attention kernel 原生支持 FP8。

风险

长上下文（>32k）累计误差放大；数学/代码任务敏感；动态范围大的层要 per-token / per-channel scale。

工程要点

校准集覆盖目标分布；和 weight 量化一起评估；上线前用业务评测集卡精度回归。

FP8 KV 是当前性价比最高的显存优化之一，但要做精度回归。

Q8: MoE 推理瓶颈？EP 怎么部署？

核心：路由不均 + all-to-all 通信。

瓶颈

① 路由不均，热门专家拖累整 batch；② all-to-all 跨机带宽是上限；③ 显存 — 专家多激活少，纯 TP 让 GEMM 太小。

部署

Attention 用 DP+TP，FFN/MoE 用 EP；DeepSeek-V3 671B 用 Attention DP=32 + EP=32。DeepEP 用 NVLink+IB 混合 all-to-all 比 NCCL 快 3x。

优化

专家亲和路由、训练时 aux loss 均衡、热点专家冗余副本、计算与通信 overlap。

MoE serving 是 2025-2026 AI Infra 核心战场，DeepSeek/Qwen/Mixtral 推动 EP 成熟。

Q9: TTFT 高怎么排查？

核心：从入口往后逐层切。

路径

① 网关时延（trace 接入层）；② 队列等待（queue depth、是否 waiting）；③ Prefill 时长（输入长度、是否 chunk、是否被抢占）；④ KV 是否重算（recompute）；⑤ Prefix cache 是否命中；⑥ GPU 是否在做别的请求。

指标

vllm:time_to_first_token_seconds、vllm:request_queue_time_seconds、vllm:num_preemptions_total、vllm:gpu_prefix_cache_hit_rate。

TTFT 排查 = 队列 + prefill + 抢占 + 缓存命中四件事。

Q10: vLLM preempt-by-recompute vs preempt-by-swap？

核心：显存不够时怎么腾位置。

Recompute

丢 KV，恢复时重跑 prefill。简单、不占 CPU 内存；长 prompt 重算贵。

Swap

KV 拷到 CPU pinned memory，恢复时拷回。长 prompt 友好；PCIe 带宽是瓶颈，CPU 内存要够。

选择

短 prompt 高吞吐用 recompute；长 prompt 低抢占率用 swap；vLLM 默认 recompute。

理解状态机就理解了 vLLM 调度器一半。

面试自查清单

① PagedAttention 块管理与 CoW；② Continuous batching 状态机；③ Chunked prefill 与 PD 分离的取舍；④ Prefix cache / RadixAttention 命中机制；⑤ 投机解码原理与变体；⑥ TP/PP/EP/SP 切分与通信开销；⑦ KV 量化的精度风险；⑧ MoE 路由与 all-to-all 优化；⑨ vLLM scheduler 状态机与 preemption 策略；⑩ FlashAttention v3 在 H100 上的关键优化（warp specialization、TMA、async）；⑪ CUDA Graphs 在 decode step 的收益；⑫ 服务化指标体系与 SLO 分解；⑬ 千卡集群的请求路由、KV 迁移、容灾。

关联模块

GPU 硬件与资源共享：提供 SM、HBM、NVLink、MIG/MPS、利用率诊断等底层直觉。
LLM 推理系统：提供 Prefill/Decode、KV Cache、Serving Engine 和推理优化语境。
Kubernetes 核心：提供调度、资源模型、控制器和扩展机制。
分布式训练 / 调度与集群：提供多卡通信、队列、公平性、拓扑和容错背景。

内容模块

系统设计：多模型 LLM 推理

精通★☆☆⏱ 22 min

一句话结论

多模型 LLM 推理服务的设计主线是「在有限 GPU 上让尽可能多的模型既低延迟又高利用率」：靠层级化模型驻留（Running/Sleeping/CPU/Disk）解决放不下，靠显存超配和准入控制守住 OOM，靠适应度路由 + 分队列 + SRTF 排队解决调度，靠输出长度预测把这些串起来。

复习定位

维度	内容
所属模块	LLM 推理系统
章节类型	系统设计类
解决问题	围绕 LLM 推理系统中的多模型服务、KV Cache 管理和在线服务权衡形成可复述设计题框架。
面试抓手	回答时先定范围，再讲核心链路，最后落到工程风险和面试追问。

题目

设计一个支持多模型的 LLM 推理服务，要求低延迟高利用率，多个 agent 组成工作流协作。

设计要点

模型驻留管理
- 层级化 LRU：Running → Sleeping → CPU → Disk → Remote
- Sleeping 状态保留 CUDA Graph + JIT 缓存，加速重新激活
- 热门模型常驻 GPU，冷门模型逐级退出
内存管理
- 核算约束：M_kv + M_res ≤ M_total
- CUDA VMM 超配：虚拟地址池 3× 物理显存，按需映射
- 准入控制：每个请求进来先检查资源是否够
请求路由
- 适应度评分综合就绪延迟、KV 适配度、降级代价
- 交互和批处理分队列，避免 HoL blocking
排队策略
- SRTF 基于预测剩余时间排序
- Stage 边界抢占，不打断解码中的请求
预测驱动
- 输出长度预测 → KV 需求 → 准入控制 + 内存预分配
- 安全裕度偏向高估，防止 OOM

追问方向

追问：如何处理突发流量？

(1) 排队 + 准入控制：超出容量的请求排队等待，不是直接拒绝。(2) 降级策略：用更小的模型替代、减少最大输出长度、增大 batch。(3) 弹性扩缩：基于排队深度自动启动新实例（但模型加载需要时间，所以要预热）。(4) 优先级分级：VIP 请求优先，普通请求可延迟。

追问：模型更新（A/B 测试）怎么做？

(1) 金丝雀部署：新模型先加载到少量节点，小比例流量路由过去。(2) 适应度评分中加入模型版本权重。(3) Sleeping 状态帮助快速回滚——旧模型保留在 CPU，回滚只需重新激活。(4) KV 缓存不兼容不同模型版本，新模型需要重新 prefill。

关联模块

GPU 硬件与资源共享：提供 SM、HBM、NVLink、MIG/MPS、利用率诊断等底层直觉。
LLM 推理系统：提供 Prefill/Decode、KV Cache、Serving Engine 和推理优化语境。
Kubernetes 核心：提供调度、资源模型、控制器和扩展机制。
分布式训练 / 调度与集群：提供多卡通信、队列、公平性、拓扑和容错背景。

内容模块

系统设计：KV 缓存管理

精通★☆☆⏱ 22 min

一句话结论

设计 KV 缓存管理系统的核心是把显存当成稀缺资源精细经营：分页（PagedAttention）消除碎片、按需分配避免预占、前缀共享复用系统 prompt、GPU/CPU/磁盘层级存储 offload 冷请求、再加准入控制守住 M_kv + M_res ≤ M_total。答题主线是「显存利用率 vs 命中延迟」的权衡。

复习定位

维度	内容
所属模块	LLM 推理系统
章节类型	系统设计类
解决问题	围绕 LLM 推理系统中的多模型服务、KV Cache 管理和在线服务权衡形成可复述设计题框架。
面试抓手	回答时先定范围，再讲核心链路，最后落到工程风险和面试追问。

题目

为 LLM 推理集群设计高效的 KV 缓存管理系统。

设计要点

分页管理：借鉴 PagedAttention，KV 缓存切成固定大小 block，block table 维护映射
按需分配：不预分配最大长度，根据预测输出长度分配初始 block，不够时动态追加
前缀共享：相同系统 prompt 的请求共享 KV 缓存前缀（RadixAttention），copy-on-write 语义
层级存储：GPU → CPU → 磁盘三级缓存。热请求在 GPU，暂停的请求 offload 到 CPU
驱逐策略：LRU 基础上考虑请求优先级——低优先级请求的 KV 先被驱逐
内存核算：M_kv + M_res ≤ M_total，准入控制防止过载

追问：多模型场景下 KV 缓存管理有什么额外挑战？

(1) 异构 block 大小：不同模型的 head_dim、num_heads 不同，block 大小不统一。解决：统一到字节粒度的 slab allocator。(2) 模型切换时的缓存失效：模型从 GPU 换出时，其 KV 缓存也要处理——可以保留等模型回来，也可以驱逐释放空间。(3) 预测准确性依赖模型：不同模型的输出长度分布不同，需要 per-model 预测器。

关联模块

GPU 硬件与资源共享：提供 SM、HBM、NVLink、MIG/MPS、利用率诊断等底层直觉。
LLM 推理系统：提供 Prefill/Decode、KV Cache、Serving Engine 和推理优化语境。
Kubernetes 核心：提供调度、资源模型、控制器和扩展机制。
分布式训练 / 调度与集群：提供多卡通信、队列、公平性、拓扑和容错背景。