AI Infra Foundation

GPU 硬件与资源共享

硬件架构 · CUDA 执行模型 · 性能指标 · 利用率诊断 · 性能预测 · MIG/MPS · K8S 共享 · CUDA VMM

gpuhardwarecudautilizationsharingperformanceprediction

Module Switcher

GPU 内容模块

总览与硬件直觉3

CUDA 执行与内存模型5

资源共享与 K8S 隔离2

性能诊断与瓶颈判断4

面试收束与关联1

内容模块

CPU vs GPU

基础★☆☆⏱ 8 min

一句话结论

CPU 和 GPU 的根本区别不是“核心多少”，而是设计目标不同：CPU 追求单线程低延迟和复杂控制能力，GPU 追求大规模数据并行吞吐。深度学习的核心计算以矩阵乘法、批量并行和高带宽访存为主，所以天然更匹配 GPU。

核心概念

CPU 适合处理复杂、分支多、依赖强、低延迟要求高的通用任务，例如操作系统调度、业务逻辑、IO 编排、控制流判断和少量线程的快速响应。

GPU 适合处理可拆成大量相似小任务的数据并行计算，例如矩阵乘、卷积、Attention、batch 内样本并行、多 token 或多请求并发。它牺牲复杂控制能力，把更多芯片面积留给计算单元、高带宽显存和并发调度。

在 AI Infra 里，CPU 和 GPU 通常是协作关系：

CPU 负责数据准备、控制逻辑、任务调度、kernel launch、网络和存储 IO。
GPU 负责大规模数值计算、模型参数和激活的高带宽读写、Tensor Core 加速。
性能瓶颈经常出现在 CPU-GPU 之间的数据搬运、GPU 显存带宽、kernel 并行度或多 GPU 通信链路上。

对比表

维度	CPU	GPU
设计目标	低延迟、强控制流、通用计算	高吞吐、数据并行、数值计算
核心形态	少量复杂核心，每个核心能力强	大量轻量执行单元，组织在 SM 内
控制逻辑	分支预测、乱序执行、复杂流水线、大缓存	控制逻辑更简单，依赖大量线程隐藏延迟
时钟频率	通常更高，强调单线程响应	通常较低，强调整体吞吐
并行方式	线程或进程级并行，规模相对小	SPMD 模型，同一 kernel 映射到大量 thread
内存体系	DDR 容量大，带宽相对中等	HBM 容量较小但带宽极高
延迟隐藏	靠缓存、预测、乱序执行降低单线程等待	靠大量 warp 切换隐藏访存和执行延迟
适合任务	控制流复杂、依赖强、低延迟、IO 密集	矩阵乘、卷积、Attention、向量化和批量计算
不适合任务	海量规则数值计算吞吐不足	串行依赖强、分支复杂、OS/IO 控制任务

为什么 GPU 适合深度学习

深度学习特征	GPU 匹配点	面试表达
大量 GEMM / 卷积 / Attention	Tensor Core 和 CUDA Core 能并行执行大量乘加	模型主要算子可转成高吞吐矩阵计算
数据并行度高	batch、token、矩阵 tile 可以拆给大量线程	单个线程不强，但整体并发规模很大
显存带宽需求高	HBM 带宽远高于普通 DDR	参数、激活、KV cache 的读写需要高带宽
算法结构规则	同一 kernel 可在大量元素上执行类似逻辑	GPU 喜欢规则、可向量化、分支少的工作
可容忍单线程延迟	吞吐比单线程响应更关键	训练和批量推理更关心单位时间完成多少计算

可以把 GPU 的优势概括成三点：

算子形态匹配：深度学习核心算子大多是矩阵乘和张量运算。
并行粒度匹配：样本、token、矩阵块都能拆成大量相似任务。
资源需求匹配：模型参数、激活和 KV cache 对显存带宽要求高。

常见误区

误区	正确理解
GPU core 等于 CPU core	GPU 的 CUDA Core 更像 SM 内的轻量执行单元，不是独立运行复杂程序的通用核心。
GPU 一定比 CPU 快	只有任务有足够并行度、访存模式合理、数据搬运成本可控时，GPU 才有优势。
GPU 可以替代 CPU	GPU 不擅长 OS 调度、复杂控制流、IO 编排和低延迟串行任务，仍需要 CPU 作为 Host。
显存越大性能越强	显存容量决定能不能放下模型和数据，性能还要看带宽、SM、Tensor Core、互联和算子效率。
GPU 利用率高就代表训练快	`GPU-Util` 只是粗指标，还要看 SM Active、Tensor Core 利用率、显存带宽、通信和数据加载。

关联模块

硬件基础：继续看 SM、Tensor Core、HBM、NVLink/NVSwitch 等硬件组件。
CUDA 执行模型：理解 kernel launch、grid、block、thread、warp 和 SM 的执行关系。
Host-Device 数据拷贝：理解 CPU-GPU 数据路径、pinned memory 和 H2D/D2H 开销。
性能指标：用 TFLOPS、显存带宽、Roofline 和利用率指标判断 GPU 是否真的被用好。

内容模块

硬件基础

基础★☆☆⏱ 12 min

一句话结论

GPU 硬件要从三类资源理解：SM/Tensor Core 决定计算吞吐，HBM 决定显存容量和带宽，NVLink/NVSwitch/PCIe 决定数据在 GPU、CPU 和网卡之间怎么流动。面试里不要只背型号参数，要能把“算力、显存、互联”对应到训练和推理瓶颈。

核心概念

概念	作用	面试抓手
SM（Streaming Multiprocessor）	GPU 的主要计算组织单元，内部包含 warp scheduler、CUDA Core、Tensor Core、寄存器和 shared memory	看 kernel 能不能把 SM 铺满
CUDA Core	常规数值执行单元，处理 FP32/INT 等标量或向量指令	不要直接类比 CPU core
Tensor Core	矩阵乘加专用硬件，支持 FP16/BF16/TF32/FP8/INT8 等不同精度	深度学习 GEMM、卷积、Attention 的核心加速点
HBM	高带宽显存，存放模型权重、激活、梯度、KV cache	Decode、embedding、elementwise 常受 HBM 带宽限制
L2 Cache	多个 SM 共享的缓存层	缓解重复访问，影响访存效率
NVLink / NVSwitch	GPU-GPU 高速互联和单机多卡交换	影响 tensor parallel、pipeline parallel、all-reduce
PCIe	CPU-GPU、GPU-NIC、部分 GPU-GPU 数据路径	H2D/D2H、GPUDirect RDMA、NUMA 亲和都和它相关

主流 GPU 对比

指标	A100 80GB	H100 80GB	H200 141GB
架构	Ampere	Hopper	Hopper
SM 数	108	132	132
FP16/BF16 Tensor Core 峰值	312 TFLOPS	989 TFLOPS	989 TFLOPS
显存	80GB HBM2e	80GB HBM3	141GB HBM3e
显存带宽	2.0 TB/s	3.35 TB/s	4.8 TB/s
NVLink 单向带宽	300 GB/s	450 GB/s	450 GB/s
TDP	400W	700W	700W

关键机制

GPU 性能通常由下面几类资源共同决定：

计算资源：SM 数量、Tensor Core 能力、时钟频率、支持的数据类型。
片上资源：寄存器、shared memory、L1/L2 cache，决定 occupancy 和数据复用能力。
显存资源：HBM 容量决定能放下多大模型和 batch，HBM 带宽决定 memory-bound 算子的上限。
互联资源：PCIe/NVLink/NVSwitch/RDMA 决定多卡和跨机通信效率。
功耗散热：训练集群里功耗墙、降频和散热也会影响实际吞吐。

常见误区

误区	正确理解
TFLOPS 越高训练一定越快	只有算子能用上 Tensor Core 且数据供给跟得上，峰值算力才有意义。
显存越大就是性能越强	容量解决“放不放得下”，带宽和算子效率决定“跑得快不快”。
CUDA Core 数量可以直接比较 GPU 性能	深度学习更要看 SM、Tensor Core、HBM、互联和实际 kernel 效率。
单卡强就代表多卡也强	多卡性能还受 NVLink/NVSwitch、PCIe、RDMA、NCCL 拓扑影响。

关联模块

CPU vs GPU：先理解 GPU 为什么为吞吐而设计。
CUDA 执行模型：把 SM、warp、block 和 kernel 执行关系串起来。
性能指标：用 TFLOPS、HBM 带宽、Roofline 判断硬件上限。
GPU 互联与数据路径：继续看 PCIe、NVLink、NVSwitch、RDMA 的真实数据流。

内容模块

GPU 互联与数据路径

进阶★★☆⏱ 15 min

一句话结论

在 8 卡 H100/A100 训练服务器里，单机内 GPU-GPU 通信优先走 NVLink/NVSwitch，跨机优先走 GPUDirect RDMA，PCIe 则承担 CPU、GPU、NIC、NVMe 之间的通用 I/O。理解这三者不是为了背硬件名词，而是为了回答一个 AI Infra 的核心问题：同样是「8 张 GPU」，为什么放置位置不同，训练吞吐和延迟会差很多？

系统链路

单机内 GPU-GPU

优先走 NVLink / NVSwitch，高带宽、低延迟

CPU / GPU / NIC / SSD

通过 PCIe 连接，负责通用 I/O 和设备互联

跨服务器 GPU-GPU

通过 NIC + InfiniBand/RoCE RDMA 网络传输

调度器决策

把通信频繁的 rank 放到更近、更宽、更低延迟的路径上

三者定位

技术	主要用途	典型通信范围	特点	训练中的角色
NVLink / NVSwitch	GPU-GPU 高速互联	单机内，或 NVLink Switch 扩展域	高带宽、低延迟、面向 GPU 内存访问	单机内 AllReduce、张量并行、Pipeline stage 间通信
PCIe	通用 I/O 总线	CPU-GPU、GPU-NIC、GPU-SSD、部分 GPU-GPU P2P	通用性强，但带宽和延迟弱于 NVLink	Host 到 GPU 拷贝、GPU 到 NIC、无 NVLink 时的 GPU-GPU fallback
RDMA / InfiniBand / RoCE	跨服务器远程直接内存访问	服务器之间	绕过远端 CPU、低 CPU 开销、适合大规模集群	跨节点梯度同步、参数交换、分布式训练通信

简单类比：

NVLink：GPU 之间的“高速内环路”。
PCIe：服务器内部设备之间的“通用高速公路”。
RDMA：服务器之间的“跨城专线”。

带宽差异

NVLink：单机 GPU-GPU 通信的最高优先级

对 H100 来说，NVIDIA 给出的 H100 SXM 互联规格是 NVLink 900 GB/s，H100 NVL 的 PCIe 形态则列出 NVLink 600 GB/s 和 PCIe Gen5 128 GB/s。

对 A100 来说，NVIDIA 给出的 A100 80GB SXM 互联规格是 NVLink 600 GB/s，PCIe Gen4 为 64 GB/s，并且 A100 PCIe 版本通过 NVLink Bridge 主要支持最多两张 GPU 的桥接。

这里要注意：

NVIDIA 规格表里的 600 GB/s、900 GB/s 通常是 GPU 级别的 NVLink 聚合带宽。
这是面向 GPU-GPU 的专用互联，不是 CPU-GPU 通用总线。
在 8 卡 SXM 服务器里，NVLink 往往不是简单点对点线缆，而是通过 NVSwitch 形成交换网络，让多张 GPU 之间可以高带宽互联。

PCIe：通用但相对慢

PCIe 的带宽按 代际 × lane 数计算。PCI-SIG 说明 PCIe 4.0 每 lane 每方向支持 16.0 GT/s，PCIe 5.0 每 lane 每方向支持 32.0 GT/s。

常见 GPU 是 x16 链路，可以近似理解为：

PCIe 版本	常见 x16 单向有效量级	双向合计量级	常见对应 GPU
PCIe Gen4 x16	约 32 GB/s	约 64 GB/s	A100 PCIe
PCIe Gen5 x16	约 64 GB/s	约 128 GB/s	H100 PCIe

所以 PCIe 和 NVLink 的差距很明显：

对比项	典型带宽量级
A100 SXM NVLink	约 600 GB/s
A100 PCIe Gen4	约 64 GB/s 双向合计
H100 SXM NVLink	约 900 GB/s
H100 PCIe Gen5	约 128 GB/s 双向合计

也就是说，NVLink 的 GPU-GPU 带宽通常是 PCIe 的数倍到十几倍。这也是为什么张量并行、MoE All-to-All、频繁 collective 更偏好单机 NVLink/NVSwitch。

RDMA / InfiniBand：跨机通信的主力

跨服务器时，数据不能直接走 NVLink，通常走 InfiniBand 或 RoCE RDMA。NVIDIA Quantum-2 InfiniBand 平台支持最高 400 Gb/s，ConnectX-7 InfiniBand 适配器也支持单端口或双端口 400 Gb/s。

换算一下：

400 Gb/s ÷ 8 ≈ 50 GB/s

所以一张 400G 网卡的理论线速大约是 50 GB/s。如果一台服务器有多张 400G NIC，例如 8 张 GPU 搭配 4 到 8 张 NIC，就可以通过 multi-rail 并行提升跨机总带宽。

但即便如此，跨机 RDMA 的单链路带宽通常仍低于单机内 NVLink/NVSwitch：

单 GPU NVLink 聚合：数百 GB/s 级别。
单 400G RDMA NIC：约 50 GB/s 线速级别。
多 NIC 可以并行，但会受 PCIe、NUMA、交换机、拥塞控制、通信库调度影响。

延迟差异

延迟比带宽更依赖平台、拓扑、驱动、通信库和消息大小，所以很难给一个绝对固定值。工程上可以按这个顺序理解：

NVLink/NVSwitch 延迟最低
  < PCIe P2P
  < 跨 Socket PCIe / Host staging
  < RDMA 跨机

NVLink / NVSwitch 延迟

NVLink 面向 GPU-GPU 通信，路径短、协议栈轻、带宽高。单机内 GPU 之间做 AllReduce、AllGather、ReduceScatter 时，如果能走 NVLink/NVSwitch，通常是最优路径。

在 8 卡 SXM 服务器里，GPU 间通信通常是：

GPU HBM

源 GPU 的参数、梯度、激活值或 KV Cache

GPU NVLink interface

从 GPU 内存侧进入 NVLink 通道

NVSwitch

在单机内部做 GPU-GPU 交换

目标 GPU NVLink interface

目标 GPU 接收数据

目标 GPU HBM

数据写入目标 GPU 显存

CPU 不负责搬运这段数据，只负责启动 kernel、提交通信操作、管理进程和页表等控制逻辑。

PCIe 延迟

PCIe 是通用 I/O 协议，层次更多，路径可能经过：

GPU

源设备

PCIe switch / root complex

进入 PCIe 拓扑

CPU socket

可能经过本地 CPU root

另一个 PCIe root / switch

跨 root 或跨 Socket 时路径变长

目标 GPU 或 NIC

目标设备接收数据

如果两张 GPU 在同一个 PCIe switch 下，PCIe P2P 还算可接受；如果跨 Socket，则可能经过 CPU 间互联，例如 UPI、Infinity Fabric 等，延迟和抖动都会上升。

更糟糕的情况是不能直接 P2P，需要走 host staging：

GPU0 HBM

源 GPU 显存

CPU pinned memory

先落到主机页锁定内存

GPU1 HBM

再从主机内存拷贝到目标 GPU

这会额外消耗 CPU 内存带宽，并增加一次或多次拷贝。

RDMA 延迟

RDMA 的优势是跨机时避免远端 CPU 参与数据搬运。NVIDIA 对 GPUDirect 的描述是，网络适配器和存储设备可以直接读写 GPU memory，从而消除不必要的内存拷贝、降低 CPU 开销和延迟。

但跨机 RDMA 仍然要经过：

本机 GPU

源 GPU HBM

本机 PCIe / PCIe switch / root complex

GPU 到 NIC 的本机路径

本机 NIC

RDMA 网卡发起网络传输

网络交换机

InfiniBand / RoCE fabric

远端 NIC

远端服务器接收

远端 PCIe

NIC 到远端 GPU 的本机路径

远端 GPU

数据写入远端 GPU HBM

所以它通常比单机 NVLink/NVSwitch 延迟更高，并且容易受网络拥塞、交换机层级、路由、ECN/PFC、RoCE/IB 配置影响。

一台 8 卡 H100/A100 服务器内部，数据如何流转？

这里分两种常见形态：SXM/HGX 8 卡服务器和PCIe 8 卡服务器。

8 卡 H100/A100 SXM/HGX：主路径是 NVLink + NVSwitch

高端 8 卡 A100/H100 训练服务器通常使用 SXM 模组和 HGX/DGX 形态。以这种形态为例，单机内 GPU-GPU 通信一般不走 PCIe，而是走：

GPU0 HBM

源 GPU 的梯度、激活值、KV Cache 或参数分片

GPU0 NVLink

离开源 GPU

NVSwitch fabric

单机内交换网络

GPU1/GPU2/.../GPU7 NVLink

进入目标 GPU

目标 GPU HBM

写入目标显存

在这种服务器内：

模型参数、梯度、激活值、KV Cache 等主要在 GPU HBM。H100 SXM 的 GPU memory bandwidth 是 3.35 TB/s，H100 NVL 规格中列出的 memory bandwidth 是 3.9 TB/s。A100 80GB PCIe/SXM 的 GPU memory bandwidth 分别列为 1,935 GB/s 和 2,039 GB/s。

GPU 自己的计算数据在 HBM 中。

例如 GPU0 要把梯度 chunk 发给 GPU3，数据从 GPU0 HBM 读出，经 NVLink 进入 NVSwitch，再通过 NVLink 到 GPU3 HBM。CPU 不拷贝这段数据。

GPU-GPU 通信走 NVLink/NVSwitch。

CPU 会启动 CUDA kernel、初始化 NCCL communicator、管理进程、内存注册、同步等，但真正的数据平面不应该经过 CPU 内存。

CPU 主要负责控制和调度。

PCIe 仍负责 CPU-GPU 控制、Host memory 到 GPU memory 的数据加载、GPU 到 NIC 的路径、GPU 到 NVMe 或存储路径，以及没有 NVLink 可用时的 fallback。

PCIe 仍然存在，但不是 GPU-GPU 主通道。

8 卡 PCIe 服务器：GPU-GPU 可能走 PCIe P2P 或 Host staging

如果是 PCIe 形态的 8 卡服务器，拓扑就更复杂。典型路径可能是：

GPU0

源 GPU

PCIe switch

同 switch 下 P2P

GPU1

目标 GPU

也可能是：

GPU0

源 GPU

PCIe switch

本地 PCIe switch

CPU root complex

本地 CPU root

CPU interconnect

跨 Socket，例如 UPI / Infinity Fabric

另一个 CPU root complex

远端 Socket root

PCIe switch

远端 PCIe switch

GPU5

目标 GPU

如果 P2P 不可用，可能退化为：

GPU0 HBM

源 GPU 显存

CPU pinned memory

主机中转缓冲区

GPU5 HBM

目标 GPU 显存

这就是为什么 8 卡 PCIe 服务器做大模型训练时，性能通常不如 8 卡 SXM/NVSwitch 服务器。PCIe 服务器不是不能训练，而是 GPU-GPU 通信密集型任务会更容易被互联瓶颈限制。

单机内 AllReduce 数据如何走？

以 8 卡数据并行训练为例，每张 GPU 都有一份模型副本，每轮 backward 后需要同步梯度。NCCL 通常会根据拓扑选择 ring、tree、CollNet、NVLS 等算法。概念上可以理解为：

GPU0 梯度 chunk A → GPU1 → GPU2 → ... → GPU7
GPU1 梯度 chunk B → GPU2 → GPU3 → ... → GPU0
...

在 SXM/NVSwitch 机器里，这些 chunk 主要沿 NVLink/NVSwitch 交换。

更具体地说：

每张 GPU 把梯度切成多个 chunk。
reduce-scatter 阶段，每个 chunk 沿环或树传播，并在目标 GPU 上累加。
all-gather 阶段，累加后的结果再分发回所有 GPU。
如果 NVLink/NVSwitch 可用，NCCL 会尽量让通信走 GPU-GPU 高速路径。
如果某些 GPU 间只能走 PCIe，通信图会变慢，尤其是跨 Socket GPU 对。

因此在单机 8 卡服务器中，拓扑好坏直接影响 AllReduce 的有效带宽。

服务器之间，数据如何流转？

跨服务器时，NVLink 通常只管本机内 GPU；跨机要靠 NIC 和网络。理想路径是 GPUDirect RDMA。

有 GPUDirect RDMA 时

假设 Server A 的 GPU0 要发数据给 Server B 的 GPU3，理想路径是：

Server A GPU0 HBM

源 GPU 显存

Server A PCIe / PCIe switch

GPU 到 NIC 的本机路径

Server A RDMA NIC

NIC 直接读 GPU memory

InfiniBand/RoCE 网络交换机

跨机传输

Server B RDMA NIC

远端 NIC 接收

Server B PCIe / PCIe switch

NIC 到远端 GPU 的路径

Server B GPU3 HBM

写入远端 GPU 显存

这个路径的关键点是：

NIC 可以直接读写 GPU memory。
数据不需要先拷贝到 CPU DRAM。
CPU 主要负责控制面，例如注册内存、提交 work request、处理中断或轮询 completion queue。
数据面由 GPU、PCIe、NIC、网络交换机完成。

NVIDIA 对 GPUDirect RDMA 的说明是，它为远程系统中的 NVIDIA GPU 提供直接通信，并消除系统 CPU 和经由系统内存的数据 buffer copy。

没有 GPUDirect RDMA 或拓扑不佳时

如果不能直接从 GPU memory 做 RDMA，可能退化为：

Server A GPU0 HBM

源 GPU 显存

Server A CPU pinned memory

本机 host staging

Server A NIC

从 CPU 内存发包

网络

跨机传输

Server B NIC

远端接收

Server B CPU pinned memory

远端 host staging

Server B GPU3 HBM

再拷贝到目标 GPU

这会多出两侧 host memory staging：

GPU → CPU 内存。
CPU 内存 → NIC。
远端 NIC → CPU 内存。
CPU 内存 → GPU。

这类路径会显著增加延迟、占用 CPU 内存带宽，并降低通信吞吐。

8 卡 H100/A100 多机训练的典型通信层级

多机多卡训练通常采用分层通信：

单机内 GPU ↔ GPU

NVLink / NVSwitch

跨机器 GPU ↔ NIC ↔ 网络 ↔ NIC ↔ GPU

GPUDirect RDMA

CPU 控制面

控制、调度、内存注册、进程管理，不应成为大规模数据搬运路径

以两台 8 卡服务器做 AllReduce 为例，较优通信流程通常是：

8 张 GPU 先通过 NVLink/NVSwitch 做本机内 reduce-scatter，这样可以把本机内的高带宽利用起来。

每台机器内部先 reduce。

每台服务器的 GPU 数据通过 GPUDirect RDMA 发到对端。如果有多张 NIC，会做 multi-rail 并行。

每台机器通过 NIC 跨机交换部分结果。

跨机同步完成后，再通过本机 NVLink/NVSwitch 分发给本机所有 GPU。

每台机器内部再 all-gather。

这就是为什么大规模训练通信库通常会做 topology-aware 优化：先用单机内最快的 NVLink/NVSwitch，跨机部分才使用 RDMA。

为什么 NUMA、Socket、NIC 亲和性很重要？

即使都有 H100/A100 和 400G RDMA，性能也可能差很多，原因是本机内 GPU 到 NIC 的路径不同。

情况一：GPU 和 NIC 在同一 PCIe switch / 同一 Socket 下

GPU

源 GPU

PCIe switch

本地 PCIe 路径

NIC

同 switch 或同 Socket 下的 RDMA 网卡

这是比较理想的路径：

路径短。
不跨 CPU socket。
PCIe 带宽更可控。
GPUDirect RDMA 效率较高。

情况二：GPU 和 NIC 跨 Socket

GPU

源 GPU

PCIe switch

GPU 所在侧

CPU Socket 0

本地 socket

CPU interconnect

跨 Socket 互联

CPU Socket 1

NIC 所在侧

PCIe root complex

远端 root

NIC

目标 RDMA 网卡

这会带来：

更高延迟。
更低有效带宽。
更强抖动。
CPU socket 间互联被占用。
多任务并发时更容易产生瓶颈。

所以调度 8 卡任务时，不仅要看 GPU-GPU 是否同属 NVLink/NVSwitch 域，还要看 GPU-NIC 路径。跨机训练时，GPU 到 NIC 的亲和性几乎和 GPU 到 GPU 的亲和性一样重要。

通信路径优先级总结

单机内 GPU-GPU

优先级 1：NVLink / NVSwitch

单机内最优 GPU-GPU 路径

优先级 2：PCIe P2P，同 PCIe switch

没有 NVLink 时的较优 fallback

优先级 3：PCIe P2P，跨 root complex / 跨 Socket

路径变长，延迟和抖动增加

优先级 4：GPU → CPU pinned memory → GPU

Host staging，通常应避免

跨机 GPU-GPU

优先级 1：GPU HBM → 本地 NIC → RDMA 网络 → 远端 NIC → 远端 GPU HBM

GPUDirect RDMA，理想路径

优先级 2：GPU HBM → 本地 CPU 内存 → NIC → 网络 → 远端 CPU 内存 → 远端 GPU HBM

Host staging，性能较差

综合排序

NVLink/NVSwitch 单机内通信

GPU-GPU 最优路径

PCIe P2P 单机内通信

通用总线上的设备间直连

GPUDirect RDMA 跨机通信

跨服务器的理想数据路径

Host staging 跨机通信

经过 CPU 内存中转，尽量避免

注意：这里的排序是工程上的常见优先级，不代表所有消息大小下都绝对成立。小消息更敏感于 latency，大消息更敏感于 bandwidth，实际还要看 NCCL 算法、batch size、通信 overlap、网络拥塞和拓扑绑定。

对调度和性能优化的启示

单机 8 卡任务

如果任务正好需要 8 张 GPU，最优是：

同一台 HGX/DGX 8 卡机器
  + 同一 NVSwitch fabric
  + GPU 到 NIC 拓扑均衡

不建议把一个强通信任务拆成：

4 卡在机器 A + 4 卡在机器 B

除非单机没有 8 卡资源，或者任务本身跨机并行效率很好。因为这样会把本来可以走 NVLink/NVSwitch 的通信变成 RDMA 跨机通信。

4 卡任务

如果一个任务只需要 4 张 GPU，优先级通常是：

同一 NVLink/NVSwitch 域内的 4 张 GPU。
同一 PCIe switch 或同一 Socket 下的 4 张 GPU。
同机但跨 Socket 的 4 张 GPU。
跨机器 2+2 或 1+3。

原因是跨 Socket 和跨机都会增加通信路径长度，并引入 PCIe、CPU interconnect、NIC、交换机等额外瓶颈。

多机 8×N 卡任务

多机训练时，调度器需要同时考虑：

每台机器内部是否是完整 8 卡 NVSwitch 拓扑。
每张 GPU 到 NIC 的距离。
NIC 数量和 rail 分布。
多台机器是否在同一 leaf switch 或同一网络 pod。
是否有 RDMA 拥塞。
NCCL topology file 或自动探测结果是否正确。

常见排查命令

目标	命令 / 工具	看什么
查看 GPU-GPU / GPU-NIC 拓扑	`nvidia-smi topo -m`	GPU 是否 NVLink 互联，GPU 到 NIC 是否同 NUMA
查看 NCCL 选择的路径	`NCCL_DEBUG=INFO NCCL_DEBUG_SUBSYS=INIT,GRAPH`	ring/tree/NVLS/IB 路径是否符合预期
查看 IB/RDMA 设备	`ibstat`、`ibv_devinfo`	端口速率、链路状态、HCA 能力
查看 PCIe 拓扑	`lspci -tv`	GPU、NIC、PCIe switch、root complex 关系
查看 NUMA 拓扑	`numactl --hardware`、`lstopo`	CPU、内存、PCIe 设备亲和性

排查时不要只看“有没有 8 张 GPU”，而要同时看：

GPU-GPU 是否走 NVLink/NVSwitch。
GPU-NIC 是否跨 Socket。
RDMA 是否启用 GPUDirect。
NCCL 是否真的选择了 IB/RDMA，而不是 fallback 到 TCP。
是否存在某个慢 rank、慢 NIC 或拥塞路径拖累整体。

一句话面试版回答

NVLink/NVSwitch 是 8 卡 H100/A100 服务器内部 GPU-GPU 通信的主路径，带宽可达数百 GB/s 到 900 GB/s 级别；PCIe 是 CPU、GPU、NIC 之间的通用 I/O 总线，A100 常见是 Gen4，H100 常见是 Gen5，带宽明显低于 NVLink；RDMA 是跨服务器通信机制，通常通过 InfiniBand 或 RoCE，把本机 GPU memory 经 NIC 和网络直接写到远端 GPU memory，避免 CPU host memory staging。单机内训练通信应优先走 NVLink/NVSwitch，跨机时应使用 GPUDirect RDMA，并尽量保证 GPU-NIC 在同一 NUMA/SOCKET/PCIe switch 附近，否则跨 Socket 会增加延迟、降低有效带宽并引入抖动。

参考资料

内容模块

CUDA 执行模型

基础★☆☆⏱ 12 min

一句话结论

CUDA 执行模型的核心链路是：CPU Host 发起 kernel launch，CUDA runtime 创建 grid，grid 拆成 block，block 被调度到 SM 上，block 内 thread 被组织成 warp，SM 以 warp 为单位发射指令并用多 warp 并发隐藏延迟。

系统链路

CPU Host

-> kernel<<<gridDim, blockDim>>>(args)

-> Grid：一次 launch 的全部 block

-> Block：调度到 SM 的基本任务包

-> Thread：程序员看到的逻辑并行单元

-> Warp：硬件调度的 thread 组，通常 32 个 thread

-> SM：执行 block、调度 warp、使用 CUDA Core/Tensor Core/HBM

先建立一张脑图：从一次 kernel launch 到 GPU 硬件执行

这一页不要先背表格。你可以先记住一条主线：CPU 端发起一次 kernel launch，CUDA runtime 把它描述成一个 grid；grid 里面有很多 block；block 里面有很多 thread；GPU 硬件把 block 分配到不同的 SM 上执行；SM 内部再把 thread 按 warp 组织和调度。CUDA 官方文档把 CUDA 描述为 NVIDIA 的并行计算平台和编程模型，用来让程序利用 GPU 的计算能力[[CUDA Programming Guide](https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html)]。

一句话：你写的是 kernel，启动的是 grid，组织单位是 block 和 thread，硬件执行单位是 SM 和 warp。

层级图：软件概念和硬件概念怎么对应

理解 CUDA 最容易混乱的地方，是把软件层级和硬件层级混在一起。grid / block / thread 是 CUDA 编程模型里的逻辑层级；GPU / SM / CUDA Core / Tensor Core / HBM 是硬件层级；warp 介于两者之间，它是硬件实际调度 thread 的基本方式。

CPU Host 代码
  |
  |  kernel<<<gridDim, blockDim>>>(args)
  v
CUDA Kernel Launch
  |
  v
Grid：一次 kernel launch 对应一个 grid
  |
  +-- Block 0  ---- threads: 0, 1, 2, ...
  +-- Block 1  ---- threads: 0, 1, 2, ...
  +-- Block 2  ---- threads: 0, 1, 2, ...
  |
  v
GPU 硬件调度
  |
  +-- SM 0 执行若干 blocks
  +-- SM 1 执行若干 blocks
  +-- SM 2 执行若干 blocks
       |
       v
     每个 block 内的 threads 被切成多个 warp
     一个 warp 通常包含 32 个 threads

注意这里的“对应”不是一一绑定。一个 grid 可以有很多 block；一个 SM 可以先后执行很多 block；一个 block 在运行期间通常只会被放到一个 SM 上；一个 SM 上也可能同时驻留多个 block。理解这一点后，很多性能问题就能解释清楚：block 太少会导致 SM 吃不饱，block 太大可能导致寄存器或 shared memory 压力过高，warp 内分支发散会降低执行效率。

GPU Core 到底是什么：不要把它等同于 CPU Core

面试里经常会问：“GPU 有很多 core，是什么意思？”这里最重要的是：不要把 GPU core 直接类比成 CPU core。

CPU core 通常是一个功能完整、控制能力很强的通用核心，擅长：

复杂控制流；
分支预测；
乱序执行；
低延迟响应；
单线程性能。

而 GPU 的所谓 “core”，通常指的是大量相对简单的计算执行单元。它们不是独立运行复杂程序的通用核心，而是被组织在 SM（Streaming Multiprocessor） 里面，用来服务大规模并行计算。

更准确地说：

NVIDIA GPU 的核心调度和资源管理单位是 SM，而不是单个 CUDA Core。

一个 SM 里面会包含多类执行和存储资源，例如：

CUDA Core：执行常规 FP32 / INT 等标量或向量计算；
Tensor Core：执行矩阵乘加类计算，常用于 GEMM、卷积、Attention；
Load / Store Unit：负责访存指令；
Special Function Unit：处理特殊数学函数；
Register File：保存线程寄存器状态；
Shared Memory / L1 Cache：供同一个 SM 内的线程块共享和缓存数据；
Warp Scheduler：以 warp 为单位调度指令。

所以讨论 GPU 性能时，不能只看“有多少 CUDA Core”。更重要的是看：

有多少 SM；
kernel 能不能把 SM 铺满；
每个 SM 里有多少 active warps；
访存是否连续、高效；
Tensor Core 是否被用起来；
显存带宽、L2 cache、通信是否成为瓶颈。

一个好记的类比：GPU 是工厂

可以把 GPU 想成一个工厂：

GPU 组件	类比	作用
GPU	整个工厂	承接大规模并行任务
SM	车间	GPU 的主要调度和执行单元
CUDA Core	普通工位	做常规数值计算
Tensor Core	矩阵乘专用产线	加速 GEMM、卷积、Attention 等
Warp Scheduler	车间调度员	决定哪个 warp 发射指令
Register File	工位旁边的小储物格	保存线程局部数据
Shared Memory / L1	车间内共享缓存	供同一 SM 内线程快速共享数据
L2 Cache	工厂级中转仓	多个 SM 共享的数据缓存
HBM / 显存	大仓库	存放模型参数、激活、输入输出数据

用这个类比来记：

SM 是车间，CUDA Core 是普通工位，Tensor Core 是矩阵乘专用产线。

所以真正关心的不是“工位数量”本身，而是：

任务是否能拆成足够多的并行工作；
数据是否能及时送到工位；
专用产线是否被用起来；
车间之间是否需要频繁等待或通信。

面试官常问

Q：GPU core 和 CPU core 有什么区别？

CPU core 是复杂的通用核心，擅长复杂控制流、分支预测、乱序执行和低延迟单线程任务。GPU core 更轻量，数量更多，主要服务于高吞吐的数据并行计算。NVIDIA GPU 里更核心的组织单位是 SM，CUDA Core、Tensor Core、load/store unit、register file、shared memory 等资源都组织在 SM 内。GPU 不是靠少数强核心跑得快，而是靠大量线程、warp 调度、高带宽显存和专用矩阵计算单元把吞吐做上去。

Q：为什么不能只看 CUDA Core 数量判断 GPU 性能？

因为 CUDA Core 数量只反映了一部分标量计算资源。实际性能还取决于 SM 数量、频率、显存带宽、L2 cache、Tensor Core 能力、kernel 并行度、occupancy、访存模式、warp stall、算子是否能用 Tensor Core 等。尤其在深度学习里，GEMM、卷积和 Attention 是否跑到 Tensor Core 上，往往比单看 CUDA Core 数量更关键。

Q：Tensor Core 和 CUDA Core 有什么区别？

CUDA Core 主要执行常规标量或向量计算，例如 FP32、INT 等指令；Tensor Core 是专门为矩阵乘加设计的硬件单元，适合 FP16、BF16、TF32、INT8 等矩阵计算。深度学习中的 GEMM、卷积、Attention 等如果能使用 Tensor Core，性能会显著提升。但 elementwise、索引、gather/scatter、部分归约类算子不一定能用到 Tensor Core。

Kernel 是什么：你写的一段 GPU 函数

kernel 是运行在 GPU 上的一段函数。普通 C/C++ 函数通常由 CPU 调用并在 CPU 上执行；CUDA kernel 则由 CPU 端发起，但实际在 GPU 上并行执行。你可以把 kernel 理解成“一份要在很多线程上同时执行的程序模板”。每个 thread 执行同一份 kernel 代码，但通过自己的 threadIdx、blockIdx 计算出不同的数据位置，从而处理不同元素。

__global__ void add_kernel(float* a, float* b, float* c, int n) {
  int i = blockIdx.x * blockDim.x + threadIdx.x;
  if (i < n) {
    c[i] = a[i] + b[i];
  }
}

int threads_per_block = 256;
int blocks = (n + threads_per_block - 1) / threads_per_block;
add_kernel<<<blocks, threads_per_block>>>(a, b, c, n);

这段代码里，add_kernel 是 kernel；<<<blocks, threads_per_block>>> 是 kernel launch 配置；blocks 决定 grid 里有多少个 block；threads_per_block 决定每个 block 有多少 thread。CUDA 编程模型要求开发者用 grid、block、thread 这样的层级组织并行工作，官方文档也强调理解 CUDA 编程模型有助于理解 GPU 如何执行代码[[CUDA Programming Guide](https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html)]。

学习者理解

不要把 kernel 理解成“启动一个线程”。一次 kernel launch 往往会启动成千上万个逻辑 thread。每个 thread 做的事情通常很小，比如处理一个数组元素、一个矩阵 tile 的一部分、一个 attention block 的一部分。GPU 的优势来自这些小工作被大规模并行执行。

Grid：一次 kernel launch 的全部工作

grid 是一次 kernel launch 产生的全部 block 的集合。你在代码里写的 kernel<<<gridDim, blockDim>>> 中，gridDim 描述 grid 的形状，可以是一维、二维或三维。为什么需要二维、三维？因为很多数据天然是二维或三维的，比如图像、矩阵、卷积特征图、三维仿真网格。用二维 grid 可以让代码更贴近数据结构。

一维 grid：处理向量
blockIdx.x * blockDim.x + threadIdx.x

二维 grid：处理矩阵
row = blockIdx.y * blockDim.y + threadIdx.y
col = blockIdx.x * blockDim.x + threadIdx.x

三维 grid：处理体数据或更复杂的张量切片
x/y/z 三个方向分别映射到数据维度

grid 是逻辑概念，不是说 GPU 上真的有一个叫 grid 的硬件。GPU driver/runtime 会把这个 grid 中的 block 交给硬件调度，硬件再把 block 分派到 SM 上执行。block 的数量通常应该足够多，这样不同 SM 都能拿到活干，某些 block 等待访存时，SM 还能切换到其他 warp 做计算。

面试官常问

Q：一次 kernel launch、grid、block 三者是什么关系？

可以这样答：一次 kernel launch 会启动一个 grid，grid 是这次启动的全部 block 集合；每个 block 又包含多个 thread。grid 和 block 是软件层面的并行组织方式，GPU 硬件会把 block 调度到 SM 上执行。调优时要让 grid 里有足够多的 block，否则 SM 数量再多也可能吃不满。

Block：资源分配和协作的关键边界

block 是 CUDA 里非常重要的边界。一个 block 里的 thread 可以通过 shared memory 共享数据，也可以用 __syncthreads() 做 block 内同步。不同 block 之间通常不能直接同步，也不能直接共享 shared memory。这个设计让 GPU 可以把不同 block 灵活分配到不同 SM 上，甚至用任意顺序执行，从而提高可调度性。

一个 block 在运行时会占用 SM 上的一部分资源，例如 thread slots、register、shared memory。一个 SM 能同时驻留多少个 block，取决于 block 大小、每个 thread 用多少 register、每个 block 用多少 shared memory，以及 GPU 架构限制。很多性能问题的根源就在这里：block 太小，单个 block 并行度不足；block 太大，资源占用过高，导致 SM 上同时驻留的 block/warp 变少。

怎么理解 block size

常见的 threads_per_block = 128、256、512 不是随便写的。因为 warp 通常是 32 个 thread，所以 block size 一般会取 32 的倍数，避免最后一个 warp 只有部分 thread 有效。比如 256 threads/block 就是 8 个 warp。这个值不是越大越好，要结合 register、shared memory、访存模式和 occupancy 分析。

面试官常问

Q：为什么不同 block 之间不能随便同步？

因为 CUDA 希望 block 之间尽量独立，这样硬件可以自由调度 block 到任意 SM 上。如果 block 之间需要频繁全局同步，调度复杂度和硬件成本都会上升。通常一个 kernel 内只做 block 内同步；如果需要全局同步，最常见的方式是拆成多个 kernel launch，因为不同 kernel 之间天然有顺序边界。当然 CUDA 也有 cooperative groups 等高级能力，但面试基础题先讲清楚 block 独立性即可。

Thread：逻辑上的最小并行工作单元

thread 是 CUDA 编程模型里最小的逻辑执行单元。每个 thread 有自己的 threadIdx，有自己的寄存器和局部变量。写 kernel 时，你通常会让每个 thread 根据自己的编号算出要处理的数据下标。

int global_id = blockIdx.x * blockDim.x + threadIdx.x;
if (global_id < n) {
  // 当前 thread 处理第 global_id 个元素
}

这里的 if (global_id < n) 很常见，因为总线程数通常会向上取整到 block size 的倍数，最后一个 block 可能有一些 thread 超出真实数据范围。这个边界判断能防止越界访问。

学习者理解

thread 不是越多越好。线程太少，GPU 吃不满；线程足够多以后，性能主要取决于访存是否连续、是否有分支发散、是否能复用数据、是否能用上 Tensor Core、是否被通信或同步拖慢。

Warp：硬件真正调度的一组 thread

warp 是理解 GPU 执行效率的核心概念。CUDA 里你写的是 thread，但 NVIDIA GPU 硬件通常按 warp 调度执行，一个 warp 通常包含 32 个 thread。也就是说，SM 不是完全独立地一个 thread 一个 thread 执行，而是把一组 thread 作为调度单位。

这会带来两个非常重要的性能现象。第一是 分支发散：如果同一个 warp 里的不同 thread 走了不同的 if/else 分支，硬件通常需要分批执行不同路径，等价于一部分 thread 先闲着，另一部分执行，然后再反过来，所以效率会下降。第二是 访存合并：如果同一个 warp 里的 thread 访问连续内存，硬件可以更高效地合并内存请求；如果访问很散，带宽利用率会变差。

理想情况：同一个 warp 的 threads 访问连续地址
thread 0 -> a[0]
thread 1 -> a[1]
thread 2 -> a[2]
...
thread31 -> a[31]

较差情况：同一个 warp 的 threads 访问分散地址
thread 0 -> a[0]
thread 1 -> a[1024]
thread 2 -> a[17]
...
thread31 -> a[99999]

面试官常问

Q：什么是 warp divergence？为什么会影响性能？

可以这样答：warp divergence 指同一个 warp 内的 thread 因为条件分支走了不同路径。由于 warp 是硬件调度单位，不同路径往往需要被串行执行，导致部分 thread 暂时 inactive，所以有效并行度下降。优化时要尽量让同一个 warp 内 thread 执行相似路径，或者把分支改写成更规则的数据布局和计算方式。

SM：block 被放到哪里执行

SM 是 Streaming Multiprocessor，是 GPU 上最关键的计算组织单元。一个 GPU 有多个 SM；一次 kernel launch 产生很多 block；GPU 会把这些 block 分配到各个 SM 上。每个 SM 内部有 warp scheduler、register file、shared memory、L1/cache 相关结构、CUDA Core、Tensor Core 等资源。

一个 block 被调度到某个 SM 后，它里面的 thread 会被切成多个 warp，由 SM 内部的 warp scheduler 调度执行。当某个 warp 等待 HBM 访存时，SM 可以切换去执行另一个 ready 的 warp，用大量并发来隐藏访存延迟。这也是为什么 GPU 需要很多 thread/warp：不是每个时刻所有 thread 都在算，而是通过足够多的可调度 warp 把硬件流水线填满。

学习者理解

SM 像车间，block 像一个被派到车间的任务包，warp 像车间班组，thread 像班组里的工人。车间要高效运转，需要任务包足够多、班组排班合理、材料供应及时、不要有太多工人因为分支或等待内存而闲着。

面试官常问

Q：block 和 SM 是什么关系？

block 是 CUDA 编程模型里的逻辑任务块，SM 是 GPU 硬件里的执行单元。运行时，block 会被调度到 SM 上执行；一个 block 在运行期间通常不会跨多个 SM；一个 SM 可以同时驻留多个 block，具体数量受 thread 数、register、shared memory 等资源限制。

CUDA 内存层级：为什么“数据怎么搬”比“怎么算”还重要

很多 GPU 性能问题不是算力不够，而是数据搬不动。CUDA 程序里常见的内存层级包括 register、shared memory、L1/L2 cache、global memory/HBM。越靠近计算单元，速度越快、容量越小、使用约束越多；越远离计算单元，容量越大、延迟越高。

按距离理解

register 是每个 thread 私有的最快存储，适合放局部变量，但使用太多会降低 occupancy。shared memory 是 block 内 thread 共享的片上存储，适合做 tile 和数据复用。L2 cache 是多个 SM 共享的缓存，可以缓解重复访问。global memory / HBM 容量最大，模型参数、activation、KV cache 大多在这里，但访问延迟和带宽压力也最大。

面试官常问

Q：为什么 shared memory 能加速矩阵乘？

因为矩阵乘有大量数据复用。如果每个 thread 都直接从 HBM 反复读取元素，会浪费显存带宽。更好的做法是把矩阵分块，把一个 tile 先搬到 shared memory，block 内多个 thread 复用这块数据，再进行多次乘加。这样可以减少 HBM 访问，把更多时间花在计算上。

把概念串起来：一个向量加法 kernel 怎么跑

假设我们要计算 c[i] = a[i] + b[i]，数组长度是 1,000,000。CPU 端决定每个 block 256 个 thread，于是需要大约 3907 个 block。一次 kernel launch 会创建一个包含 3907 个 block 的 grid。GPU 运行时把这些 block 分派给多个 SM。每个 SM 同时驻留若干 block；每个 block 的 256 个 thread 会被切成 8 个 warp；warp scheduler 选择 ready 的 warp 执行 load、add、store。

向量加法的执行链路：

1. CPU 调用 add_kernel<<<3907, 256>>>(a, b, c, n)
2. CUDA runtime 创建一个 grid，里面有 3907 个 block
3. GPU 把 block 分配给不同 SM
4. 每个 block 的 256 个 thread 被组织成 8 个 warp
5. 每个 thread 计算自己的 global_id
6. 每个 thread 从 HBM 读取 a[i] 和 b[i]
7. CUDA Core 执行加法
8. 结果写回 c[i]
9. 所有 block 完成后，这次 kernel 结束

这个例子也说明：不是所有 GPU kernel 都能很好利用 GPU。向量加法每个元素只做一次加法，却要读两个数、写一个数，所以很容易是 memory-bound；矩阵乘每读入一块数据可以做很多乘加，更容易提高算术强度并利用 Tensor Core。

面试标准题：CUDA kernel 的执行模型是什么？

标准回答：CUDA kernel 由 CPU Host 端发起，一次 kernel launch 会创建一个 grid。grid 由多个 block 组成，block 由多个 thread 组成。block 是被调度到 SM 上执行的基本单位；thread 是程序员看到的逻辑执行单元；硬件实际通常以 warp 为单位执行，一个 warp 通常包含 32 个 thread。SM 内部的 warp scheduler 会选择 ready warp 发射指令，通过让多个 warp 同时驻留来隐藏访存延迟。

层级	属于什么	作用	面试重点
Host	CPU 端	分配显存、准备参数、发起 kernel launch	`kernel<<<gridDim, blockDim>>>(args)`
Grid	CUDA 逻辑层级	一次 kernel launch 的全部 block 集合	grid 不是硬件，而是任务组织方式
Block	CUDA 逻辑层级 + 调度边界	一组 thread，调度到某个 SM 上执行	block 内可用 shared memory 和 `__syncthreads()`
Thread	CUDA 逻辑执行单元	运行同一份 kernel 代码，处理不同数据	用 `blockIdx`、`blockDim`、`threadIdx` 计算全局下标
Warp	硬件执行单位	通常 32 个 thread 一组执行同一条指令	关注 warp divergence 和 memory coalescing
SM	GPU 硬件执行单元	承载 block，调度 warp，提供 register/shared memory/CUDA Core/Tensor Core	关注 occupancy、warp stall、register pressure、shared memory

一句话背诵：Host 启动 kernel，kernel 形成 grid，grid 拆成 block，block 调度到 SM，block 内 thread 被组织成 warp，SM 以 warp 为单位执行并通过多 warp 并发隐藏内存延迟。

Q: CUDA kernel 的执行模型是什么？

回答主线

从 kernel launch 开始讲：CPU Host 发起 kernel，CUDA runtime 创建 grid；grid 中有多个 block；block 中有多个 thread；block 被调度到 SM 上执行；SM 把 thread 组织成 warp，并由 warp scheduler 调度 ready warp 执行。

为什么 block 是关键边界

block 内 thread 可以共享 shared memory，也可以用 __syncthreads() 同步。不同 block 默认不能直接同步，因为 block 可能被调度到不同 SM，执行顺序也不确定。如果需要全局同步，通常拆成多个 kernel launch。

为什么 warp 是性能关键

硬件实际按 warp 调度。一个 warp 通常 32 个 thread，同一 warp 内如果分支不同，会出现 warp divergence；如果访存地址连续对齐，可以 memory coalescing，显著提升有效带宽。

如何联系性能优化

理解执行模型后，优化方向就很清楚：让 grid/block 足够多以铺满 SM；控制 register/shared memory 避免 occupancy 过低；减少 warp divergence；让 global memory 访问 coalesced；用 shared memory 做数据复用；能用 Tensor Core 的算子尽量满足 dtype 和 shape 条件。

面试口径：CUDA 执行模型的关键不是“线程很多”，而是 grid/block/thread 的逻辑组织如何映射到 SM/warp 的硬件执行。

面试官怎么问：从概念题到排障题

如果面试官问 CUDA 层级，通常不是为了考你背定义，而是想确认你能不能从执行模型解释性能现象。建议回答时使用这个顺序：先讲 kernel launch，再讲 grid/block/thread，再讲 warp/SM，再讲内存层级，最后联系性能问题。

Q: 请你解释一次 CUDA kernel launch 之后 GPU 上发生了什么。

一次 kernel launch 会从 CPU host 端发起，形如 kernel<<<gridDim, blockDim>>>(args)。这次 launch 对应一个 grid，grid 由多个 block 组成，每个 block 又由多个 thread 组成。GPU 会把 block 调度到 SM 上执行；block 内 thread 被组织成 warp，warp 是硬件调度的重要单位。每个 thread 运行同一份 kernel 代码，但通过 blockIdx 和 threadIdx 计算不同数据下标，从而并行处理不同数据。

答题结构：CPU launch → grid → block → thread → block 调度到 SM → thread 组成 warp → 并行处理数据。

Q: grid、block、thread、warp、SM 哪些是软件概念，哪些是硬件概念？

grid、block、thread 是 CUDA 编程模型中的逻辑概念，是程序员组织并行任务的方式。SM 是 GPU 硬件上的计算单元。warp 是硬件实际调度 thread 的重要执行单位，连接了逻辑 thread 和硬件执行。回答时可以补充：block 会被调度到 SM 上，thread 会被组成 warp 执行，一个 SM 上可以驻留多个 block/warp。

Q: 为什么 block size 通常设置成 32 的倍数？

因为 NVIDIA GPU 通常以 warp 为单位调度 thread，一个 warp 通常是 32 个 thread。如果 block size 不是 32 的倍数，最后一个 warp 可能只有部分 thread 有效，造成执行资源浪费。当然 block size 不是只看 32 的倍数，还要看 register 使用、shared memory 使用、occupancy、访存模式和具体 kernel 的计算特征。

Q: 什么是 occupancy？是不是越高越好？

occupancy 可以粗略理解为 SM 上活跃 warp 数相对理论最大 warp 数的比例。它反映 SM 有多少可调度工作可以用来隐藏访存或执行延迟。但 occupancy 不是越高越好：如果一个 kernel 已经受 HBM 带宽限制，提高 occupancy 未必有用；如果为了提高 occupancy 降低单线程寄存器使用，反而导致重复访存或指令变多，也可能变慢。所以 occupancy 是诊断指标，不是最终目标。

Q: 为什么同一个 warp 内分支不同会变慢？

因为 warp 是硬件调度单位。同一个 warp 里的 thread 如果走不同分支，硬件通常需要分别执行不同路径：走 A 分支时，走 B 分支的 thread 暂时 inactive；再执行 B 分支时，A 分支的 thread 暂时 inactive。这样虽然逻辑上还是并行程序，但有效并行度下降了，这就是 warp divergence。

Q: 如果一个 CUDA kernel 很慢，你会从哪些层级分析？

我会按执行链路分层分析。第一看 launch 配置：grid/block 是否足够让 SM 吃满；第二看 warp 层面：是否有严重分支发散、访存是否连续；第三看 SM 资源：register 和 shared memory 是否限制 occupancy；第四看内存层级：是否频繁访问 HBM、是否可以用 shared memory 做复用；第五看计算路径：是否用上 Tensor Core、shape 是否适合高性能 kernel；最后看端到端是否被 CPU 数据准备、kernel launch overhead 或多卡通信拖慢。

常见误区

误区	正确理解
kernel launch 等于启动一个线程	一次 launch 会创建一个 grid，包含大量 block/thread。
grid/block/thread 是硬件实体	它们是 CUDA 逻辑层级，SM/CUDA Core/Tensor Core 才是硬件资源。
thread 是硬件实际独立调度单位	NVIDIA GPU 通常以 warp 为单位调度，warp 内 thread 分支不同会降低效率。
block 可以跨多个 SM 执行	一个 block 在运行期间通常驻留在一个 SM 上。
occupancy 越高越好	occupancy 是诊断指标，不是最终性能目标。

关联模块

CUDA 内存模型与 Occupancy：继续看 block size、register、shared memory 对 occupancy 的影响。
利用率诊断：用 SM Active、Occupancy、Warp Stall 验证执行模型是否高效。
Stream 与异步流水线：区分 kernel 内部调度和 kernel 之间的 stream 调度。

内容模块

内存模型与 Occupancy

进阶★☆☆⏱ 14 min

一句话结论

CUDA 内存和 occupancy 要一起看：register/shared memory/global memory 决定数据访问成本，block size、寄存器和 shared memory 用量决定一个 SM 能挂多少 warp。Occupancy 是隐藏延迟的条件，不是最终性能目标。

系统链路

硬件视角：基本单位是 SP（Streaming Processor，也叫 CUDA Core），每个 SP 有自己的 register 和 local memory（片下内存，应对寄存器不足），只能被自己访问；多个 SP 和一块 shared memory 构成一个 SM，shared memory 被 SM 内线程共享；多个 SM 和一块全局内存构成 GPU，global memory 被所有线程访问。

软件视角对应关系：

软件	硬件	可见的内存
thread	SP	私有 register + local memory
block	SM	block 内共享 shared memory，可用原子操作和 barrier 同步
grid（device）	GPU	所有 thread 共享 global memory

一句话：register/local 私有，shared memory 是 block 内协作的关键，global memory 全局共享但最慢；不同 block 的线程不能直接协作。

关键机制

block size 选择：

范围通常是 1 到 1024。
取 32（warp 大小）的倍数，避免最后一个 warp 只有部分线程有效。
考虑 occupancy：block size 要让 SM 上能挂足够多 warp。
考虑 register 数量：block 太大可能占用过多寄存器，降低同时驻留的 block 数。
常见起点是 128、256、512，但最终要 profile。

grid size 选择：

Element-wise 程序通常让 grid size = 数据量 / block size 向上取整，并保证 block 数足够多铺满所有 SM。

int block = 256;
int grid = (n + block - 1) / block;   // 向上取整
kernel<<<grid, block>>>(...);

资源模型

指标	定义	含义
SM 利用率 occupancy	有效活跃线程数 / SM 最大线程数	单个 SM 内 warp 是否够多，能否隐藏访存延迟
GPU 利用率 utilization	有效 SM 数 / 总 SM 数	kernel 是否把所有 SM 都铺满

两者结合才能判断 GPU 是否真用满：block 数太少会导致 GPU utilization 低，即 SM 吃不满；block 内 warp 太少或寄存器占用过高会导致 occupancy 低，即单个 SM 隐藏延迟能力差。

内存墙

内存墙指处理器速度与内存访问速度的不匹配：处理器算力增长远快于内存访问速度，导致内存成为瓶颈。在 CUDA 里，内存墙通常指 global memory 的高延迟、相对低带宽会拖慢 GPU。

缓解手段是利用 shared memory 把频繁访问的数据缓存到片上，减少对 global memory 的访问次数，例如矩阵乘 tiling 和 FlashAttention 的分块。这也是很多 GPU kernel 优化的核心思路：不是算得更快，而是少搬数据。

PyTorch 自定义 CUDA 算子

三个步骤：

编写 CUDA 算子和对应的 launch 调用函数。
编写 torch cpp 函数建立 PyTorch 与 CUDA 的联系，用 pybind11 封装。
用 PyTorch 的 cpp 扩展库编译调用。

方式	说明	入口
JIT 编译	Python 运行时再编译 cpp/cuda 文件	`from torch.utils.cpp_extension import load`
SETUP 编译	setup.py 提前编译	`from torch.utils.cpp_extension import BuildExtension, CUDAExtension`
CMAKE 编译	编译生成 .so，运行时加载	`torch.ops.load_library("build/libxxx.so")` → `torch.ops.xxx.torch_launch_xxx()`

Tensor Core 数据路径

Tensor Core 是专门做矩阵乘加（GEMM、卷积、Attention）的硬件单元。在 Volta / Turing / Ampere 架构上，计算所需输入输出数据都放在与 CUDA Core 共享的寄存器上；在 Hopper 架构上，为了获得更好的带宽，计算所需输入数据可以直接存放在共享内存上。

常见误区

误区	正确理解
Occupancy 越高越好	Occupancy 只是隐藏延迟的条件，过高可能牺牲寄存器和数据复用。
block size 越大越好	block 太大会增加资源占用，降低同时驻留 block/warp 数。
shared memory 一定更快	shared memory 快但容量有限，还要注意 bank conflict 和同步开销。
global memory 慢就完全不用	大数据必须在 global/HBM 中，优化目标是提高复用和访问连续性。

Q: 为什么 block size 常取 128 / 256 / 512？

一是必须是 32 的倍数（warp 大小），避免尾部 warp 浪费；二是要能整除 SM 最大活跃线程数以拿到高 occupancy（主流架构公约数 512）；三是 block 太大占用寄存器过多会减少同时驻留 block 数，所以常折中到 128 或 256。最终值要结合寄存器/shared memory 用量和实际 profiling 决定。

Q: 什么是内存墙，CUDA 里怎么缓解？

内存墙是处理器算力增长远快于内存访问速度造成的瓶颈。CUDA 里 global memory 延迟高、带宽相对有限，容易成为瓶颈。缓解办法是把频繁复用的数据搬到 shared memory（片上）做缓存复用，减少 global memory 访问次数，例如矩阵乘 tiling 和 FlashAttention 的分块计算。

关联模块

CUDA 执行模型：block、warp、SM 是 occupancy 的前置概念。
性能指标：Roofline 和 arithmetic intensity 判断是否被内存墙限制。
利用率诊断：用 achieved occupancy、eligible warps、stall reason 做实证判断。

内容模块

Host-Device 数据拷贝

进阶★★☆⏱ 12 min

一句话结论

H2D/D2H 拷贝是 CPU 内存和 GPU 显存之间的数据搬运，常见性能问题不是“有拷贝”本身，而是拷贝频繁、小而碎、触发同步、无法和计算重叠，或者多 GPU 通信绕回 CPU。优化主线是少拷贝、批量拷贝、异步拷贝、拷贝计算重叠。

诊断入口

GPU timeline 有空洞或 step time 抖动

-> 看 DataLoader / CPU preprocessing / I/O

-> 看 Nsight Systems 的 Memcpy HtoD / DtoH / stream sync

-> 查 PyTorch 里的 .item() / .cpu() / .numpy() / aten::to

-> 看 pinned memory、non_blocking、prefetch、stream 重叠是否生效

-> 多 GPU 场景检查是否绕 CPU，优先 NCCL / NVLink / GPUDirect

指标解释

现象	可能原因	典型证据
GPU-Util 低且 timeline 有空洞	DataLoader、CPU preprocessing 或 H2D 太慢	kernel 之间有大空洞、HtoD 前 CPU 等待
CPU 线程频繁阻塞	D2H 或显式同步	`cudaStreamSynchronize`、`.item()`、`Memcpy DtoH`
拷贝很多但带宽低	大量小 tensor 小拷贝	timeline 上许多短小 memcpy
多 GPU 扩展差	数据绕回 CPU 或拓扑差	PCIe 流量异常、NCCL 路径不理想

Host-to-Device / Device-to-Host Copy 是什么

本节只回答“数据为什么要在 CPU 和 GPU 之间搬、哪些操作会触发搬运、如何减少和诊断搬运”。CUDA stream 的异步队列和多缓冲流水线放在下一节。

Host-to-device copy（H2D） 是把数据从 CPU 内存拷贝到 GPU 显存；device-to-host copy（D2H） 是把数据从 GPU 显存拷贝回 CPU 内存。

术语	含义	典型资源	方向	常见场景
Host	主机端	CPU、系统内存	-	DataLoader、Python 进程、业务服务
Device	设备端	GPU、GPU 显存	-	CUDA kernel、模型前向/反向、推理引擎
H2D	CPU 内存到 GPU 显存	Host memory -> Device memory	CPU -> GPU	把 batch 输入拷到 GPU
D2H	GPU 显存到 CPU 内存	Device memory -> Host memory	GPU -> CPU	`.cpu()`、`.numpy()`、`.item()`、日志和后处理

一句话：H2D 是 CPU 内存到 GPU 显存，D2H 是 GPU 显存到 CPU 内存。

为什么叫 Host 和 Device

CUDA / GPU 编程里，一般把 CPU 侧叫 Host，把 GPU 侧叫 Device。Host 负责控制流程、数据读取、任务提交和 kernel launch；Device 负责执行大规模并行计算。

Host memory   = CPU 内存
Device memory = GPU 显存

H2D: Host memory   -> Device memory
D2H: Device memory -> Host memory

这个命名也解释了为什么 CUDA API、Profiler 和 Nsight 里经常看到 Memcpy HtoD、Memcpy DtoH。

训练流程里的 H2D / D2H

训练时 H2D 通常不可避免，因为样本先在 CPU 侧被读取和预处理，GPU 计算前必须把 batch 放到显存里。D2H 则很多时候可以减少，尤其是频繁把 loss、metric、中间 tensor 拷回 CPU。

1. DataLoader 从磁盘读取图片/样本
2. CPU 做 decode / augmentation / tokenize
3. batch 放在 CPU 内存
4. H2D: batch 从 CPU 拷贝到 GPU
5. GPU 前向计算
6. GPU 反向传播
7. GPU 更新参数
8. 可选 D2H: loss / metric / output 拷回 CPU 打日志或后处理

操作	是否常见	是否可优化	说明
batch 输入 H2D	很常见	可加速/重叠	用 pinned memory、non_blocking、prefetch
loss.item() D2H	很常见	可减少频率	每 step 多次调用会触发同步和拷贝
tensor.cpu().numpy()	常见	应谨慎	会把 GPU tensor 拷回 CPU，常导致同步
GPU -> CPU -> GPU	性能反模式	应避免	能在 GPU 上做就不要绕回 numpy

为什么数据拷贝会影响性能

GPU 计算很快，但 CPU 内存和 GPU 显存之间要经过 PCIe、NVLink 等互联。它们通常比 GPU 内部 HBM 访问慢，也比 GPU 内部计算更容易成为流水线瓶颈。如果每个 step 都频繁做 CPU -> GPU -> CPU -> GPU，GPU 就可能在等数据，而不是在计算。

现象	可能原因	典型证据
GPU utilization 低	DataLoader 或 H2D 太慢	timeline 中 kernel 之间有空洞
step time 抖动	CPU 预处理、磁盘 I/O 或拷贝不稳定	Profiler 里 DataLoader 时间波动
CPU 等 GPU	D2H 触发同步	`cudaStreamSynchronize`、`Memcpy DtoH`
带宽利用差	大量小 tensor 小拷贝	很多短小 `Memcpy HtoD`

性能问题的关键不是“有没有拷贝”，而是拷贝是否频繁、是否小而碎、是否阻塞、是否能和计算重叠。

优化 1：减少不必要的 D2H

D2H 操作经常比你想象中更隐蔽。PyTorch 里的 .item()、.cpu()、.numpy()、打印 GPU tensor，都可能把 GPU 上的数据拷回 CPU，并触发同步。

触发操作	问题	优化方式
`loss.item()`	GPU loss 拷回 CPU，可能同步	每 N step 记录一次，或聚合后再取
`tensor.cpu()`	显式 D2H	只在必要输出/保存时调用
`tensor.numpy()`	需要先回 CPU	尽量用 PyTorch GPU tensor 操作替代 numpy
`print(gpu_tensor)`	为了显示内容可能触发同步	少打印，打印 shape/dtype/device 等元信息

# 不推荐：每步都强制 D2H + 同步
loss_value = loss.item()

# 更好：降低频率，或多个指标聚合后再拷贝
if step % 100 == 0:
    loss_value = loss.detach().item()

优化 2：Pinned Memory + Non-blocking Copy

Pinned memory，也叫 page-locked memory，表示这块 CPU 内存固定在物理内存里，不会被操作系统换出。GPU DMA 从 pinned memory 做 H2D 拷贝更高效，也更容易和计算异步重叠。

loader = DataLoader(
    dataset,
    batch_size=128,
    shuffle=True,
    num_workers=8,
    pin_memory=True,
    persistent_workers=True,
    prefetch_factor=2,
)

for batch, label in loader:
    batch = batch.to("cuda", non_blocking=True)
    label = label.to("cuda", non_blocking=True)
    output = model(batch)

参数	作用	注意点
`pin_memory=True`	DataLoader 把 batch 放到 pinned CPU memory	占用不可换出的物理内存，不能无限开
`non_blocking=True`	允许异步 H2D	通常需要 pinned memory 才更有效
`num_workers`	多进程并行读数据/预处理	过大可能 CPU 争用或内存压力大
`prefetch_factor`	提前准备后续 batch	增大可提升流水线，但会占更多内存
`persistent_workers`	跨 epoch 保持 worker	减少 worker 重启开销

优化 3：让拷贝和计算重叠

理想训练流水线是：GPU 正在计算 batch N，CPU 同时准备 batch N+1，H2D 同时拷贝 batch N+1。这样 GPU 不需要在 batch 边界长时间等待数据。

理想流水线：

时间轴 ---->
CPU/DataLoader:  prepare batch N+1   prepare batch N+2
H2D copy:              copy N+1           copy N+2
GPU compute: compute batch N     compute batch N+1

如果 timeline 里看到 GPU compute 结束后才开始 H2D，并且中间有明显空洞，说明数据准备或拷贝没有很好重叠。

优化 4：批量拷贝，减少小拷贝

大量小 tensor 分别 .to("cuda") 会产生很多小 H2D copy，每次拷贝都有固定开销，带宽利用率也差。更好的方式是先在 CPU 侧合并成 batch，再一次性拷贝到 GPU。

# 不推荐：很多小 H2D
for x in list_of_tensors:
    x = x.to("cuda")

# 更好：先合并，再一次 H2D
batch = torch.stack(list_of_tensors)
batch = batch.to("cuda", non_blocking=True)

优化 5：避免 CPU/GPU 来回转换

下面这种链路非常浪费：

x = x.cuda()
y = x.cpu().numpy()
z = torch.tensor(y).cuda()

它会产生 GPU -> CPU -> GPU，既浪费带宽，又可能触发同步。原则是：能在 GPU 上做的计算就留在 GPU 上；能用 PyTorch GPU tensor 操作，就不要中途转 numpy。

优化 6：预处理流水线和数据格式

很多训练瓶颈不在 H2D 本身，而在 H2D 前面的 CPU decode、augmentation、tokenizer、磁盘 I/O 和小文件读取。优化方向包括更快的数据格式、更好的预取、更少的小文件和更靠近 GPU 的预处理。

瓶颈	优化方式
图片 decode / resize / crop / normalization 慢	NVIDIA DALI、GPU augmentation、离线预处理、cache 结果
小文件太多	WebDataset、TFRecord、mmap、顺序读取格式
Tokenizer 慢	批量 tokenizer、预 tokenize、cache token ids
磁盘/网络存储慢	本地 NVMe cache、数据预热、分布式缓存

多 GPU 场景：避免 Host 中转

多 GPU 通信最好直接走 GPU-GPU 或 GPU-NIC-GPU，而不是绕回 CPU。否则会出现低效路径：

差：GPU0 -> CPU -> GPU1
好：GPU0 -> GPU1
好：GPU -> NIC -> GPU

机制	作用	典型场景
NVLink / NVSwitch	节点内 GPU-GPU 高带宽互联	TP、AllReduce、P2P copy
NCCL	多 GPU collective 通信库	DDP、ZeRO、张量并行
GPUDirect RDMA	GPU 显存和 NIC 直接通信，减少 CPU 参与	跨节点训练、RDMA 网络
P2P copy	GPU 间直接拷贝	同机多卡数据交换

推理服务里的拷贝优化

在线推理也会被拷贝拖慢，尤其是请求小、batch 小、后处理重、输出频繁回 CPU 的场景。优化时要减少输入输出 buffer 抖动，让预处理、推理、后处理尽量流水线化。

请求批处理，合并小输入。
输入预处理尽量批量化或放到 GPU。
输出后处理尽量在 GPU 上完成。
使用 zero-copy 或共享内存减少业务进程和推理进程之间的数据复制。
避免频繁把中间 tensor 拷回 CPU。
使用 TensorRT 管理输入输出 buffer，减少反复分配和拷贝。
使用 CUDA Graph 降低固定 shape 推理的 launch overhead。

如何判断是不是数据拷贝瓶颈

如果 GPU utilization 低、CPU utilization 高、DataLoader 慢、每个 step 中间有明显空洞，就要怀疑数据加载或 H2D/D2H 拷贝瓶颈。

工具	看什么
Nsight Systems	timeline 中的 `Memcpy HtoD`、`Memcpy DtoH`、kernel 空洞、stream 同步
PyTorch Profiler	DataLoader 时间、`aten::to`、`cudaMemcpyAsync`、CPU/GPU timeline
nvidia-smi / DCGM	GPU 利用率、显存、PCIe/NVLink 相关指标
torch.cuda.Event	测量 GPU 侧时间，区分 CPU wall time 和 GPU elapsed time
TensorBoard Profiler	训练 step 拆解和输入 pipeline 分析

重点关注：
Memcpy HtoD
Memcpy DtoH
cudaStreamSynchronize
cudaDeviceSynchronize
kernel 之间的大空洞

Q: 什么是 host-to-device / device-to-host copy？怎么优化？

标准回答

Host 指 CPU 侧，Device 指 GPU 侧。Host-to-device copy 是把数据从 CPU 内存拷贝到 GPU 显存，例如训练时把 batch 输入拷到 GPU；device-to-host copy 是把 GPU 上的结果拷回 CPU，例如 .cpu()、.numpy()、.item()、日志和后处理。

为什么影响性能

这类拷贝需要走 PCIe、NVLink 等互联，相比 GPU 内部计算和 HBM 访问慢很多。而且很多 D2H 操作会触发同步，破坏 CUDA 异步执行，让 CPU 等 GPU 或 GPU 等数据。

优化思路

第一，减少不必要的拷贝，尤其避免频繁 .cpu()、.numpy()、.item()；第二，用 pinned memory 和 non_blocking=True 加速 H2D；第三，用 DataLoader 多 worker、prefetch、persistent workers 让数据准备和 GPU 计算重叠；第四，尽量把预处理和后处理放在 GPU 上；第五，合并小 tensor 做批量拷贝；第六，多 GPU 场景使用 NCCL、NVLink、GPUDirect，避免 GPU 通信绕回 CPU。

一句话：少拷贝、批量拷贝、异步拷贝、拷贝计算重叠，避免 GPU -> CPU -> GPU 来回搬。

关联模块

Stream 与异步流水线：用 stream/event 和多缓冲把拷贝与计算重叠。
利用率诊断：timeline 空洞、memcpy 和同步是 H2D/D2H 瓶颈证据。
GPU 互联与数据路径：理解 PCIe、NVLink、GPUDirect RDMA 的路径差异。

内容模块

Stream 与异步流水线

进阶★★☆⏱ 12 min

一句话结论

CUDA stream 是 GPU 侧的异步任务队列，同一个 stream 内顺序执行，不同 stream 在资源允许时可以并行。优化目标是用 pinned memory、cudaMemcpyAsync、event 和多缓冲，把 CPU 准备、H2D/D2H 拷贝和 kernel 计算流水线化。

核心概念

本节关注“如何用 stream/event 把拷贝、kernel 和 CPU 准备组织成异步流水线”。H2D/D2H 的触发场景和 DataLoader 诊断见 Host-Device 数据拷贝。

GPU 有自己的显存（HBM），CPU 也有自己的内存（DDR）。数据在两者之间搬运，就是 H2D（Host to Device）和 D2H（Device to Host）拷贝。

因为 H2D/D2H 走的是 PCIe 或 NVLink，带宽远低于 GPU 内部 HBM 带宽。一次不注意的同步拷贝可能让 GPU 空等数百微秒，这在推理低延迟场景下尤其致命。

路径	典型带宽	延迟	常见场景
CPU → GPU（PCIe 4.0 x16）	~25 GB/s（双向 ~50 GB/s）	~10 μs 起步	输入数据、模型加载
GPU → CPU（PCIe 4.0 x16）	~25 GB/s	~10 μs 起步	读取推理结果、日志
GPU → GPU（NVLink 3.0）	~300 GB/s	~5 μs	张量并行、NCCL 通信
GPU → GPU（PCIe）	~25 GB/s	~10 μs	无 NVLink 的卡间通信

系统链路

同步拷贝（cudaMemcpy）：CPU 发起后阻塞等待完成，GPU 和 CPU 都在等。适合初始化、模型加载等不在乎延迟的场景。

异步拷贝（cudaMemcpyAsync）：CPU 发起后立即返回，拷贝在 GPU 端异步执行。必须配合 CUDA stream 使用，才能实现计算和拷贝重叠。

// 同步：CPU 阻塞等待
cudaMemcpy(d_ptr, h_ptr, size, cudaMemcpyHostToDevice);

// 异步：CPU 立即返回，拷贝在 stream 上执行
cudaMemcpyAsync(d_ptr, h_ptr, size, cudaMemcpyHostToDevice, stream);

关键机制

策略	原理	效果
Pinned Memory（页锁定内存）	用 `cudaMallocHost` 分配 CPU 端不可换页内存，DMA 直接传输	异步拷贝带宽可提升 2-3×
计算与拷贝重叠	用多个 CUDA stream，一个算当前 batch，另一个拷下一个 batch	隐藏拷贝延迟
减少不必要的 D2H	尽量让数据留在 GPU，减少中间结果回传 CPU	减少拷贝次数和延迟
批量传输	多次小拷贝合并为一次大拷贝	减少启动开销
Unified Memory	`cudaMallocManaged` 让 CPU/GPU 共享地址空间，按需迁移	编程简单，但性能不如手动管理

Pinned Memory 为什么更快：

普通 malloc 分配的内存是可换页的，GPU DMA 无法直接访问，需要先拷贝到临时 pinned buffer 再传输，多了一次隐式拷贝。cudaMallocHost 分配的内存被锁定在物理页上，GPU DMA 可以直接传输，省掉中间环节。但 pinned memory 不可换页，会占用实际物理内存，不能无限分配。

CUDA stream 是 GPU 上的任务队列。同一个 stream 内的操作按提交顺序串行执行；不同 stream 之间的操作可以并行执行（如果硬件资源允许）。

cudaStream_t stream1, stream2;
cudaStreamCreate(&stream1);
cudaStreamCreate(&stream2);

// stream1：拷贝输入 + 计算
cudaMemcpyAsync(d_in1, h_in1, size, cudaMemcpyHostToDevice, stream1);
kernel_a<<<grid, block, 0, stream1>>>(d_in1, d_out1);

// stream2：同时拷贝另一组输入 + 计算
cudaMemcpyAsync(d_in2, h_in2, size, cudaMemcpyHostToDevice, stream2);
kernel_b<<<grid, block, 0, stream2>>>(d_in2, d_out2);

// 等待两个 stream 都完成
cudaStreamSynchronize(stream1);
cudaStreamSynchronize(stream2);

资源模型

推理或训练中，经典优化是让数据拷贝和计算重叠。三缓冲（triple buffering）是最常见的模式：

Buffer A: GPU 正在计算（kernel 执行中）
Buffer B: H2D 正在拷贝下一批数据（DMA 传输中）
Buffer C: CPU 正在准备再下一批数据

下一个时间步：
  A 计算完成 → D2H 取结果
  B 拷贝完成 → 开始计算
  C 准备完成 → 开始 H2D 拷贝

这样 GPU 不用等 CPU 准备数据，CPU 也不用等 GPU 算完，三者流水线化。

实现要点：

每个缓冲区用独立的 CUDA stream。
输入数据用 pinned memory 分配。
用 cudaMemcpyAsync 而不是 cudaMemcpy。
用 cudaStreamSynchronize 或 event 等待完成。
缓冲区数量通常 2 或 3，多了收益递减。

常见误区

误区	正确理解
用了多个 stream 就一定并行	并行取决于硬件资源、依赖关系、默认 stream 语义和 kernel 是否占满 SM。
`cudaMemcpyAsync` 一定异步	H2D 异步拷贝通常需要 pinned memory；pageable memory 可能触发隐式同步或 staging copy。
默认 stream 可以直接用于重叠	默认 stream 可能和其他 stream 隐式同步，做流水线应使用自定义 stream 和 event。
stream 越多越好	stream 过多会增加调度复杂度，资源冲突时收益有限。

Q: 默认 stream（stream 0）和自定义 stream 有什么区别？

默认 stream（NULL / 0）是同步流——它会和所有其他 stream 隐式同步。如果你把操作提交到默认 stream，它会等所有其他 stream 完成；其他 stream 也会等它完成。自定义 stream 之间没有这种隐式同步，所以可以实现真正的并行。要做计算拷贝重叠，必须用自定义 stream。

Q: 两个 stream 一定能并行吗？

不一定。并行取决于硬件资源是否足够。如果两个 stream 的 kernel 都需要全部 SM，它们会被串行执行；如果一个在拷贝（使用 DMA engine / copy engine），一个在计算（使用 SM），它们可以并行，因为用的是不同硬件单元。这也是为什么计算+拷贝重叠比计算+计算重叠更容易实现——DMA engine 和 SM 是独立的硬件资源。

关联模块

Host-Device 数据拷贝：定位 H2D/D2H 触发点和 DataLoader 问题。
CUDA 执行模型：理解 stream、kernel、block/warp 的层级差异。
利用率诊断：在 Nsight Systems timeline 中识别 memcpy、空洞和同步。

内容模块

CFS vs CUDA 调度

精通★★★⏱ 18 min

一句话结论

Linux CFS 和 CUDA thread/block 调度都叫“调度”，但它们解决的是完全不同层次的问题。

Linux CFS 是 CPU 上的操作系统调度器，调度对象是进程或线程，目标是公平性、响应性和 CPU 时间共享。它通过 vruntime、优先级权重、抢占和上下文切换来决定哪个任务运行。

CUDA thread block 调度主要由 GPU 硬件完成，调度对象是 kernel grid 中的 block，也叫 CTA。GPU 把 block 分配到 SM 上执行；block 一旦驻留在某个 SM 上，通常会运行到完成。SM 内部再通过 warp scheduler 在多个 ready warp 之间切换，以隐藏访存和执行延迟。

CUDA Stream/Event 又是另一层。它们不是 kernel 内部 thread 的调度器，而是 CUDA 程序员用来表达任务级异步执行和依赖关系的工具。

系统链路

Linux CFS

OS 决定哪个进程/线程拿到 CPU 时间片

CUDA Stream/Event

程序员组织 H2D、kernel、D2H 等 GPU 任务的顺序和依赖

CUDA Block 调度

GPU 把 grid 里的 block 分配到 SM

Warp Scheduler

SM 内部选择 ready warp 发射指令

为什么这个问题容易混淆？

因为“线程”这个词在 CPU 和 GPU 里含义不同。

名词	CPU/Linux 语境	CUDA/GPU 语境
Thread	OS 可调度实体，可能对应内核线程或用户线程	CUDA 逻辑执行单元，运行同一份 kernel 代码
Scheduler	Linux 内核调度器，决定哪个 task 运行在 CPU core	GPU 硬件/驱动/runtime 多层机制，把 block/warp 放到硬件上执行
Context switch	保存/恢复 CPU 寄存器、地址空间、内核栈等	GPU block/warp 不是按 CFS 时间片做频繁 OS 式切换
Fairness	多进程共享 CPU 时间，要尽量公平	GPU kernel 更关心吞吐、occupancy 和 latency hiding
Preemption	CFS 可以抢占当前 CPU task	block 一旦驻留 SM 通常运行到完成，GPU 任务抢占粒度更粗、代价更高

所以面试回答时要先分层：

CPU OS 调度层：进程/线程如何共享 CPU。
CUDA 任务提交层：stream/event 如何组织 GPU work。
GPU kernel 执行层：block/warp 如何映射到 SM。
集群资源调度层：K8s/Volcano/YARN 等如何分配 GPU 设备给任务。

不要把这四层混成一个“GPU 调度器”。

Linux CFS：公平地分 CPU 时间

CFS 全称是 Completely Fair Scheduler，目标不是让某个任务跑到最快，而是在多个 runnable task 之间尽量公平地分配 CPU 时间，同时兼顾交互响应。

CFS 调度对象

CFS 调度的是 Linux 内核里的 task_struct。对用户来说，它可以表现为：

一个进程；
一个线程；
一个容器里的某个线程；
一个 cgroup 下的一组任务。

在 Linux 里，线程和进程最终都可以作为调度实体参与 CPU 调度。CFS 不关心这个任务是不是 AI 训练、数据加载、推理服务、日志线程，它只看到“这个 runnable task 需要 CPU”。

vruntime：谁“欠 CPU 时间”最多

CFS 的核心指标是 vruntime，可以理解成“加权后的虚拟运行时间”。

任务真实运行越久，vruntime 越大。
nice 值越低、优先级越高，权重越大，同样运行一段真实时间，vruntime 增长越慢。
调度器倾向于选择 vruntime 最小的任务运行，因为它看起来“拿到的公平份额最少”。

直觉上：

谁的 vruntime 小，说明谁相对更“饿”，应该优先给 CPU。
谁的 vruntime 大，说明谁已经跑得比较多，可以先等一等。

这和传统时间片轮转不一样。Round Robin 更像“每个人轮流拿固定时间片”；CFS 更像“持续维护每个人已经拿到的公平份额”。

nice、weight 和公平份额

Linux 的 nice 值会影响任务权重。

nice 值	权重直觉	结果
更小，例如 `-10`	权重更大	同样时间内获得更多 CPU 份额
默认 `0`	默认权重	普通任务
更大，例如 `10`	权重更小	更愿意让出 CPU

CFS 不是简单地“高优先级永远先跑”。它通过权重影响 vruntime 增长速度，让高权重任务在长期上获得更多 CPU 时间，但仍然允许其他任务运行。

runqueue 和红黑树

每个 CPU 通常有自己的 runqueue。CFS 会把 runnable task 按 vruntime 组织起来，经典实现使用红黑树。

任务变为 runnable

进入当前 CPU 的 CFS runqueue

按 vruntime 排序

vruntime 小的任务排在更靠左的位置

选择最左任务

调度器选择 vruntime 最小的 task

运行一段时间

task 的 vruntime 增加

重新入队或继续运行

根据抢占、阻塞、唤醒和时间粒度决定

这个结构的意义是：调度器能快速找到“最应该运行”的任务。

抢占和上下文切换

CFS 是抢占式调度。当前任务正在 CPU 上运行时，如果出现一个更应该运行的任务，调度器可以触发抢占。

常见触发点包括：

周期性 tick 或调度时钟更新；
当前任务主动阻塞，例如等待 IO、锁、网络；
新任务唤醒，例如交互请求到来；
当前任务运行超过合理粒度；
更高优先级或更小 vruntime 的任务需要运行。

CPU 上下文切换通常涉及：

保存当前任务寄存器状态；
切换内核栈；
切换或更新地址空间相关状态；
更新调度统计；
恢复下一个任务的执行上下文。

上下文切换不是免费的。线程数过多、锁竞争严重、频繁唤醒阻塞，都可能导致 CPU 时间花在调度和切换上，而不是有效计算上。

CUDA Stream/Event：任务级异步调度

对 CUDA 程序员来说，Stream/Event 是控制 GPU work 提交顺序和依赖的工具。

Stream 是 GPU 任务队列：

同一个 stream 内的操作按提交顺序执行；
不同 stream 的操作可以并发执行，但前提是硬件资源允许；
常见操作包括 H2D 拷贝、kernel launch、D2H 拷贝、event record/wait。

Event 是依赖和计时工具：

可以记录某个 stream 上的进度点；
可以让另一个 stream 等待这个 event；
可以用于测量 GPU 端耗时；
可以避免 CPU 端粗暴 cudaDeviceSynchronize()。

CPU 提交任务

把 H2D、kernel、D2H 放进一个或多个 stream

Stream 保证顺序

同一 stream 内先提交的先执行

Event 表达依赖

一个 stream 可以等待另一个 stream 的完成点

GPU runtime/driver 派发

把 ready 的 work 交给 GPU 执行

硬件执行 kernel

进入 block/SM/warp 层级

这里要强调：stream 不等于 SM 调度器。Stream 决定的是 kernel、memcpy 等任务之间的顺序和并发机会；block 和 warp 怎么在 SM 里执行，是更底层的硬件执行机制。

CUDA Block / Warp 调度：吞吐优先

一次 kernel launch 会产生一个 grid，grid 里包含很多 block。GPU 的工作是把这些 block 分配到 SM 上执行。

block 是调度到 SM 的基本单位

block 也常被称为 CTA（Cooperative Thread Array）。一个 block 里的 thread 可以：

共享 shared memory；
使用 __syncthreads() 做 block 内同步；
通过 thread/block index 处理不同数据。

GPU 硬件会把 block 调度到某个 SM。一个 block 一旦驻留到 SM 上，通常不会像 CPU task 那样被 CFS 时间片频繁抢占并迁移到另一个 SM，而是运行到完成。

这带来两个重要结论：

不同 block 之间默认没有执行顺序保证。
block 数量要足够多，否则 SM 可能吃不满。

block residency：为什么不是想放多少就放多少

一个 SM 能同时驻留多少个 block，受多种资源限制：

限制项	为什么影响 block 驻留
每个 block 的 thread 数	SM 可同时容纳的 thread/warp 数有限
每个 thread 的 register 数	register file 容量有限，register pressure 高会降低 occupancy
每个 block 的 shared memory	shared memory 被 block 独占，使用多会减少可驻留 block
架构上限	每个 SM 最大 block 数、warp 数、thread 数有硬件限制

所以 CUDA 调优不是“block 越大越好”。block 太小，单个 block 并行度不足；block 太大，可能占用太多 register/shared memory，导致 SM 上可同时驻留的 warp 变少。

warp scheduler：隐藏内存延迟

block 被放到 SM 后，block 内 thread 会被组织成 warp。NVIDIA GPU 上一个 warp 通常是 32 个 thread。SM 内部的 warp scheduler 会在多个 ready warp 之间选择并发射指令。

它的关键目标不是公平，而是吞吐：

某个 warp 等 HBM 访存时，切换到另一个 ready warp；
某个 warp 遇到长延迟指令时，让其他 warp 填补流水线；
通过足够多 active warp 隐藏内存和执行延迟。

Block 驻留 SM

block 占用 register、shared memory、thread slots

Thread 组成 warp

通常 32 个 thread 一组

Warp 等待访存

当前 warp 可能 stalled

选择 ready warp

warp scheduler 发射另一个可执行 warp

提高吞吐

用并发 warp 隐藏延迟，而不是追求单线程低延迟

这就是 GPU 和 CPU 的核心差异之一：CPU 用复杂控制逻辑优化单线程延迟；GPU 用大量 warp 并发隐藏延迟，追求整体吞吐。

CFS vs CUDA 调度：核心对比

维度	Linux CFS	CUDA block/warp 调度
所在层级	操作系统内核	GPU runtime/driver + GPU 硬件
调度对象	进程/线程，也就是 task	grid 中的 block/CTA；SM 内部的 warp
目标	公平性、响应性、CPU 时间共享	吞吐、occupancy、隐藏访存延迟
核心指标	`vruntime`、nice/weight、调度延迟	active warps、occupancy、warp stall、SM utilization
抢占方式	可以抢占当前 CPU task	block 通常运行到完成，GPU 任务抢占粒度更粗
切换代价	CPU 上下文切换较频繁，但相对可控	GPU kernel/上下文抢占代价更高，不适合频繁时间片化
公平性	明确追求公平份额	不以线程公平为主，强调硬件利用率
程序员控制	nice、cgroup、affinity、priority、policy	grid/block 配置、stream/event、kernel 设计
典型问题	线程过多、上下文切换、锁竞争、CPU 抢占	block 太少、occupancy 低、warp divergence、访存不合并

面试中最容易犯的错是说“GPU 也像 CPU 一样靠 OS 调度每个 thread”。这不对。CUDA thread 是 GPU kernel 内的逻辑执行单元，不是 Linux CFS 直接调度的 OS thread。

Stream/Event vs Thread Block/Warp：不同层次

对 CUDA 程序员来说，最需要区分的是这两层：

层次	你控制什么	典型 API / 概念	解决什么问题
任务级调度	kernel、memcpy、依赖、并发机会	`cudaStream_t`、`cudaEvent_t`、`cudaMemcpyAsync`	计算/拷贝重叠，多 kernel 并发，减少 CPU 等待
kernel 内执行	block 数、thread 数、shared memory、访存模式	`gridDim`、`blockDim`、`threadIdx`、warp、SM	铺满 SM，减少 divergence，提高 occupancy 和访存效率

例子：

stream1: H2D batch0 → kernel batch0 → D2H result0
stream2: H2D batch1 → kernel batch1 → D2H result1

这是 stream 层的并发组织。每个 kernel batchX 内部又会被拆成 grid/block/thread，并由 GPU 把 block 分配到 SM、把 thread 组织成 warp。

换句话说：

Stream/Event 解决“多个 GPU 任务之间怎么排队、等待、重叠”。
Block/Warp 调度解决“一个 kernel 内部怎么并行执行”。

和 AI Infra 的关系

这个对比不是纯 CUDA 八股。它能解释很多系统现象。

为什么 GPU 训练任务不适合像 CPU 一样频繁抢占？

CPU 线程抢占和上下文切换相对常见，CFS 正是为共享 CPU 时间设计的。但 GPU 训练任务通常有：

大量显存状态：模型参数、梯度、optimizer state、activation；
NCCL communicator 和多 rank 同步；
kernel 执行和通信 overlap；
CUDA context、缓存分配器、通信 buffer；
checkpoint 恢复成本。

如果频繁像 CPU 时间片一样抢占 GPU 训练任务，可能会导致上下文切换、显存迁移、通信重建和 checkpoint 回滚成本远大于收益。所以集群调度里 GPU 抢占往往要 checkpoint-aware、gang-aware，而不是简单时间片轮转。

为什么 Time Slicing 和 MPS 不等于 CUDA block 调度？

Kubernetes / NVIDIA device plugin 里的 GPU time-slicing、MPS 属于多进程/多 Pod 共享 GPU 的资源管理机制。

Time Slicing：多个进程或容器按时间片共享 GPU。
MPS：多个 CUDA 进程通过 MPS server 更高效共享 GPU 执行资源。
CUDA block/warp 调度：一个 kernel 内部 block 和 warp 如何映射到 SM。

它们层次不同。不能说“开了 time-slicing 后，K8s 会调度 CUDA thread block”。K8s 只调度 Pod；NVIDIA device plugin/driver 负责 GPU 资源共享；kernel 内部 block/warp 仍由 GPU 硬件调度。

为什么 CPU 线程很多会拖慢 GPU 任务？

GPU kernel 虽然在 GPU 上执行，但 GPU 程序仍依赖 CPU：

CPU 负责 dataloader、预处理、tokenization；
CPU 发起 kernel launch；
CPU 提交 H2D/D2H；
CPU 管理 CUDA runtime、NCCL、RPC；
CPU 处理服务端请求、排队和调度。

如果 CPU 侧线程过多、上下文切换严重、NUMA 绑定不合理或 dataloader 卡住，GPU 可能出现空洞：SM 没活干、GPU Util 周期性下降。此时问题不是 CUDA block 调度，而是 CPU 供给链路和 OS 调度压力。

高频面试问答

Q: Linux CFS 和 CUDA thread block 调度有什么本质区别？

Linux CFS 是 CPU 上的操作系统调度器，调度对象是进程或线程，目标是公平性、响应性和 CPU 时间共享。它用 vruntime、nice 权重、抢占和上下文切换决定哪个 task 在 CPU core 上运行。CUDA thread block 调度是 GPU kernel 内部的执行机制，调度对象是 grid 中的 block/CTA，GPU 把 block 分配到 SM 上；block 内 thread 再组成 warp，由 SM 的 warp scheduler 选择 ready warp 发射指令。CPU 调度强调公平和低延迟，GPU 调度强调吞吐和隐藏内存延迟。

面试口径：CFS 调 OS task，CUDA block 调 kernel 内工作单元；前者公平，后者吞吐。

Q: CUDA Stream/Event 和 Thread Block/Warp 调度是什么关系？

它们处在不同层次。Stream/Event 是任务级异步调度和依赖管理工具，用来组织 H2D、kernel、D2H 等 GPU work 的顺序、等待和重叠。同一个 stream 内顺序执行，不同 stream 可以并发；event 可以表达跨 stream 依赖。Thread Block/Warp 调度是 kernel 内部的硬件并行执行机制：一个 kernel launch 产生 grid，grid 中的 block 被调度到 SM，block 内 thread 被组织成 warp，SM 的 warp scheduler 在 ready warp 之间切换。

一句话：Stream 管 kernel 之间，block/warp 管 kernel 里面。

Q: GPU block 一旦被调度到 SM 后，会像 CPU 线程一样被频繁抢占吗？

通常不会。CPU 线程是 OS 调度实体，CFS 可以通过时间片和抢占频繁切换 runnable task。CUDA block 是 kernel 内部的工作单元，一旦驻留到某个 SM 上，通常运行到完成；SM 内部通过切换 ready warp 来隐藏延迟，而不是像 OS 一样把 block 按时间片迁移来迁移去。现代 GPU 支持某些粒度的抢占能力，但相对 CPU task 抢占更粗、更贵，AI 训练平台也不会把它当作常规公平时间片机制使用。

Q: 为什么 GPU 调度更强调吞吐而不是公平？

GPU 的设计目标是把大量相似计算并行执行，尽量提高 SM、Tensor Core、HBM 带宽等资源的利用率。kernel 内部的 thread/warp 往往属于同一个计算任务，不需要像多用户 CPU 进程那样做强公平分配。SM 的 warp scheduler 更关心哪个 warp ready、能不能填满流水线、能不能隐藏访存延迟。公平性通常出现在更上层，例如多 Pod 共享 GPU、集群队列 quota、租户配额，而不是单个 kernel 内每个 CUDA thread 的公平时间片。

Q: 如果 GPU 利用率周期性掉低，这和 CFS 有关系吗？

可能有间接关系。GPU 利用率掉低可能是 GPU kernel 本身太小、block 不足、访存低效，也可能是 CPU 侧没有及时喂数据。CPU 侧 dataloader、tokenizer、RPC worker、kernel launch 线程都受 Linux 调度影响。如果 CPU 线程过多、上下文切换严重、NUMA 远端访问、锁竞争或 IO 阻塞，GPU 就会等输入或等 launch，表现为周期性空洞。因此排查时要同时看 GPU timeline 和 CPU 侧 perf/top/线程状态，而不是只看 CUDA kernel。

Q: CFS 的 vruntime 可以类比 GPU 的什么指标？

严格来说没有一一对应。vruntime 是 CFS 为了公平分配 CPU 时间定义的虚拟运行时间，用来决定哪个 OS task 更应该运行。GPU kernel 内部没有为每个 CUDA thread 维护类似 vruntime 的公平指标。GPU 更常看的指标是 active warps、occupancy、warp stall、SM Active、memory coalescing、HBM bandwidth 等，它们衡量的是硬件吞吐和延迟隐藏效果，而不是公平份额。

内容模块

共享方式

进阶★★☆⏱ 12 min

一句话结论

GPU 共享不是一种机制，而是一组取舍：MIG 追求硬件隔离，MPS 追求多进程并发，time-slicing 追求低成本复用，CUDA VMM 解决虚拟地址和物理显存映射弹性。面试里要先说清隔离边界，再谈利用率提升。

核心概念

方式	隔离级别	原理	适用场景
MIG	硬件切片	物理切分 GPU 为独立实例，各有独立显存和 SM	推理、多租户强隔离、稳定 SLA
MPS	进程级复用	多进程共享 GPU 上下文，并发执行 kernel	可信团队、小 kernel、小模型推理
Time Slicing	时间级复用	多个进程按时间片轮换使用同一 GPU	Notebook、开发测试、低优实验
CUDA VMM	虚拟内存	虚拟地址空间预留，物理页按需映射	KV cache、显存池、弹性内存管理
vGPU	虚拟化	Hypervisor 层虚拟化 GPU	云桌面、传统虚拟化多租户

系统链路

Kubernetes 里常见链路是：GPU Operator 或 NVIDIA Device Plugin 读取共享配置，把一张物理 GPU 暴露成多个逻辑扩展资源；kube-scheduler 只按资源数量调度 Pod；真正的共享语义由 driver、MPS daemon、CUDA runtime 或 MIG manager 执行。

在 Kubernetes 里，MPS 和 Time Slicing 通常不是通过改 kube-scheduler 实现，而是通过 NVIDIA Device Plugin / NVIDIA GPU Operator 把一张物理 GPU 暴露成多个可被 Pod 申请的逻辑 GPU slot。

机制	K8s 资源表达	底层含义	适合场景
Time Slicing	`sharing.timeSlicing.resources[].replicas`	多个 Pod 按时间片轮流使用同一张 GPU	Notebook、开发测试、低优实验、小推理
MPS	`sharing.mps.resources[].replicas`	多个 CUDA 进程通过 MPS daemon 并发共享 GPU	可信团队内的小 kernel、多进程推理

例如把 nvidia.com/gpu 配成 replicas: 4 后，一张物理 GPU 会向 Kubernetes 上报为 4 个逻辑可申请资源；如果开启 renameByDefault: true，Pod 侧通常申请 nvidia.com/gpu.shared: 1，从语义上区分共享 GPU 和独占 GPU。

关键边界：scheduler 只看到逻辑资源数量，不理解每个 slot 的真实性能隔离。Time Slicing 和 MPS 都不是 MIG 那种硬件切分，生产使用时要特别关注显存 OOM、P99 延迟抖动、监控归因和 workload 之间的干扰。

Q: MIG 和 MPS 的本质区别？

MIG 是硬件级切分——GPU 被物理切成若干独立实例，每个实例有自己的 SM、显存控制器和缓存，互相完全隔离，类似物理分区。MPS 是软件级复用——多个进程共享同一个 GPU 上下文，kernel 可以并行执行在不同 SM 上，但共享显存和缓存，有干扰风险。MIG 安全但粒度粗（A100 最多 7 个实例），MPS 灵活但需要干扰控制。

Q: K8s 里 Time Slicing 和 MPS 是否需要改 kube-scheduler？

通常不需要。常见做法是让 NVIDIA Device Plugin 或 GPU Operator 读取 sharing ConfigMap，把每张物理 GPU 按 replicas 上报成多个逻辑扩展资源。scheduler 仍然按扩展资源数量做普通调度；真正的时间片复用或 MPS 并发共享发生在 NVIDIA device plugin、driver 和 MPS daemon 层。面试时要强调：K8s 调度的是逻辑 GPU slot，不代表底层有稳定硬隔离。

Q: CUDA VMM 的虚拟内存超配原理？

类似操作系统的虚拟内存：用 cuMemAddressReserve 分配大块虚拟地址（如 122GB），再用 cuMemMap 按需映射物理页。物理显存只有 40GB，但虚拟地址空间 122GB。应用看到连续大内存，实际物理页按需分配和回收。

显存碎片

GPU 显存碎片可以分为两类：外部碎片和内部碎片。外部碎片是总空闲显存足够，但没有足够大的连续块；内部碎片是为了对齐或预留最大长度而分配了比实际需求更大的块。

来源	怎么产生	典型场景
动态 tensor shape	不同 batch、seq_len、activation 大小频繁变化，allocator 反复 malloc/free	训练中动态 batch、变长输入
KV Cache 长短不一	每个请求输出长度不同，传统连续 KV 分配难复用	LLM serving 高并发长尾请求
多进程共享 GPU	不同进程各自持有 CUDA context 和 allocator pool，彼此不可见	MPS/time-slicing 多租户共享
大块临时 workspace	cuBLAS/cuDNN/NCCL/attention kernel 需要临时 buffer，峰值时挤占连续空间	大 batch prefill、长上下文 attention
框架缓存策略	PyTorch caching allocator 为减少 cudaMalloc 开销会缓存块，可能形成不可用空洞	训练/推理长期运行服务

面试要点：OOM 不一定表示总显存不够，也可能是可用连续块不够、allocator pool 不可回收，或某个进程持有了大量碎片化缓存。

关键机制

显存碎片治理要分层看：

层次	手段	作用	代价
调度层	按显存需求做 bin packing	把大显存任务放到空闲完整 GPU，避免被小任务切碎	可能牺牲负载均衡
调度层	保留整卡/整 MIG profile	给大模型或长上下文推理保留连续容量	利用率可能下降
调度层	限制共享密度	MPS/time-slicing 不盲目提高 replicas，避免多进程显存互相挤压	可调度 slot 变少
Runtime 层	预分配 memory pool	减少运行期频繁 cudaMalloc/free	启动时占用显存更多
Runtime 层	固定 block/page 管理	把 KV Cache 切成固定块，非连续物理块也能组合	需要 block table 和引用计数
Runtime 层	CUDA VMM / expandable segment	用虚拟地址隐藏物理页不连续，支持按需映射	依赖 CUDA/驱动能力和框架支持
模型层	GQA/MQA、KV 量化、Prefix Cache	减少 KV Cache 体积或复用已有缓存	可能影响精度或增加缓存治理复杂度

如果面试官追问“调度层能不能解决显存碎片”，可以回答：调度层只能减少碎片产生概率，比如保留大块资源、限制共享密度、做显存画像；真正的细粒度碎片复用要靠 runtime allocator、PagedAttention、CUDA VMM 这类机制。

对比表

机制	优点	缺点	调度建议
MIG	硬件隔离强，显存/L2/SM 分区清晰，QoS 稳定	profile 固定，切分不灵活，容易产生 profile 碎片	生产多租户、强 SLA 推理优先使用
MPS	多个 CUDA 进程可并发执行，小 kernel 利用率更高，可限制一定 SM 占比	共享显存/缓存/故障域，内存争用时性能可能明显下降	可信团队、同类 workload、小模型推理或实验共享
Time Slicing	配置简单，兼容老卡，适合把低利用率任务超卖到同一张卡	无硬隔离，不保证 1/N 算力或显存，P99 抖动明显	Notebook、开发测试、低优任务，生产谨慎

一句话：MIG 是隔离优先，MPS 是并发效率优先，Time Slicing 是部署简单和提高密度优先。强隔离多租户不要把 MPS/Time Slicing 当 MIG 用。

常见误区

误区	正确理解
time-slicing 的 `replicas: 4` 等于每个 Pod 固定 1/4 GPU	它只是暴露 4 个逻辑 slot，不保证算力、显存或 P99 延迟隔离。
MPS 可以提供 MIG 级别隔离	MPS 共享显存、cache 和故障域，适合可信 workload，不适合强隔离多租户。
scheduler 理解 GPU 共享真实性能	默认 scheduler 只看扩展资源数量，不理解每个 slot 的干扰和带宽争用。
显存碎片只靠调度解决	调度只能减少碎片产生，细粒度复用要靠 runtime allocator、PagedAttention、CUDA VMM。

Q: 显存碎片在调度系统里怎么观测？

至少要同时看三类指标：GPU 总显存使用率、进程级显存占用、allocator 层 reserved/allocated 差值。对 PyTorch 服务，可以看 memory_reserved - memory_allocated 判断缓存池空洞；对推理引擎，还要看 KV block 使用率、空闲 block 数、prefix cache 命中率和 OOM 前的最大可分配块。调度层可把这些画像沉淀成任务 profile，用于后续显存 bin packing 和共享密度控制。

关联模块

K8S GPU 共享：继续看 device plugin、replicas 和节点级配置。
CUDA 内存模型与 Occupancy：理解显存、shared memory、register 对共享密度的影响。
LLM 推理系统：KV cache、PagedAttention 和 CUDA VMM 是显存共享的重要场景。
调度与集群：共享 GPU 会引入干扰建模、碎片治理和拓扑感知调度问题。

内容模块

K8S GPU 共享

进阶★★☆⏱ 12 min

一句话结论

K8S 默认把 GPU 当作不可分割的扩展资源，GPU 共享要靠 NVIDIA device-plugin / GPU Operator 把物理 GPU 表达成多个可调度资源。time-slicing、MPS 和 MIG 的本质差异在隔离级别、执行方式和调度语义，不要把逻辑 slot 当成稳定的 1/N 性能。

系统链路

GPU Operator / Device Plugin 读取共享配置

-> 把物理 GPU 或 MIG 实例上报给 kubelet

-> kube-scheduler 按扩展资源数量调度 Pod

-> Pod 内获得 CUDA_VISIBLE_DEVICES / GPU 访问权限

-> driver / MPS daemon / MIG manager 执行真实共享语义

K8S 里的 GPU 共享：整体认知

K8S 默认把 GPU 当作不可分割的整数资源：一个容器 request nvidia.com/gpu: 1 就独占一整张卡。要在 K8S 里实现共享（MPS / time-slicing / MIG），靠的都是 NVIDIA k8s-device-plugin。它负责把物理 GPU "拆分"成多个可调度的资源单元，上报给 kubelet。

共享方式	K8S 落地组件	隔离强度	本质
Time-slicing	device-plugin 配置 replicas	无隔离（仅时间轮转）	把 1 张卡复制成 N 个逻辑资源
MPS	device-plugin sharing.mps	弱隔离（空分复用）	多进程共享 CUDA 上下文并行执行
MIG	device-plugin + MIG Manager	硬件强隔离	物理切片，独立 SM/显存

三者底层都是上层 device-plugin 把同一张 GPU 的 UUID 重复或切片上报，让多个 Pod 调度到同一张物理卡。

方式一：Time-slicing(时间片)

原理：device-plugin 把一张物理 GPU 复制成 N 个同名资源（共享同一 UUID），多个 Pod 调度上去后由 GPU 驱动的时间片调度器轮流执行。没有内存隔离、没有故障隔离，一个 Pod 跑飞会影响其他 Pod。

配置步骤：通过 ConfigMap 定义切分策略，再让 device-plugin 加载。

# time-slicing ConfigMap：把每张卡复制成 4 份
apiVersion: v1
kind: ConfigMap
metadata:
  name: time-slicing-config
  namespace: gpu-operator
data:
  any: |-
    version: v1
    flags:
      migStrategy: none
    sharing:
      timeSlicing:
        renameByDefault: false
        failRequestsGreaterThanOne: true
        resources:
        - name: nvidia.com/gpu
          replicas: 4

关键参数：

replicas: 4 —— 一张卡上报为 4 个 nvidia.com/gpu，最多 4 个 Pod 共享。
failRequestsGreaterThanOne: true —— 共享模式下单个 Pod 只能 request 1，防止误用。
renameByDefault: true —— 把资源名改为 nvidia.com/gpu.shared，便于和独占卡区分调度。

启用（GPU Operator）：

kubectl patch clusterpolicy/cluster-policy \
  -n gpu-operator --type merge \
  -p '{"spec":{"devicePlugin":{"config":{"name":"time-slicing-config","default":"any"}}}}'

Pod 使用：和普通 GPU Pod 写法完全一样，调度器自动把它放到被复制的逻辑资源上。

resources:
  limits:
    nvidia.com/gpu: 1   # 实际是 1/4 张卡的时间片

方式二:MPS(Multi-Process Service)

原理：device-plugin 启动 MPS Control Daemon，多个 Pod 的 CUDA 进程通过 MPS Server 共享同一 GPU 上下文，kernel 可以真正并行地跑在不同 SM 上（空分复用），而不是 time-slicing 的时间轮转。还能按比例限制每个客户端的显存和算力。

配置步骤：

# MPS ConfigMap：把每张卡按 MPS 方式分成 4 份
apiVersion: v1
kind: ConfigMap
metadata:
  name: mps-config
  namespace: gpu-operator
data:
  any: |-
    version: v1
    sharing:
      mps:
        renameByDefault: false
        resources:
        - name: nvidia.com/gpu
          replicas: 4

kubectl patch clusterpolicy/cluster-policy \
  -n gpu-operator --type merge \
  -p '{"spec":{"devicePlugin":{"config":{"name":"mps-config","default":"any"}}}}'

效果：每个客户端默认分到 1/replicas 的显存上限（4 份即每份约 1/4 显存）和算力配额。device-plugin 会自动拉起 MPS daemon，无需手动 nvidia-cuda-mps-control。

Pod 使用：同样 request nvidia.com/gpu: 1 即可，对应一个 MPS slice。

Time-slicing vs MPS:怎么选?

维度	Time-slicing	MPS
执行方式	时间轮转(串行切换)	SM 空分(真并行)
显存隔离	无,容易互相 OOM	有,可按比例限制
算力 QoS	无,抢占式	可设 active thread 百分比
故障隔离	差,一个崩可能拖累全部	较差,共享上下文一个进程崩可能影响 MPS server
上下文切换开销	有(切换上下文)	低(共享上下文)
适用场景	开发/测试、推理流量低、Notebook	多个稳定小推理、I/O 互补的训练任务

经验法则：纯粹想"塞更多任务进来、不在乎隔离"用 time-slicing；想要并行吞吐和一定的显存/算力配额用 MPS;要强隔离、多租户生产环境用 MIG。三者不能在同一张卡上叠加(同一时刻一张卡只能选一种共享策略)。

节点级差异化配置

集群里往往有的节点要共享、有的要独占。device-plugin config 支持多份命名配置,再用节点 label 选择。

# ConfigMap 里放多份配置
data:
  shared: |-
    version: v1
    sharing:
      timeSlicing:
        resources:
        - name: nvidia.com/gpu
          replicas: 8
  exclusive: |-
    version: v1
    flags:
      migStrategy: none

# 给节点打 label 选择对应配置
kubectl label node gpu-node-1 \
  nvidia.com/device-plugin.config=shared
kubectl label node gpu-node-2 \
  nvidia.com/device-plugin.config=exclusive

这样一个集群里既能有 8 路共享的推理节点,也能保留整卡独占的训练节点。

Q: time-slicing 的 replicas=4，是不是每个 Pod 拿到 1/4 算力？

不是。time-slicing 只是时间轮转，没有任何资源配额。replicas=4 意味着最多 4 个 Pod 能调度到这张卡,它们轮流占用整张卡跑一个时间片。如果只有 1 个 Pod 在跑,它能用满整卡;如果 4 个都满负载,它们大致平分时间但会有上下文切换开销。它解决的是"调度上能不能放进来",不解决"性能隔离"。要按比例限制算力/显存,得用 MPS 或 MIG。

Q: K8S 里 MPS 比裸机 MPS 多做了什么？

裸机用 MPS 需要手动启动 nvidia-cuda-mps-control -d、设置 CUDA_MPS_* 环境变量、管理 pipe 目录。K8S 里 device-plugin(GPU Operator)把这些全自动化:自动拉起 MPS Control Daemon、为每个 slice 注入正确的环境变量和显存/算力配额、把 N 个 MPS slice 作为可调度资源上报给 kubelet。开发者只要正常 request nvidia.com/gpu: 1,底层就落在一个受配额限制的 MPS 客户端上。

Q: 共享 GPU 后，Pod 里 nvidia-smi 看到的是什么？

time-slicing 和 MPS 下,Pod 里 nvidia-smi 看到的是整张物理卡(同一个 UUID),显示的显存总量也是整卡的——因为它们本质是共享同一设备。这容易误导:程序如果按 nvidia-smi 的总显存来分配,在 MPS 配额或多 Pod 共存时会 OOM。相比之下 MIG 下看到的是切分后的实例(独立显存)。所以共享场景要靠应用自己控制显存用量,或依赖 MPS 的显存上限配额。

常见误区

误区	正确理解
`replicas=4` 就是每个 Pod 固定 1/4 算力	time-slicing 只是逻辑 slot 和时间轮转，不保证固定算力。
kube-scheduler 理解 GPU 干扰	默认 scheduler 只看扩展资源数量，不知道 SM、HBM、P99 抖动。
MPS 和 MIG 都是硬隔离	MIG 是硬件切片，MPS 是共享上下文，隔离弱很多。
Pod 里看到整卡显存就可以全用	time-slicing/MPS 下多个 Pod 共享同一卡，应用需要限制显存使用。

关联模块

共享方式：理解 MIG/MPS/time-slicing 的底层取舍。
Kubernetes 核心：device plugin、extended resource、node label 和调度语义。
调度与集群：共享密度、显存碎片、干扰建模和租户配额。

内容模块

性能指标

基础★☆☆⏱ 10 min

一句话结论

GPU 性能指标要按“算力、显存、利用率、互联、能耗”五条线理解，再用 Roofline 把 kernel 归类为 compute-bound 或 memory-bound。面试中最重要的判断是：不要把理论 TFLOPS、GPU-Util 或显存占用单独当成“性能好”的证据。

核心概念

指标族	代表指标	回答什么问题	常见误区
算力	TFLOPS、TOPS、Tensor Core Util	计算单元的理论上限和实际吞吐	理论峰值不等于模型实际速度
显存带宽	HBM GB/s、Memory Throughput	数据能否及时喂给计算单元	显存容量和显存带宽不是一回事
显存容量	VRAM used、peak active memory	模型、激活、KV cache 能不能放下	显存占用高不代表 GPU 利用率高
利用率	GPU-Util、SM Active、Occupancy	时间上是否有活、空间上是否铺满	GPU-Util 高不代表忙得有效
互联	PCIe、NVLink、IB/RDMA、NCCL 时间	多卡和跨机通信是否拖慢	单卡指标无法解释多卡扩展效率
能耗	Power、tokens/J、TFLOPS/W	成本、供电、散热和能效	只看吞吐不看 TCO

GPU 性能指标全景

GPU 性能优化不要只看一个指标。面试中最好按“算力、显存、利用率、互联、能耗”五条线回答，然后用 Roofline 判断瓶颈。

算力

TFLOPS / TOPS

衡量计算峰值和实际计算吞吐。关注理论峰值、实际 TFLOPS、Tensor Core 是否被用上。

显存带宽

GB/s · TB/s

衡量 HBM 读写速度。Softmax、LayerNorm、KV Cache 读取通常更受带宽限制。

显存容量

决定模型权重、优化器状态、激活值和 KV Cache 能不能放下。

利用率

SM Active · Occupancy

用于判断 GPU 是否在忙，但不能单独代表模型效率或吞吐。

互联

NVLink · PCIe · IB

决定多卡训练、张量并行、流水并行和跨节点通信效率。

能耗

Watt · tokens/J

数据中心场景必须关注功耗、散热、供电和单位吞吐成本。

指标之间的关系图

可以用下面这条链路理解性能指标：模型工作负载先决定计算量和访存量，再被 GPU 的算力、带宽、容量和互联约束，最终表现为吞吐、延迟和成本。

计算性能：TFLOPS 不是实际速度

TFLOPS 是每秒浮点运算次数。厂商宣传的 A100 FP16 312 TFLOPS、H100 FP16 989 TFLOPS 都是理想条件下 Tensor Core 的理论峰值，真实模型通常达不到。

精度	A100 理论峰值	H100 理论峰值	典型场景
FP64	9.7 TFLOPS	34 TFLOPS	科学计算，AI 训练较少使用
FP32	19.5 TFLOPS	67 TFLOPS	通用 CUDA 计算
TF32	156 TFLOPS	494 TFLOPS	Tensor Core 加速的 FP32 训练
FP16/BF16	312 TFLOPS	989 TFLOPS	混合精度训练、主流 LLM 训练
FP8	不支持	1979 TFLOPS	H100 Transformer Engine，推理和部分训练
INT8	624 TOPS	3958 TOPS	量化推理，吞吐优先

怎么估算理论峰值

简化理解：理论峰值 ≈ SM 数量 × 每个周期可完成的矩阵运算量 × 频率。Tensor Core 是矩阵乘加专用单元，所以 FP16/BF16/FP8 峰值远高于普通 FP32 CUDA Core。

为什么实际值低

真实模型会受到 HBM 带宽、kernel launch、算子碎片、通信等待、数据依赖、batch/shape 不规则和 Tensor Core 对齐条件影响。实际 TFLOPS 通常需要用 Nsight Compute、框架 profiler 或 MFU 估算。

Roofline 模型：判断 kernel 是缺算力还是缺数据

完整的 Roofline 模型定义、公式和图已经统一放在 性能预测与建模 / Roofline Model。本页只保留 GPU 指标视角：Roofline 用来把 kernel 的 FLOPs、Bytes、实际吞吐和硬件峰值放在一张图里，判断瓶颈是算力、显存带宽还是其他因素。

要看什么	指标来源	说明
Arithmetic Intensity	FLOPs / Bytes	低于 ridge point 通常偏 memory-bound
Achieved FLOP/s	Nsight Compute / profiler	距离 compute roof 有多远
Memory Throughput	Nsight / DCGM	是否接近 HBM roof
Roofline 位置	Nsight Compute Roofline chart	判断优化方向：减少访存还是提高计算吞吐

Roofline 和 GPU Utilization 的关系

nvidia-smi GPU-Util 只能告诉你 GPU 上有没有 kernel 在跑，Roofline 更进一步问：这个 kernel 的性能离硬件理论上限有多远？它是被内存带宽限制还是被计算峰值限制？所以 GPU Utilization 高不代表接近 Roofline。可能出现 GPU-Util = 100% 但 kernel 在 Roofline 图上离屋顶很远，原因可能是访存不合并、cache miss、occupancy 低、warp stall、Tensor Core 没用上、指令依赖、分支发散、kernel 太小等。

怎么获取 Roofline？

Nsight Compute 支持 Roofline 分析，常见做法：

ncu --set full ./your_program
# 或使用带 Roofline 的 section
ncu --section SpeedOfLight_RooflineChart ./your_program

然后在 Nsight Compute UI 里看 Roofline 图，它通常会展示 arithmetic intensity、achieved FLOP/s、memory roof、compute roof、kernel 点位，以及 FP32 / FP64 / Tensor Core 等不同 roof。也可以手动估算：Arithmetic Intensity = FLOPs / Bytes，Achieved Performance = FLOPs / Kernel Time，Memory Bandwidth Used = Bytes / Kernel Time，然后对比硬件峰值。

Q: 什么是 Roofline 模型？面试怎么回答？

Roofline 模型完整解释统一看 性能预测与建模 / Roofline Model。在 GPU 指标页里，我会把它作为诊断工具：先估 FLOPs 和 Bytes，算 Arithmetic Intensity，再和硬件 ridge point 比较，判断热点 kernel 是 memory-bound 还是 compute-bound。

本页只记用途：Roofline 把 GPU 性能指标收敛成“缺数据还是缺算力”。

Q: 为什么 Transformer 的 Attention 经常是瓶颈？

Self-Attention 的 QK^T 计算量随序列长度平方增长，同时需要频繁读写 Q、K、V 和 attention score。FlashAttention 的核心价值不是只减少 FLOPs，而是通过分块、在线 softmax 和重计算减少 HBM 读写。

GPU 利用率：高 Util 不等于高效率

nvidia-smi 的 GPU Utilization 表示采样窗口内 GPU 是否有 kernel 活跃，不能代表 Tensor Core 利用率、真实 TFLOPS 或端到端吞吐。

指标	主要来源	真正含义	常见误区
GPU Utilization	`nvidia-smi`	采样周期内至少有 kernel 在执行的时间比例	100% 可能只是小 kernel 很密集，不代表算力打满
SM Active	DCGM / Nsight	SM 有活跃 warp 的时间比例	SM 忙不等于 Tensor Core 高效工作
Tensor Core Util	Nsight Compute	Tensor Core 管线使用程度	FP32 或 shape 不对齐时可能很低
Occupancy	Nsight Compute	每个 SM 上可驻留 warp 与理论上限的比例	高 occupancy 不一定高性能，低 occupancy 也可能是合理的寄存器/共享内存权衡
Memory Throughput	Nsight / DCGM	HBM 带宽使用情况	高带宽可能说明 memory-bound，不一定是好事

Q: nvidia-smi 显示 GPU Util 100%，但训练很慢，为什么？

可能是小 kernel 频繁启动、Tensor Core 没用上、CPU 数据加载慢、H2D/D2H 拷贝等待、多卡 NCCL 通信等待，或者模型本身 memory-bound。排查时要结合 Nsight Systems 看 timeline，再用 Nsight Compute 看单个 kernel 的 Tensor Core、SM、HBM 指标。

多卡互联性能指标

多 GPU 训练/推理时，互联决定扩展效率。节点内优先看 NVLink/NVSwitch，节点间看 InfiniBand/RoCE 和 NCCL 拓扑。

互联方式	典型带宽	拓扑	主要影响
NVLink 3.0	A100 约 300 GB/s	GPU 点对点或经 NVSwitch	单机多卡 all-reduce、张量并行
NVLink 4.0	H100 约 450 GB/s	GPU 点对点或经 NVSwitch	Hopper 单机扩展效率
NVSwitch	高聚合带宽	单节点内近似全互联	降低拓扑不均衡影响
PCIe 4.0 x16	约 32 GB/s 单向	树形，经 CPU 或 PCIe Switch	CPU-GPU 拷贝、无 NVLink 卡间通信
PCIe 5.0 x16	约 64 GB/s 单向	树形	新一代 CPU-GPU 互联
InfiniBand NDR	400 Gbps = 50 GB/s	跨节点网络	多节点 all-reduce、参数同步

扩展效率

线性扩展效率 = 多卡实际吞吐 /（单卡吞吐 × 卡数）。节点间扩展效率通常低于单节点，因为跨节点带宽和延迟远不如 NVLink/NVSwitch。

面试高频：如何判断瓶颈

SM Active 高 + HBM 高GPU 忙且大量访存，进一步看 Tensor Core 和 Roofline。

SM Active 低 + HBM 高典型 memory-bound，优化访存、融合算子、减少 KV/激活读写。

SM Active 低 + HBM 低GPU 没被喂饱，查 CPU、DataLoader、I/O、网络、调度等待。

GPU Util 高 + TFLOPS 低可能是小 kernel、Tensor Core 未使用、shape 不对齐或通信 kernel 占比高。

单卡快 + 多卡慢查 NCCL、拓扑、IB/RDMA、梯度 bucket、通信计算 overlap。

显存够但仍慢容量不是瓶颈，可能是带宽、NUMA、PCIe、page cache 或数据 pipeline。

GPU 性能面试题

Q: 如何计算一个模型训练需要多少显存？

回答思路：先把显存拆成“模型状态 + 激活值 + 临时开销”，再说明不同优化策略会减少哪一部分。

1. 模型状态

包括参数、梯度和优化器状态。以 Adam + FP16 混合精度为例，常用粗估是每个参数约 16 bytes：FP16 参数 2 bytes、FP16 梯度 2 bytes、FP32 master weight 4 bytes、Adam 一阶动量 4 bytes、二阶动量 4 bytes。

2. 激活值

激活值和 batch size、sequence length、hidden size、层数强相关，训练时需要保留中间结果用于反向传播。长序列 LLM 里，激活值经常比直觉中更大。

3. 临时开销

还要预留 CUDA workspace、attention score / KV cache、中间 tensor、通信 buffer、内存碎片等。实际跑训练时不能把显存算到 100%，通常要留安全余量。

4. 优化手段

ZeRO/FSDP 主要切分参数、梯度和优化器状态；activation checkpointing 通过重计算降低激活值；offload 把部分状态放到 CPU 或 NVMe；混合精度和量化降低单个元素字节数。

面试口径：显存 ≈ 模型状态 + 激活值 + 临时 workspace/通信 buffer。Adam + FP16 可先按参数量 × 16 bytes 粗估模型状态，再叠加激活值和安全余量。

Q: A100 和 H100 的主要区别是什么？

回答思路：不要只背参数表，建议按“架构、算力、显存/带宽、互联、软件特性、部署代价”来讲。

1. 架构代际

A100 是 Ampere 架构，H100 是 Hopper 架构。H100 面向大模型训练和推理做了更多专用优化。

2. 计算能力

H100 的 FP16/BF16 Tensor Core 峰值明显高于 A100，并新增 FP8 Transformer Engine。对 LLM 训练和推理来说，FP8 能在合适场景下提升吞吐和降低显存占用。

3. 显存与带宽

A100 80GB 使用 HBM2e，H100 80GB 使用 HBM3，H100 显存带宽更高。带宽提升对 memory-bound 算子、attention、KV cache 读取很重要。

4. 互联与扩展

H100 支持更高代际的 NVLink/NVSwitch，单机多卡和多机训练的通信效率更好，适合大规模并行训练。

5. 工程代价

H100 性能更强，但功耗、散热、供电和采购成本也更高。数据中心部署时要看机房能力、网络拓扑和整体 TCO，而不是只看单卡峰值。

面试口径：H100 相比 A100 的核心升级是 Hopper 架构、FP8/Transformer Engine、更高 Tensor Core 算力、更高 HBM 带宽和更强互联；代价是功耗和部署要求更高。

Q: Tensor Core 为什么比 CUDA Core 快？

回答思路：本质区别是 CUDA Core 做通用标量/向量运算，Tensor Core 是矩阵乘加专用单元，专门加速深度学习里的 GEMM。

1. 硬件定位不同

CUDA Core 更通用，适合执行标量或向量 FMA；Tensor Core 面向矩阵块乘加，可以在一个周期内完成小矩阵 tile 的大量乘加操作。

2. 工作负载匹配

神经网络里的 Linear、卷积、QKV projection、MLP、attention projection 最终都能转成矩阵乘。Tensor Core 正好针对这些高密度矩阵乘做了硬件加速。

3. 精度与吞吐权衡

Tensor Core 通常使用 TF32、FP16、BF16、FP8、INT8 等精度格式，通过降低数据位宽和专用矩阵管线换取更高吞吐。

4. 使用条件

并不是所有算子都会自动高效使用 Tensor Core。shape 对齐、数据类型、矩阵维度、框架 kernel 选择都会影响 Tensor Core 利用率。

面试口径：Tensor Core 快是因为它不是“更快的 CUDA Core”，而是矩阵乘加专用硬件；深度学习核心算子大量是 GEMM，所以能获得数量级更高的吞吐。

Q: Memory Coalescing 是什么？

回答思路：Memory Coalescing 讨论的是一个 warp 内的内存访问能不能合并成少量连续内存事务。

1. 基本定义

GPU 以 warp 为单位调度线程。如果同一个 warp 里的相邻线程访问连续、对齐的地址，硬件可以把多次访存合并成更少的 memory transaction。

2. 为什么重要

合并访问可以提高有效 HBM 带宽，减少访存事务数量，让 SM 少等数据。很多 memory-bound kernel 的优化重点就是提高访存连续性。

3. 反例

stride 访问、非对齐访问、随机访问、不同线程访问分散地址都会破坏 coalescing，导致同样的数据量需要更多 memory transaction。

4. 优化方向

常见做法包括调整数据布局、让线程映射到连续地址、使用 shared memory 做重排、向量化 load/store，以及减少不规则访问。

面试口径：Coalescing 的目标是让一个 warp 的访存尽量连续且对齐，把零散访存合并成少量事务，从而提升有效带宽。

关联模块

利用率诊断：把 GPU-Util 深挖到 SM Active、Occupancy、Warp Stall。
瓶颈分类：把指标组合映射到 compute-bound、memory-bound、communication-bound。
GPU 互联与数据路径：解释 PCIe、NVLink、RDMA 对多卡性能的影响。
性能预测指标：把这些指标进一步转成特征和标签。

官方参考

official

NVIDIA Ampere Architecture

A100 架构深度解析，SM、Tensor Core、HBM 详解。

official

NVIDIA Hopper Architecture

H100 架构深度解析，Transformer Engine、FP8、DPX。

official

Nsight Compute Profiling Guide

GPU 性能分析指标详解，Roofline、Occupancy、Memory 分析。

paper

FlashAttention

内存高效 Attention 算法，IO-Aware 优化经典论文。

内容模块

利用率诊断

进阶★☆☆⏱ 15 min

一句话结论

GPU 利用率诊断不能停在 nvidia-smi 的 GPU-Util。推荐链路是：GPU-Util 看时间上有没有 kernel，SM Active 看活有没有铺满 SM，Occupancy 看 SM 里 warp 是否足够，Warp Stall 看 warp 为什么发不出去，Compute/Memory Throughput 看瓶颈类型，最后用业务吞吐和延迟判断“忙得是否有效”。

诊断入口

业务慢或 GPU 看起来异常

-> nvidia-smi / DCGM 粗看 GPU-Util、显存、功耗、温度、进程

-> Nsight Systems 看 timeline：空洞、Memcpy、同步、NCCL、CPU 等待

-> Nsight Compute 看热点 kernel：SM Active、Occupancy、Warp Stall、Throughput

-> 结合业务指标：step time、tokens/sec、QPS、TTFT、TPOT、P99

指标解释

指标	能说明什么	不能说明什么
GPU-Util	采样窗口里 GPU 是否有 kernel 在跑	不能说明 SM 是否铺满、Tensor Core 是否用上
memory.used	显存容量占用	不能说明 GPU 是否在计算
SM Active	SM 空间覆盖度	不能说明每个 SM 内 warp 是否足够
Occupancy	SM 内 active warp 是否够多	不是越高越好，不等于性能
Warp Stall	warp 为什么不能发射	需要结合访存、同步、依赖和代码结构解释
Compute / Memory Throughput	瓶颈更像算力还是显存带宽	不能解释 CPU、I/O、通信等待
Tensor Core Util	AI 矩阵算力是否用起来	只对 GEMM/Conv/Attention 等相关

先记住一句话：GPU-Util 高，不等于 GPU 真正用得好

判断一个 GPU “利用率高不高”，不要只看 nvidia-smi 里的 GPU-Util。它只能告诉你采样窗口里 GPU 时间上是否有 kernel 在跑，但不能告诉你 SM 是否铺满、warp 是否真的能发射、Tensor Core 是否用起来、瓶颈到底在计算还是显存。nvidia-smi 本身定位是 NVIDIA System Management Interface，用于监控和管理 NVIDIA GPU，并支持查询 GPU、显存、功耗、温度、时钟等系统级信息[[nvidia-smi Documentation](https://docs.nvidia.com/deploy/nvidia-smi/index.html)]。

最推荐的判断链路：GPU-Util 看有没有活；SM Active 看活有没有铺满 SM；Occupancy 看 SM 里 warp 是否足够；Warp Stall 看 warp 是否真能执行；Compute/Memory Throughput 看瓶颈在哪；Tensor Core Util 看 AI 算力是否用上；最后用吞吐和延迟判断 GPU 忙得是否有效。

一条排查主线：从系统级到业务级

你可以把 GPU 利用率诊断想成十层漏斗。越往上越粗，适合快速判断；越往下越细，适合解释为什么慢。面试时不要一上来报一堆指标，而是先说你的排查顺序。

1. GPU 有没有活干？
   看 GPU-Util。

2. 显存只是占着，还是 GPU 真的在计算？
   区分 memory.used 和 utilization.memory。

3. 活有没有铺满 SM？
   看 SM Active。

4. SM 里面挂了多少 warp？
   看 achieved occupancy / active warps。

5. warp 是否真的能发射？
   看 eligible warps、issued warps、stall reasons。

6. 瓶颈在 compute 还是 memory？
   看 compute throughput 和 memory throughput。

7. AI workload 是否用上 Tensor Core？
   看 tensor pipe / tensor instruction。

8. 是否被功耗、温度、时钟限制？
   看 power、clock、temperature、p-state。

9. 端到端 timeline 有没有空洞？
   用 Nsight Systems 看 CPU、CUDA、memcpy、NCCL。

10. GPU 忙得是否有业务价值？
    训练看 tokens/sec、samples/sec、step time、MFU；推理看 QPS、TTFT、TPOT、P99。

这个顺序的好处是：它不会把“设备看起来很忙”和“业务真的跑得快”混为一谈。很多线上问题的本质不是 GPU 不忙，而是 GPU 忙在了不该忙的地方，例如重计算、低效访存、通信等待、碎 kernel、错误 dtype 或无效 batch。

第一层：GPU-Util 只看时间上有没有 kernel

GPU-Util 回答的是一个非常粗的问题：在采样周期内，GPU 上是否有一个或多个 kernel 正在执行。它不是 SM 利用率，不是 CUDA Core 利用率，也不是 Tensor Core 利用率，更不是实际 FLOPS。

怎么获取

# 快速看当前 GPU 状态
nvidia-smi

# 持续刷新，观察利用率、功耗、温度等变化
nvidia-smi dmon

# 查询指定字段
nvidia-smi --query-gpu=timestamp,index,name,utilization.gpu,utilization.memory,memory.used,memory.total,power.draw,temperature.gpu --format=csv -l 1

怎么理解

如果 GPU-Util 长期低于 30%，大概率是 GPU 没喂饱，可能是数据加载慢、CPU 预处理慢、batch 太小、请求量不足、I/O 慢、kernel launch 间隔大或多卡通信等待。如果 GPU-Util 长期高于 80%，只能说明 GPU 时间上比较忙，后面还要继续判断它是不是忙得有效。

典型陷阱

一个很小的 kernel 如果持续运行，也可能让 GPU-Util 接近 100%。例如一张有 108 个 SM 的 A100，如果某个 kernel 只用到少数 SM，但一直不断执行，GPU-Util 可能很高，实际硬件并没有被铺满。

第二层：显存占用不等于 GPU 利用率

显存占用和 GPU 计算利用率是两件事。memory.used 表示显存容量用了多少；utilization.memory 更偏采样周期内 device/global memory 是否在读写。模型参数、KV cache 或缓存 allocator 占着显存，不代表 GPU 正在高效计算。

怎么获取

nvidia-smi --query-gpu=memory.used,memory.total,utilization.memory --format=csv -l 1

怎么判断

显存高但 GPU-Util 低，常见于模型已经加载、KV cache 或 tensor 占着显存，但请求流量不足、CPU 没喂上或程序在等待。显存低但 GPU-Util 高，也很常见，例如某些小模型或小 batch 计算忙但显存占用不大。显存接近满说明 batch size、sequence length 或并发可能受限，也有 OOM 风险，但它不是“利用率高”的证据。

第三层：SM Active，看活有没有铺满 GPU

SM Active 比 GPU-Util 更接近我们想知道的问题：GPU 上的 SM 有没有被广泛使用。可以粗略理解为，在所有 SM 和所有采样时间里，有多少比例的 SM 至少有 active warp。

为什么它比 GPU-Util 更细

GPU-Util 是“这段时间 GPU 有没有 kernel”；SM Active 是“这些 SM 在这些时间里有没有活”。如果某个 kernel 只铺到少数 SM，它仍然可能让 GPU-Util 很高，但 SM Active 会暴露空间利用率不足的问题。

怎么获取

# 用 Nsight Compute 采集完整指标
ncu --set full ./your_program

# 只采集 SM Active 相关指标
ncu --metrics sm__cycles_active.avg.pct_of_peak_sustained_elapsed ./your_program

怎么判断

SM Active 低，通常说明并行度不足，例如 batch 太小、grid 太小、算子规模太小或 kernel 设计没有铺开。SM Active 高但性能仍低，说明大多数 SM 时间上有活，但 warp 可能在 stall，或者计算/访存效率不好，需要继续看 occupancy、eligible warps 和 throughput。

第四层：Occupancy，看 SM 里有多少 warp 可调度

Occupancy 可以粗略理解为：一个 SM 上 active warps 数量占该 SM 最大支持 active warps 数量的比例。它的作用是判断 SM 里是否有足够多的 warp 用来隐藏访存、依赖和执行延迟。

Theoretical vs Achieved

Theoretical Occupancy 可以根据 launch 参数、block size、register 使用、shared memory 使用和 GPU 架构限制静态估算；Achieved Occupancy 是运行时真实采集到的结果。前者告诉你理论上最多能挂多少 warp，后者告诉你实际 workload 中挂了多少 warp。

怎么获取

ncu --set full ./your_program

# 常看 Nsight Compute 中的这些 section
# Launch Statistics
# Occupancy
# Scheduler Statistics

# 也可以指定 active warps 指标
ncu --metrics sm__warps_active.avg.pct_of_peak_sustained_active ./your_program

不要误解

Occupancy 高不等于性能高。它只是说明 SM 上有足够多的 warp 可用于隐藏 latency。如果 kernel 已经 memory-bound，提高 occupancy 可能没有明显收益；如果为了提高 occupancy 而减少寄存器导致更多访存，反而可能变慢。面试时要强调：occupancy 是诊断指标，不是最终目标。

第五层：Warp Stall，看 warp 是否真的能发射

一个 warp 是 active，不代表它当前周期就能执行。更细地看，一个 warp 可能处于 active、eligible、selected 或 stalled 状态。真正影响吞吐的是：有多少 warp 已经 ready，可以被 scheduler 发射。

active warp：
  驻留在 SM 上，还没结束。

eligible warp：
  当前周期已经准备好，可以发射指令。

selected warp：
  当前周期被 scheduler 选中发射。

stalled warp：
  因为内存、依赖、同步、barrier 等原因暂时不能发射。

关键判断

如果 active warps 很多，但 eligible warps 很少，说明 SM 里看起来挂了很多 warp，但大部分都在等。此时 GPU 可能很忙，但忙得不高效。

常见 stall 原因

Long Scoreboard：通常表示在等 global memory / L2 / DRAM。
Short Scoreboard：通常表示在等 shared memory 或短延迟依赖。
Barrier：等待 __syncthreads() 或类似同步。
Wait：指令依赖等待。
Not Selected：有 eligible warp，但本周期没被 scheduler 选中。
Math Pipe Throttle：计算管线压力大。
MIO Throttle：memory input/output 管线压力大。

怎么获取

ncu --set full ./your_program

# 重点看：
# Scheduler Statistics
# Warp State Statistics
# Source Counters

第六层：Compute Throughput，看算力侧是否接近峰值

Compute Throughput 或 SM Throughput 更接近“算力有没有打满”这个问题。它回答的是计算侧吞吐达到硬件峰值的多少，而不是 GPU 时间上有没有活。

怎么获取

ncu --set full ./your_program

# 重点看：
# GPU Speed Of Light Throughput
# Compute Workload Analysis

# 示例指标
ncu --metrics sm__throughput.avg.pct_of_peak_sustained_elapsed ./your_program

怎么判断

Compute Throughput 高，可能是 compute-bound；Compute Throughput 低但 SM Active 高，说明 SM 有活但效率不高，需要看 stall、访存和指令 mix；Compute Throughput 低而 Memory Throughput 高，通常是 memory-bound；两者都低，可能是同步、依赖、分支、launch overhead 或数据不连续。

第七层：Memory Throughput，看是不是卡在显存和访问模式

很多 AI 算子并不是 compute-bound，而是 memory-bound。典型例子包括 LayerNorm、Softmax、Embedding、Gather/Scatter、Elementwise、小 batch inference。它们的共同特点是每读写一批数据，只做相对较少计算，算术强度不高。

怎么获取

ncu --set full ./your_program

# 重点看：
# Memory Workload Analysis
# GPU Speed Of Light Throughput
# L1/TEX、L2、DRAM 相关指标

怎么判断

如果 DRAM throughput 高、compute throughput 低，通常是 memory-bound。如果 L2 hit rate 低，说明访问局部性差。如果 global load/store 效率差，说明访存不合并或访问模式不友好。如果 memory util 高但业务吞吐低，可能是带宽被低效访问消耗掉了。

优化方向

常见优化包括 coalesced memory access、提高 L2/cache hit、减少 global memory 访问、使用 shared memory 做 tile 复用、融合算子减少中间结果读写，以及调整数据布局让同一个 warp 内访问更连续。

第八层：Tensor Core Utilization，看 AI 算力是否用起来

对于 Transformer、GEMM、Conv、Attention 这类深度学习 workload，判断 GPU 是否用好，还必须看 Tensor Core 是否真正参与。模型跑在 GPU 上，不代表它用了 Tensor Core。

怎么获取

ncu --set full ./your_program

# 重点看：
# GPU Speed Of Light Throughput
# Compute Workload Analysis
# Instruction Statistics

# 示例 tensor 相关指标
ncu --metrics sm__inst_executed_pipe_tensor.sum,sm__pipe_tensor_cycles_active.avg.pct_of_peak_sustained_elapsed ./your_program

Tensor Core 没用起来的常见原因

dtype 不合适，例如使用 FP32 但没有允许 TF32。
矩阵 shape 不友好，无法形成高效 tile。
没有走 cuBLAS、cuDNN、TensorRT、CUTLASS 等高性能实现。
框架配置禁用了 TF32 或混合精度。
算子 fallback 到普通 CUDA Core kernel。
batch 太小，矩阵规模太小。

PyTorch 常见检查

import torch

torch.backends.cuda.matmul.allow_tf32 = True
torch.backends.cudnn.allow_tf32 = True

第九层：Power / Clock / Thermal，看是不是被限频

如果 GPU-Util 高、SM Active 高，但性能仍低，还要检查功耗、温度和时钟。GPU 可能因为 power limit、thermal throttle、p-state、MIG/MPS 资源隔离或容器限制，导致看起来忙但实际频率和吞吐上不去。

怎么获取

nvidia-smi -q -d POWER,CLOCK,TEMPERATURE,PERFORMANCE

nvidia-smi --query-gpu=power.draw,power.limit,clocks.sm,clocks.mem,temperature.gpu,pstate --format=csv -l 1

怎么判断

如果 power draw 接近 power limit，可能功耗受限；温度持续很高，可能 thermal throttle；clocks.sm 低，可能被降频；p-state 不理想，可能没有进入高性能状态。训练吞吐突然下降时，除了看代码和通信，也要看这些节点级硬件状态。

第十层：端到端业务指标，看 GPU 忙得是否有价值

GPU 指标高，不代表业务性能好。真正的目标不是让 GPU 看起来忙，而是让训练吞吐、推理吞吐、延迟和成本达到预期。

训练场景看什么

训练中建议看 samples/sec、tokens/sec、step time、MFU、data loading time、communication time。如果 GPU 指标很高但 tokens/sec 低，可能是重计算、通信、低效 kernel 或数据 pipeline 让 GPU 忙在了低价值工作上。

推理场景看什么

推理中建议看 QPS、tokens/sec、TTFT、TPOT、P50/P90/P99 latency、batch size、queue time、KV cache memory。LLM 推理尤其要拆开 prefill 和 decode，因为 prefill 更偏计算密集，decode 常受 KV cache 读写、batch 组织和访存影响。

工具选择：每个工具解决不同层级的问题

不要指望一个工具回答所有问题。系统级状态用 nvidia-smi 和 DCGM；timeline 用 Nsight Systems；单 kernel 细节用 Nsight Compute；框架算子归因用 PyTorch Profiler。

nvidia-smi：系统级粗看

适合看 GPU-Util、显存占用、功耗、温度、时钟和进程。优点是方便快速，缺点是不能解释 kernel 为什么慢，也看不到 SM、warp、Tensor Core 细节。

nvidia-smi
nvidia-smi dmon -s pucvmet
nvidia-smi --query-gpu=timestamp,index,utilization.gpu,utilization.memory,memory.used,memory.total,power.draw,clocks.sm,temperature.gpu --format=csv -l 1

DCGM / Prometheus / Grafana：生产监控

DCGM 提供 GPU 指标采集、健康检查、作业统计、拓扑等能力，适合集群监控和告警[[Feature Overview — NVIDIA DCGM Documentation](https://docs.nvidia.com/datacenter/dcgm/latest/user-guide/feature-overview.html)]。

DCGM_FI_DEV_GPU_UTIL
DCGM_FI_DEV_FB_USED
DCGM_FI_DEV_POWER_USAGE
DCGM_FI_DEV_GPU_TEMP
DCGM_FI_DEV_SM_CLOCK
DCGM_FI_DEV_MEM_COPY_UTIL

Nsight Systems：端到端 timeline

Nsight Systems 适合看 CPU 线程、CUDA API、kernel、memcpy、stream、NCCL 等在时间线上如何交错；官方文档也建议通过 NVTX 或 profiler API 聚焦性能关键代码区域，减少无关数据干扰[[User Guide — Nsight Systems](https://docs.nvidia.com/nsight-systems/UserGuide/index.html)]。

nsys profile -t cuda,nvtx,osrt,cudnn,cublas -o report ./your_program

Nsight Compute / NCU：单 kernel 深挖

Nsight Compute CLI 可以从命令行 profile 应用，并为选定 kernel 采集指标；它支持通过 section 或 metrics 选择采集内容，也支持按 kernel 名称过滤[[Nsight Compute CLI](https://docs.nvidia.com/nsight-compute/NsightComputeCli/index.html)]。

ncu --set full ./your_program
ncu --kernel-name regex:your_kernel_name --set full ./your_program

PyTorch Profiler：框架算子归因

PyTorch Profiler 适合把 Python / PyTorch op 和 CUDA kernel 对齐起来，回答哪个 op 最耗时、CPU 时间多还是 CUDA 时间多、是不是 DataLoader 慢、是不是有大量小 kernel。

import torch
import torch.profiler as profiler

with profiler.profile(
    activities=[
        profiler.ProfilerActivity.CPU,
        profiler.ProfilerActivity.CUDA,
    ],
    record_shapes=True,
    profile_memory=True,
    with_stack=True,
) as prof:
    for step, batch in enumerate(loader):
        output = model(batch)
        loss = output.sum()
        loss.backward()
        if step > 10:
            break

print(prof.key_averages().table(sort_by="cuda_time_total", row_limit=20))

实战路径：从 nvidia-smi 到 profiler

真实排障时，建议按下面的顺序走。先用低成本工具判断方向，再用 profiler 精确定位。

Step 1：先看 nvidia-smi

nvidia-smi

关注 GPU-Util、Memory-Usage、Power、Temperature 和进程。如果 GPU-Util 长期低，先怀疑数据加载、CPU preprocessing、batch 太小、I/O、请求量不足、kernel launch 太碎或多卡通信等待。如果 GPU-Util 长期高，继续判断是不是高效。

Step 2：用 Nsight Systems 看 timeline

nsys profile -t cuda,nvtx,osrt,cudnn,cublas -o report ./your_program

重点看 GPU timeline 是否有空洞、kernel 是否连续、CPU 是否频繁同步、cudaMemcpy 是否阻塞、NCCL 是否占大量时间。大量小 kernel 往往说明 launch overhead 高或算子太碎。

Step 3：用 Nsight Compute 看核心 kernel

ncu --set full ./your_program

重点看 SM Active、Achieved Occupancy、Compute Throughput、Memory Throughput、Warp Stall Reasons、Tensor Core Utilization。这里才能回答“这个 kernel 为什么慢”。

六种典型结论：如何把指标翻译成人话

面试和排障时，最重要的是把指标组合翻译成清晰结论。

A. GPU 没喂饱

GPU-Util 低
SM Active 低
Nsight Systems 看到 GPU timeline 有空洞

常见原因是 DataLoader 慢、CPU preprocessing 慢、batch 太小、I/O 慢、请求量不足、kernel launch 太碎或 CPU-GPU 同步。

B. GPU 时间上忙，但没铺满硬件

GPU-Util 高
SM Active 低
Achieved Occupancy 低

常见原因是 kernel grid 太小、batch 太小、并行度不足、算子规模小或 block 配置不合理。

C. SM 都有活，但效率低

GPU-Util 高
SM Active 高
Occupancy 高
Compute Throughput 低
Memory Throughput 也低
Warp Stall 高

常见原因是指令依赖、同步、分支发散、访存模式差、barrier 多或 atomic 多。

D. Memory-bound

SM Active 高
Memory Throughput 高
Compute Throughput 低
Long Scoreboard stall 高

优化方向是访存合并、提高 cache hit、减少 global memory 访问、使用 shared memory、融合算子、减少中间结果读写。

E. Compute-bound

SM Active 高
Compute Throughput 高
Memory Throughput 不高

优化方向是使用 Tensor Core、优化指令 mix、减少冗余计算、提高 tile 效率、使用更合适 dtype。

F. Tensor Core 没用起来

GPU-Util 高
SM Active 高
Tensor Pipe / Tensor Core Util 低

如果 workload 是 GEMM、Conv 或 Attention，需要检查 FP16/BF16/TF32 是否开启，shape 是否对齐，是否使用高性能库，是否 fallback 到普通 CUDA kernel，batch size 是否太小。

排查路径

GPU-Util：
  时间上有没有 kernel。

SM Active：
  kernel 有没有铺满 SM。

Occupancy：
  SM 里 active warp 是否足够。

Eligible / Issued Warps：
  warp 是否真的能发射。

Warp Stall：
  不能发射是在等什么。

Compute Throughput：
  计算管线是否接近峰值。

Memory Throughput：
  是否被显存带宽或访问模式卡住。

Tensor Core Utilization：
  AI 矩阵算力是否真的用起来。

Power / Clock / Thermal：
  是否被功耗、温度、时钟限制。

业务指标：
  GPU 忙，是否真的换来了 tokens/sec、samples/sec、QPS 和低延迟。

关联模块

性能指标：理解 GPU-Util、SM Active、Occupancy、Roofline 的定义。
瓶颈分类：把诊断指标组合翻译成 compute/memory/communication 瓶颈。
Host-Device 数据拷贝：timeline 空洞和 memcpy 往往来自 H2D/D2H。
CUDA 内存模型与 Occupancy：解释 occupancy 受 block size、寄存器和 shared memory 影响。

内容模块

瓶颈分类

进阶★☆☆⏱ 12 min

一句话结论

GPU 慢不能只说“利用率低”或“显存满”，要先分类：计算瓶颈看 Tensor Core/CUDA Core 是否打满，显存瓶颈看 HBM 带宽和访存 stall，通信瓶颈看 NCCL/memcpy/拓扑等待。分类决定优化方向，方向错了会越调越慢。

诊断入口

业务指标异常

-> nvidia-smi / DCGM 看 GPU-Util、显存、功耗、PCIe/NVLink

-> Nsight Systems 看 timeline：kernel / memcpy / NCCL / 空洞 / 同步

-> Nsight Compute 看热点 kernel：compute、memory、occupancy、stall

-> 扩展性实验：单卡、多卡、不同 batch、不同 seq_len 对比

指标解释

瓶颈类型	主要证据	常见误判
Compute-bound	Compute Throughput 高、Tensor Core Util 高、Roofline 靠近 compute roof	只看 GPU-Util 高就说 compute-bound
Memory-bandwidth-bound	Memory Throughput 高、Long Scoreboard 高、Roofline 落在 memory roof	把显存容量不足和显存带宽不足混为一谈
Memory-capacity-bound	OOM、batch/seq_len/并发受限、KV cache 放不下	只看显存占用高就说带宽瓶颈
Communication-bound	NCCL/memcpy 占比高、多卡扩展效率差、拓扑敏感	通信 kernel 也会让 GPU-Util 高，容易误判为计算忙

排查路径

计算瓶颈（Compute-bound）

定义：GPU 的计算单元（CUDA Core / Tensor Core）是瓶颈，计算请求已满，但数据供给充足。

特征	表现
Compute Throughput	高，接近硬件峰值
Memory Throughput	相对不高
SM Active	高
Roofline 位置	落在 Compute Roof 附近

典型场景：大矩阵乘法（GEMM）、大 batch 的卷积、大 batch 的 prefill 阶段 Attention。

优化方向：

使用 Tensor Core，确保 dtype、shape 和 layout 对齐。
降低精度，例如 FP16/BF16/FP8/INT8。
优化 tile 大小和指令 mix。
对 decode 类任务考虑 speculative decoding，用小模型生成候选，大模型并行验证。

显存带宽瓶颈（Memory-bandwidth-bound）

定义：GPU 的显存带宽是瓶颈，计算单元在等数据，大量时间花在 HBM 读写上。

特征	表现
Memory Throughput	高，接近 HBM 带宽峰值
Compute Throughput	低
Long Scoreboard Stall	高
Roofline 位置	落在 Memory Roof（斜线区域）

典型场景：LLM decode 阶段、elementwise 算子、LayerNorm、Softmax、Embedding lookup、Gather/Scatter、小 batch 推理。

为什么 LLM decode 常是显存瓶颈：每生成一个 token，需要从 HBM 加载大量模型权重和 KV cache，但新增 token 的计算量相对少，算术强度低，容易落在 Roofline 的 memory-bound 区域。

优化方向：

提高算术强度：增大 batch size、融合算子。
减少 HBM 读写：FlashAttention、shared memory 数据复用、算子融合。
压缩数据量：KV cache 量化、权重量化。
改善访问模式：memory coalescing、提高 L2 cache hit rate。
用 PagedAttention 按需分配 KV cache 物理页，减少显存浪费。

显存容量瓶颈（Memory-capacity-bound）

容量瓶颈是指显存不够放，放不下模型权重、KV cache、activation、optimizer state 或足够的 batch 数据。它和带宽瓶颈不同：容量问题首先表现为 OOM 或并发受限，带宽问题表现为算子在等数据。

典型表现：

OOM。
被迫降低 batch size、sequence length 或并发请求数。
KV cache 容量不足导致 decode 阶段可服务请求数受限。

优化方向：

张量并行：模型分片到多卡。
量化：FP16 到 INT8/INT4，减少权重和 KV cache 占用。
ZeRO / FSDP：切分参数、梯度、优化器状态。
Offload：不活跃数据放到 CPU/NVMe。
PagedAttention + KV cache 压缩：显存超配 + 按需分配。

通信瓶颈（Communication-bound）

定义：GPU 间的数据同步和传输成为瓶颈，GPU 时间花在等待通信完成上。

特征	表现
NCCL 时间占比	高（Nsight Systems timeline 上 NCCL 占比大）
GPU-Util	可能高（通信 kernel 在跑），但 SM Active 可能低
扩展效率	多卡吞吐远低于线性扩展

典型场景：大规模张量并行 all-reduce、流水线并行跨卡激活传递、跨节点训练梯度同步、KV cache 跨卡/跨节点迁移。

优化方向：

通信与计算重叠：NCCL 和 kernel 在不同 stream 上并行。
梯度压缩或量化：减少通信数据量。
拓扑优化：优先利用 NVLink/NVSwitch，再考虑 PCIe/RDMA。
减少通信次数：梯度累积、增大 bucket size。
Ring Attention / 序列并行：减少跨卡通信量。

典型现象

判断方法	计算瓶颈	显存瓶颈	通信瓶颈
nvidia-smi	GPU-Util 高，Power 高	GPU-Util 可能不高，Memory Util 高	GPU-Util 可能高但吞吐低
Nsight Systems	kernel 密集，无空洞	kernel 可能有间隙或很短	NCCL / memcpy 占比大
Nsight Compute	Compute Throughput 高	Memory Throughput 高，Long Scoreboard 高	需结合 Nsight Systems
Roofline	落在水平区域	落在斜线区域	不直接适用
扩展性测试	单卡和多卡都慢	单卡和多卡都慢	单卡快，多卡反而慢

排查顺序：先用 nvidia-smi 看有没有活，再用 Nsight Systems 看谁占时间，然后用 Nsight Compute 看单个 kernel 瓶颈在哪，最后用扩展性测试判断是否通信瓶颈。

Q: GPU-Util 100% 但推理 QPS 很低，怎么排查？

先判断是哪类瓶颈。第一步看 Memory Throughput：如果 HBM 带宽打满、Compute Throughput 低，是显存带宽瓶颈（常见于 LLM decode）。第二步看 Nsight Systems timeline：如果 NCCL 占大量时间，是通信瓶颈。第三步看 Tensor Core Util：如果低，可能没用上 Tensor Core 或 shape 不友好。第四步看 kernel 碎片度：大量小 kernel 导致 launch overhead 高。

Q: 计算瓶颈和显存瓶颈能同时存在吗？

在同一个 kernel 上通常不会——Roofline 模型里一个点要么在斜线区域（memory-bound），要么在水平区域（compute-bound）。但在端到端场景中，不同 kernel 可以是不同瓶颈：prefill 阶段 compute-bound，decode 阶段 memory-bound，某些小算子 launch-bound。所以优化时需要针对不同阶段不同策略，这也是为什么推理引擎会把 prefill 和 decode 分开调度。

关联模块

性能指标：Roofline、TFLOPS、HBM 带宽是分类基础。
利用率诊断：从 GPU-Util 继续深入到 SM Active、Occupancy、Warp Stall。
GPU 互联与数据路径：通信瓶颈必须结合 PCIe/NVLink/RDMA/NUMA。
LLM 推理系统：prefill/decode 的瓶颈类型不同。

内容模块

性能预测指标

精通★★★⏱ 18 min

一句话结论

GPU 性能预测的核心是把硬件、模型和部署策略转成可解释特征，再预测 step time、MFU、peak memory、communication time 等标签。面试里要强调：GPU 指标不是孤立监控项，而是模型性能、调度决策和容量规划的输入。

核心概念

类别	输入特征 X	输出标签 Y	预测价值
算法	FLOPs、shape、batch、sequence length、activation memory	单步计算时间、MFU	描述 workload 本身有多少活
硬件	Peak FLOPS、HBM bandwidth、SM 数、NVLink/PCIe	跨卡迁移后的吞吐和瓶颈类型	支持跨 GPU 型号泛化
部署	TP/PP/DP、micro batch、gradient accumulation、并行拓扑	communication time、bubble、扩展效率	支持自动并行和调度决策
运行时	GPU-Util、SM Active、Occupancy、memory util、power	实际效率、异常检测、性能回归	校准预测模型和发现漂移

系统链路

模型结构 / 输入 shape / batch

-> FLOPs、activation memory、arithmetic intensity

-> 结合 GPU spec、显存带宽、互联拓扑、并行策略

-> 预测 step time、MFU、peak active memory、communication time

-> 反馈给调度、容量规划、自动并行和性能回归检测

性能预测视角：特征与标签映射

在 MLSys 性能预测研究中，GPU 指标不是孤立的数字，而是构建预测模型的核心素材。整个指标体系可以按"输入特征维（静态属性）"和"输出标签维（动态运行时表现）"划分，形成完整的预测闭环。

预测模型架构

输入特征库 (X) 包含算法特征（FLOPs、Shape）、硬件特征（峰值算力、带宽）、部署特征（3D 并行策略）；经过预测器模型（解析方程 / ML / GNN）；输出标签库 (Y) 包含时间指标（Step Time）、空间指标（Peak Active Memory）、效率指标（MFU、Occupancy）。

维度	指标	角色	物理含义
算力与效率	Peak FLOPS	输入特征 X	硬件理论峰值算力，跨显卡预测的核心特征
	FLOPs	输入特征 X	算法理论计算量，任务的绝对工作量
	MFU	输出标签 Y	模型算力利用率，分布式训练效率的黄金标准
时间与空间	GPU Util	辅助特征 X / 标签 Y	时间维度占空比，不代表并发度
	SM Active	输出标签 Y	SM 空间分布活跃度，防欺骗指标
	SM Occupancy	特征 X / 标签 Y	延迟隐藏能力温度计
显存与通信	Arithmetic Intensity	输入特征 X	计算密度，划分算子瓶颈类型
	Memory Util	输出标签 Y	显存带宽时间利用率（非容量占用率）
	Peak Active Memory	输出标签 Y	峰值活跃显存，防 OOM 核心预测目标

算力与效率维度指标

这一维度关注"模型理论上需要干多少活"与"硬件实际上转化了多少有效功"。

Peak FLOPS（硬件理论峰值算力）—— 输入特征 X

规范定义：GPU 在单位时间（每秒）内理论上能执行的最大浮点运算次数，通常以 TFLOPS 为单位。
物理含义：硬件计算能力的绝对物理极限。不同精度（FP32、TF32、BF16、FP8）下的峰值完全不同。例如 H100 SXM 的 BF16 Tensor Core 峰值为 989 TFLOPS。
科研应用：支持跨显卡预测的核心特征。若不输入具体的算力数值，预测模型将无法理解硬件升级带来的算力红利，无法实现跨平台泛化。

FLOPs（算法理论计算量）—— 输入特征 X

规范定义：执行某次特定计算任务（如一个 Batch 的前向传播）理论上最少需要消耗的浮点运算总次数（与硬件无关）。
物理含义：任务的"绝对工作量"。例如矩阵乘法 C = A × B（A 维 M×K，B 维 K×N），理论 FLOPs = 2 × M × N × K（系数 2 源于每个位置需一次乘法和一次加法）。
科研应用：评估算法复杂度的基石。预测模型不能简单用时间 = 理论 FLOPs / 硬件峰值，因为该公式假设硬件效率为 100%。预测器的核心任务就是预测那损失掉的效率去了哪里。

MFU（Model FLOPs Utilization，模型算力利用率）—— 输出标签 Y

规范定义：在实际训练中，GPU 每秒实际输出的有效模型算力占其硬件理论峰值算力的比例。

数学公式：

$$ \mathrm{MFU} = \frac{\mathrm{ModelFLOPs}_{\mathrm{step}} \times \mathrm{Throughput}_{\mathrm{samples/s}}}{\mathrm{PeakFLOPS}_{\mathrm{GPU}}} $$

物理含义：大模型时代衡量分布式训练效率的黄金标准。它最硬核的地方在于：彻底剔除了为了省显存而进行的"激活值重计算（Recomputation）"带来的虚假硬件繁忙（HFU）。只承认最终盖在大楼里的砖，不承认建了拆、拆了建的返工。
科研应用：分布式策略搜索（Auto-Parallelism）的最佳预测目标。预测出 MFU 随 3D 并行拓扑变化的曲线，能直接指导系统挑选出最优的部署方案。

Q: MFU 和 HFU 有什么区别？

MFU（Model FLOPs Utilization）

只计算模型前向+反向传播的理论 FLOPs，不包含激活值重计算（Activation Recomputation/Checkpointing）带来的额外计算量。是衡量训练效率的"净效率"。

HFU（Hardware FLOPs Utilization）

计算 GPU 实际执行的所有 FLOPs（包含重计算），除以硬件峰值。重计算会让 HFU 虚高，因为 GPU 在做"返工"。

典型差异

使用 Activation Checkpointing 时，HFU 可能达到 60%，但 MFU 只有 45%。差距就是重计算带来的虚假繁忙。

MFU = 净效率（不含返工），HFU = 毛效率（含返工）。论文和面试中应优先使用 MFU。

Q: 大模型训练的 MFU 通常是多少？

单卡场景

GPT-3 175B 单卡 MFU 约 35%-40%。主要损失来自：序列并行通信、激活值重计算、数据加载等待。

多卡分布式

8 卡 A100 MFU 约 45%-52%（Megatron-LM 报告）。64 卡 MFU 约 52%-57%。通信开销随规模增加。

业界标杆

GPT-4 训练 MFU 据报道约 38%-42%（含通信开销）。Llama 2 70B 约 50%+。超过 60% 通常需要极致优化。

MFU 30%-50% 是常见范围，50%+ 是优秀水平。损失主要来自通信、重计算、数据加载和 kernel launch 开销。

时间与空间利用率指标

这一维度关注"硬件资源在时间上被占用了多久，在空间上被铺得有多满"。

GPU Utilization（GPU 计算利用率）—— 辅助特征 X / 标签 Y

规范定义：在给定采样周期内（如 1 秒），GPU 的内核引擎至少有一个活动内核在执行的时间比例。

$$ \mathrm{GPUUtil} = \frac{T_{\mathrm{any\ kernel\ active}}}{T_{\mathrm{sample}}} \times 100\% $$

物理含义：时间维度的"有无"占空比，不代表并发度。哪怕 120 个 SM 中只有 1 个 SM 在跑一个微小的算子，其余 119 个全在闲置，GPU-Util 依然是 100%。
科研应用：单独预测 GPU-Util 缺乏物理和数学单调性（学术价值低）。但可作为集群调度中预测进程是否死锁（Util 100% 但功耗极低）的特征。

SM Active（SM 活跃度）—— 输出标签 Y

规范定义：在给定采样周期内，至少有一个线程束（Warp，32 个线程）在 SM 上执行的时间比例（各 SM 的平均值）。
物理含义：空间分布的防欺骗指标。它解决了 GPU-Util 空间粒度过粗的问题。若 120 个 SM 只有 1 个在干活，GPU-Util 是 100%，但 SM Active 只有约 0.83%。它能真正反映任务是否均匀、充分地平铺到了整个芯片上。
科研应用：多流并发（CUDA Streams）、多租户混部（Colocation）或 MPS 调度预测的核心标签。用来预测空间填补带来的吞吐量收益。

SM Occupancy（SM 占有率）—— 特征 X / 标签 Y

规范定义：在 SM 处于活跃状态时，该 SM 中实际并发运行的 Warp 数量，占该 SM 硬件设计最大能支持的 Warp 数量的比例。
物理含义：硬件"延迟隐藏（Latency Hiding）"能力的温度计。GPU 靠超大规模并发来掩盖访存延迟（当一个 Warp 读显存阻塞时，SM 立刻切换到另一个就绪的 Warp）。Occupancy 越高，手里的"替补队员"越多，硬件越不容易因为延迟而彻底空转。
科研应用：作为输入特征 X：通过静态分析 CUDA 代码（寄存器用量、共享内存大小、Block Size），算出理论上限 Occupancy。作为输出标签 Y：在编译器调优（Auto-tuning）研究中，预测 Achieved Occupancy，用以评估算子修改后隐藏延迟的能力。

Q: SM Active 和 SM Occupancy 有什么区别？

SM Active

回答"有多少 SM 在干活"。是 SM 级别的时间占空比。如果 120 个 SM 中有 100 个至少有一个 Warp 在跑，SM Active ≈ 83%。

SM Occupancy

回答"每个 SM 内部塞得有多满"。是 Warp 级别的空间填充率。如果每个 SM 最多支持 64 个 Warp，当前活跃 32 个，Occupancy = 50%。

组合解读

SM Active 高 + Occupancy 低 = 任务铺到了很多 SM，但每个 SM 内部替补不够，容易因延迟空转。SM Active 低 + Occupancy 高 = 只有少数 SM 在干活，但每个 SM 塞得很满。

SM Active = 芯片空间覆盖度（横向），SM Occupancy = 单 SM 内部填充度（纵向）。两者组合才能完整描述 GPU 空间利用率。

Q: Occupancy 越高越好吗？

不一定

高 Occupancy 意味着更多 Warp 可以用来隐藏延迟，但也意味着每个 Warp 分到的寄存器和共享内存更少。如果寄存器溢出到 Local Memory（实际是全局显存），反而会严重拖慢性能。

最优 Occupancy

通常不是 100%。经验上 50%-75% 的 Occupancy 往往是最优的，因为此时每个 Warp 有足够的寄存器，同时又有足够的替补 Warp 来隐藏延迟。

Occupancy 陷阱

Compute-Bound 算子（如大矩阵乘法）在高 Occupancy 时性能反而可能下降，因为 SM 内部资源（寄存器、共享内存、调度器）竞争加剧。

Occupancy 是延迟隐藏的必要条件，但不是充分条件。50%-75% 通常是甜点区，100% 不一定最优。

显存与数据流维度指标

深度学习不仅卡在计算上，更多时候卡在数据搬运上。

Arithmetic Intensity（计算密度 / 算力强度）—— 输入特征 X

规范定义：在一个计算任务中，每从显存中读取/写入 1 个字节的数据，需要消耗多少次浮点运算。单位是 FLOPs/Byte。
物理含义：划分算子类型的物理量。基于 Roofline 模型：Compute-Bound（计算受限）= 计算密度高于硬件瓶颈线，执行时间由硬件峰值算力决定；Memory-Bound（访存受限）= 计算密度低于硬件瓶颈线，执行时间由显存带宽决定。
科研应用：指导预测模型进行"分流预测"。预测器能自动学会：对计算密集型算子用算力特征去预测时间，对访存密集型算子用带宽特征去预测时间。

Memory Utilization（显存控制器利用率）—— 输出标签 Y

严禁概念混淆：它不是显存容量占用率（VRAM Allocated），而是显存带宽的时间利用率。
规范定义：在采样周期内，GPU 的显存控制器处于读取或写入活动状态的时间比例。
物理含义：数据搬运总线的繁忙度。若该指标逼近 100%，说明系统瓶颈完全卡在显存吞吐（I/O 阻塞）上。
科研应用：用于预测和判定 Memory-Bound 算子的加速空间。

Peak Active Memory（峰值活跃显存占用）—— 输出标签 Y

规范定义：在深度学习单步训练中（通常在前向传播与反向传播的交界处），真正被模型参数、梯度、激活值硬性占用的显存最大值。
物理含义：模型运行的刚性空间需求（不含 PyTorch Caching Allocator 提前圈地预留的 Reserved Memory）。
科研应用：防 OOM 调度器与显存编排系统的核心预测目标。精准预测该值可以实现最大化的显存填充率（Memory Colocation）。

Q: Peak Active Memory 和 Reserved Memory 有什么区别？

Peak Active Memory

模型真正在用的显存：参数、梯度、优化器状态、激活值。是刚性需求，无法压缩。

Reserved Memory

PyTorch Caching Allocator 提前向 GPU 申请的显存池。即使模型当前不用，这些显存也被 PyTorch 占着，方便后续快速分配而不用频繁调用 cudaMalloc。

实际影响

nvidia-smi 显示的显存占用是 Reserved Memory，通常远大于 Active Memory。做显存预测和调度时，应该预测 Active Memory，而不是 nvidia-smi 的显示值。

Active Memory = 真正在用，Reserved Memory = 提前占着。调度和预测应以 Active Memory 为准。

核心指标联动诊断矩阵

在预测模型或论文的 Motivation 部分，核心指标可以通过以下经典场景组合形成闭环诊断逻辑：

场景	GPU-Util	SM Active	SM Occupancy	实际功耗	瓶颈诊断与预测方向
A：网格太小	高 (95%)	低 (5%)	高 (80%)	极低	Grid Under-population：任务划分的 Block 数量太少，根本没分够 SM。预测器应提示：增加 Batch Size 或调整 Grid 划分。
B：访存阻塞	高 (95%)	高 (90%)	低 (10%)	低	Memory-Bound：每个 SM 都分了任务，但寄存器或 Shared Memory 用太多导致替补 Warp 太少。一旦发生显存延迟，SM 就会空转。预测器应预测出算子耗时偏长。
C：完美计算	高 (95%)	高 (95%)	高 (85%)	极高 (近TDP)	Compute-Bound：空间填满了，内部替补也充足。此时执行时间主要由理论 FLOPs / 硬件峰值算力决定。预测精度极高。
D：未用 Tensor Core	高 (95%)	高 (90%)	高 (80%)	中低	Non-Tensor Core Active：GPU 极忙，但功耗上不去。说明没有调用 Tensor Core，全在做低效的普通 CUDA 标量计算。预测器应提示优化算子或开启混合精度。

Q: 如何用这些指标组合诊断 GPU 性能瓶颈？

诊断流程

1) 看 GPU-Util：低说明 GPU 闲置（CPU 瓶颈或数据加载瓶颈）；高则继续。
2) 看 SM Active：低说明任务没铺满芯片（Grid 太小或并发不够）；高则继续。
3) 看 SM Occupancy：低说明每个 SM 内部替补不够（寄存器/共享内存压力）；高则继续。
4) 看功耗：低功耗 + 高活跃 = 没用 Tensor Core 或在做轻量标量运算；高功耗 = 真正的 Compute-Bound。

工具链

nvidia-smi 看 GPU-Util 和 Memory Util；DCGM 看 SM Active；ncu（Nsight Compute）看 Occupancy 和 Tensor Core 利用率；nsys（Nsight Systems）看时间线和通信重叠。

GPU-Util → SM Active → SM Occupancy → 功耗，逐层下钻，从粗到细定位瓶颈。

性能预测特征工程实战

构建 GPU 性能预测模型时，特征的选择和构造直接决定预测精度。以下是面向科研和工程的特征工程指南。

输入特征库 (X) 设计

类别	特征	来源	预测价值
算法特征	FLOPs（前向/反向）	模型结构分析	核心工作量，预测时间的分子
	Activation Memory	模型结构 + Batch Size	预测显存需求和重计算开销
	Arithmetic Intensity	FLOPs / 访存量	分流预测：Compute-Bound vs Memory-Bound
硬件特征	Peak FLOPS（各精度）	GPU Spec	跨显卡泛化的核心特征
	Memory Bandwidth	GPU Spec	Memory-Bound 算子的时间预测基准
	NVLink / PCIe 带宽	GPU Spec	多卡通信时间预测
	SM 数量 / Warp 上限	GPU Spec	Occupancy 上限计算
部署特征	3D 并行拓扑（TP/PP/DP）	用户配置	通信量和计算分配的核心决定因素
	Micro Batch Size	用户配置	影响 Occupancy 和通信频率
	Gradient Accumulation Steps	用户配置	影响有效 Batch Size 和通信频率

输出标签库 (Y) 设计

类别	标签	预测意义	典型精度目标
时间	Step Time / Iteration Time	训练速度的直接度量	±10% 以内
效率	MFU	分布式训练效率的黄金标准	±5% 以内
空间	Peak Active Memory	防 OOM 调度核心	±5% 以内
空间	SM Active / Occupancy	空间利用率诊断	±10% 以内
通信	Communication Time	多卡扩展效率	±15% 以内

Q: 为什么预测 Step Time 比 MFU 更难？

MFU 是归一化指标

MFU = 实际吞吐 / 理论峰值，已经消除了硬件绝对性能的影响。同一模型在不同硬件上的 MFU 差异通常在 10% 以内。

Step Time 受硬件绝对性能影响

Step Time = FLOPs / (Peak FLOPS × MFU) + Communication Time + Data Loading Time。需要精确预测每个分项，误差会累积。

通信时间最难预测

NCCL 通信时间受网络拓扑、拥塞、消息大小、集合通信算法等多个因素影响，变异性大。

MFU 是相对指标，泛化性好；Step Time 是绝对指标，需要精确建模每个分项。预测 MFU 后再乘以硬件参数得到 Step Time 是更稳健的策略。

DCGM 指标采集与实战

NVIDIA DCGM（Data Center GPU Manager）是生产环境 GPU 指标采集的标准工具。了解它提供的指标对性能预测和集群调度至关重要。

DCGM 指标	含义	对应概念	采集方式
DCGM_FI_DEV_GPU_UTIL	GPU 计算利用率	GPU-Util	dcgmi dmon -e 100
DCGM_FI_DEV_MEM_COPY_UTIL	显存带宽利用率	Memory Util	dcgmi dmon -e 101
DCGM_FI_DEV_SM_ACTIVITY	SM 活跃度	SM Active	dcgmi dmon -e 141
DCGM_FI_DEV_SM_OCCUPANCY	SM 占有率	SM Occupancy	dcgmi dmon -e 142
DCGM_FI_DEV_FB_USED	显存使用量	VRAM Allocated	dcgmi dmon -e 25
DCGM_FI_DEV_POWER_USAGE	实时功耗	Power	dcgmi dmon -e 14
DCGM_FI_DEV_PCIE_TX_THRU	PCIe 发送吞吐	PCIe Bandwidth	dcgmi dmon -e 17
DCGM_FI_DEV_NVLINK_THRU	NVLink 吞吐	NVLink Bandwidth	dcgmi dmon -e 220

Q: DCGM 和 nvidia-smi 有什么区别？

nvidia-smi

单机命令行工具，适合手动查看。采样频率低（约 1/6 秒），指标种类有限（GPU-Util、Memory Util、显存占用、功耗）。

DCGM

数据中心级 GPU 管理服务，支持多机采集、持续监控、字段级策略。提供更丰富的指标（SM Active、SM Occupancy、NVLink 吞吐等），是生产环境 GPU 监控的标准方案。

ncu / nsys

Nsight Compute / Systems 是深度 profiling 工具，提供 kernel 级别的详细分析（Warp 效率、指令吞吐、内存事务），但开销大，不适合生产环境持续采集。

nvidia-smi = 快速查看，DCGM = 生产监控，ncu/nsys = 深度分析。性能预测通常用 DCGM 指标做特征。

常见误区

误区	正确理解
只预测 GPU-Util 就能做性能预测	GPU-Util 粒度太粗，容易被小 kernel 或通信 kernel 欺骗。
Step Time 比 MFU 更稳定	Step Time 是绝对时间，受硬件、通信、数据加载叠加影响，MFU 更适合作为归一化效率标签。
特征越多越好	特征要有物理含义，否则容易过拟合且难以跨硬件泛化。
只用静态特征就够	实际系统需要运行时指标校准，例如 SM Active、memory util、communication time。

关联模块

性能指标：提供 TFLOPS、HBM、Roofline 等基础指标定义。
利用率诊断：解释 GPU-Util、SM Active、Occupancy 的可预测性边界。
分布式训练：并行策略和通信时间是 step time 预测的关键部分。
调度与集群：预测结果可用于 bin packing、准入控制和性能回归检测。

官方参考

official

DCGM Feature Overview

DCGM 指标字段完整列表和采集方式。

official

Nsight Compute Profiling Guide

SM Occupancy、Roofline、Kernel 分析详解。

paper

FlashAttention

IO-Aware 优化，Arithmetic Intensity 分析的经典案例。

Understanding Ampere Architecture

SM、Warp、Tensor Core 的硬件原理。

内容模块

GPU 面试收束

精通★☆☆⏱ 15 min

一句话结论

GPU 面试不要只背硬件名词，要把问题落到三条主线：数据怎么流动、计算怎么铺满、资源怎么共享和诊断。能把这三条讲清楚，就能自然连接 LLM 推理、分布式训练、K8S GPU 调度和性能预测。

30 秒回答模板

GPU 适合 AI 的核心原因是矩阵计算密集、数据并行度高、显存带宽高。面试回答时我会先区分 CPU 和 GPU：CPU 擅长控制流和低延迟串行逻辑，GPU 擅长用大量 SM、warp 和 Tensor Core 做吞吐型计算。然后补充三类工程问题：第一，数据路径上要关注 HBM、PCIe、NVLink、RDMA 和 NUMA；第二，执行模型上要关注 kernel、grid/block/thread、warp、stream 和 occupancy；第三，性能诊断上要用 nvidia-smi、Nsight Systems、Nsight Compute、DCGM 去判断是计算、显存、通信、数据加载还是 kernel launch 瓶颈。

2 分钟展开模板

如果面试官继续追问，可以按下面顺序展开：

硬件层：GPU 由多个 SM 组成，SM 内有 CUDA Core、Tensor Core、register file、shared memory 等资源；显存是 HBM，带宽远高于 CPU DDR，但容量更小。
执行层：CPU 负责 host 侧控制和 kernel launch，GPU 执行 device 侧 kernel。Kernel 被组织成 grid、block、thread，warp 是硬件调度的基本执行单元。
内存层：global memory 容量大但慢，shared memory/register 更快但容量小。优化目标是提高数据复用、访存连续性和 Tensor Core 利用率。
数据路径：单机内优先走 NVLink/NVSwitch，CPU-GPU 和 GPU-NIC 通常走 PCIe，跨机训练依赖 RDMA/InfiniBand/RoCE 和 GPUDirect RDMA。
共享隔离：MIG 是硬件切分，隔离强但粒度粗；MPS 是软件并发，灵活但有干扰；time-slicing 主要解决调度复用，不保证性能隔离。
诊断层：GPU-Util 只能说明时间上是否有活，不能说明是否高效；要结合 SM Active、Occupancy、Memory Throughput、Tensor Core Util、Warp Stall 和业务吞吐延迟判断。

高频追问压缩表

问题	回答抓手	不要踩的坑
GPU-Util 100% 为什么还慢？	继续看 SM Active、Occupancy、Memory Throughput、Tensor Core、kernel launch、NCCL timeline	不要把 GPU-Util 等同于 GPU 高效利用
Occupancy 越高越好吗？	Occupancy 是隐藏延迟的条件，但寄存器/shared memory 竞争会让 100% occupancy 反而变慢	不要把 occupancy 当唯一优化目标
Prefill 和 decode 谁更吃 GPU？	Prefill 更像大 GEMM，容易 compute-bound；decode 每 token 读大量 KV cache，常见 memory-bound	不要把 LLM 推理所有阶段混成同一种瓶颈
MIG、MPS、time-slicing 怎么选？	MIG 看强隔离，MPS 看并发与配额，time-slicing 看低成本复用和开发/低负载场景	不要说 time-slicing 能保证固定 1/N 算力
多机训练为什么慢？	看 NCCL 路径、NVLink/PCIe/RDMA、NUMA/NIC 亲和、bucket size、通信计算重叠	不要只看单卡 TFLOPS
H2D/D2H 怎么优化？	减少 D2H、批量拷贝、pinned memory、non_blocking、DataLoader 预取、stream 重叠	不要频繁 .item()/.cpu().numpy()

排障 / 设计决策树

GPU-Util 长期低 | 先怀疑数据加载、CPU preprocessing、H2D、batch 太小、请求量不足
GPU-Util 高但业务慢 | 看 Nsight Systems timeline，判断 kernel、memcpy、NCCL、同步谁占时间
Kernel 占主时间 | 用 Nsight Compute 看 SM Active、Occupancy、Memory Throughput、Tensor Core、Warp Stall
Memory Throughput 高且 Compute 低 | memory-bound，优化访存、KV cache、算子融合、FlashAttention/PagedAttention
Compute Throughput 高且 Tensor Core 高 | compute-bound，考虑更低精度、更大 batch、算子选择和并行策略
NCCL/通信占比高 | 查拓扑、NVLink/RDMA、NUMA/NIC 亲和、bucket、overlap、并行策略
Memcpy 或同步很多 | 查 .item()/.cpu()、DataLoader、pinned memory、stream、CPU-GPU 来回转换

跨模块关联

关联页面	GPU 这里要带过去的知识	面试连接方式
LLM 推理系统	HBM 带宽、KV cache、decode memory-bound、FlashAttention、PagedAttention	解释为什么 decode 阶段容易卡在显存带宽和 KV 读取，而不是纯算力
分布式训练	NVLink/NVSwitch、RDMA、NCCL、GPUDirect RDMA、通信计算重叠	解释多卡训练吞吐为什么受拓扑和 collective 通信影响
Kubernetes 核心	Device Plugin、Extended Resource、MIG/MPS/time-slicing、DRA	说明 K8S 调度看到的是资源抽象，不等价于硬件隔离语义
调度与集群	拓扑感知、碎片、GPU 共享、干扰、Gang scheduling	把单卡性能问题升级成集群调度和多租户治理问题
性能预测与建模	MFU、SM Active、Occupancy、Memory Throughput、Active Memory	说明哪些指标可以做特征，哪些指标适合作为预测标签
论文项目	干扰建模、QAD、共享策略、性能画像	把 GPU 基础知识连接到 DeepShare/Maestro 的项目叙事

Q: 如果只给你 1 分钟讲 GPU，你会怎么讲？

回答

我会从三层讲：硬件层，GPU 用大量 SM、warp 和 Tensor Core 提供高吞吐，HBM 提供高带宽；执行层，CPU 发起 kernel，GPU 以 grid/block/thread/warp 组织并行，stream/event 负责异步流水线；系统层，要关注数据路径和资源共享，单机看 PCIe/NVLink，跨机看 RDMA/NCCL，K8S 里看 device-plugin、MIG、MPS、time-slicing。性能问题不能只看 GPU-Util，要结合 Nsight timeline、SM Active、Occupancy、Memory Throughput、Tensor Core 和业务指标判断瓶颈。

短版：硬件吞吐、执行模型、数据路径、共享隔离、性能诊断。

Q: 面试官问“怎么系统性排查 GPU 慢”，你怎么回答？

回答

我会先确认业务指标，比如训练 step time、推理 QPS/TPOT/TTFT，然后从粗到细排查。第一步用 nvidia-smi/DCGM 看 GPU-Util、显存、功耗、PCIe/NVLink 计数和进程。第二步用 Nsight Systems 看端到端 timeline，确认空洞、Memcpy、同步、NCCL、kernel 碎片和 CPU 等待。第三步对热点 kernel 用 Nsight Compute，看 SM Active、Achieved Occupancy、Memory Throughput、Tensor Core Util、Warp Stall。最后结合模型阶段判断：prefill 可能 compute-bound，decode 常 memory-bound，多卡训练可能 communication-bound，数据加载慢则 input pipeline-bound。

排查顺序：业务指标 → nvidia-smi/DCGM → Nsight Systems → Nsight Compute → 阶段化判断瓶颈。