Cluster Management

GPU 集群管理

调度框架 · 多租户 · 拓扑通信 · 故障容错

clustervolcanofault-tolerance

Module Switcher

GPU 集群管理内容模块

框架与多租户2

通信与容错2

面试1

内容模块

调度框架

基础★☆☆⏱ 28 min

一句话结论

GPU 集群调度框架要按“默认 K8s 缺什么、各框架补什么、规模上来后怎么自研”来回答。Volcano 偏批调度和 Gang，Kueue 偏准入排队，YuniKorn 偏层级队列，Run:ai 偏商业 GPU 虚拟化。

为什么不能只用 K8S 默认调度器

K8S 默认调度器适合每个 Pod 独立调度的在线服务。但 GPU 训练任务通常需要一组 Pod 同时启动、长时间运行、拓扑敏感、多租户公平和抢占恢复。默认 scheduler 没有任务级队列、没有作业级配额、没有 Gang 语义，也不能表达“超过 10 张 GPU 后继续提交但排队”。

需求	默认 K8s 支持情况	需要补的能力
任务级排队	不支持，只是 Pod 调度队列	Queue / Workload / AIJob 准入队列
租户 GPU 限额	ResourceQuota 会直接拒绝超额创建	允许提交，超额任务排队等待
Gang Scheduling	不支持 job 级 all-or-nothing	PodGroup / Workload / Permit 等待
异构 GPU	靠 label / extended resource 粗表达	ResourceFlavor / DRA / 拓扑画像
公平共享	默认只按 Pod 优先级和资源匹配	DRF、proportion、borrowing、reclaim

框架选型地图

框架	定位	最适合	主要代价
Volcano	K8s 原生批调度系统	训练/HPC/Spark/Flink 等需要 Gang 和 Queue 的场景	学习 CRD 和插件体系，和调度器耦合较深
Kueue	K8s SIG 官方作业准入/排队系统	不想替换 scheduler，只想做队列和配额准入	不控制 Pod 级调度细节
YuniKorn	层级队列资源管理器	大型组织、多层部门/团队资源治理	架构和运维复杂度更高
Run:ai	商业 GPU 虚拟化平台	快速落地 GPU 共享、配额、可视化和成本治理	闭源、定制深度受限
自研队列 + Scheduler Plugin	按业务定制	已有 K8s 基础但需要 AIJob、预测、干扰、代价抢占	研发和维护成本最高

面试回答套路

先说默认 K8s 只能解决 Pod 到 Node 的绑定，不解决任务级队列和 Gang。
再说 Volcano / Kueue / YuniKorn / Run:ai 分别补哪一层能力。
最后根据规模和需求选型：小规模用 Volcano/Kueue，组织层级复杂看 YuniKorn，需要 GPU 共享商业能力看 Run:ai，深度定制走自研。

收束：框架选型不是比谁更先进，而是看你要控制“准入排队、调度过程、队列层级、GPU 共享、业务定制”中的哪一层。

一句话结论

Volcano 的核心是 Queue、PodGroup、VolcanoJob：Queue 管多租户资源，PodGroup 管 Gang 原子调度，VolcanoJob 管多角色批作业和生命周期策略。

Volcano 定位与架构

Volcano 是 Kubernetes 批处理调度的新范式：为 AI/ML、HPC 等高性能工作负载补齐默认调度器缺失的 Gang、队列与公平性能力。

Volcano 是 CNCF 孵化的 Kubernetes 批处理调度系统，面向 AI/ML、HPC、Spark、Flink、Ray 等高性能工作负载。它通过 CRD 扩展 K8s 对象，再由 scheduler、controller manager、admission 协同完成批调度。

Volcano 架构图：在 Kubernetes 之上增加 batch scheduler、controller、admission 和 Job / Queue / PodGroup 等 CRD。

Volcano 调度链路：通过 CRD 扩展 K8s 资源对象，再由 scheduler / controller / admission 协同完成批调度。

安装与最小验证

面试不需要背命令，但要知道 Volcano 部署后至少有 scheduler、controller、admission 组件，以及 Queue / PodGroup / Job CRD。

helm repo add volcano-sh https://volcano-sh.github.io/helm-charts
helm repo update
helm upgrade --install volcano volcano-sh/volcano \
  --version 1.12.0 \
  -n volcano-system \
  --create-namespace

kubectl get all -n volcano-system
kubectl get crd | grep volcano

使用 Volcano 特性的 Job 要指定 schedulerName: volcano。如果改成 default-scheduler，就无法使用 Volcano 的 Gang、Queue、Fair-share、Preemption 等能力。

三大核心对象关系

Volcano 三大核心对象解析：Queue、PodGroup、VolcanoJob

Volcano 三大核心对象：Queue（资源池）、PodGroup（Gang 调度单元）、VolcanoJob（批作业抽象）。

Volcano 对象模型：Queue 管资源池，VolcanoJob 管用户作业，PodGroup 管 Gang 调度，TaskInfo 是 Pod 的调度内部包装。

Queue 是资源池，PodGroup 是 Gang 调度单元，VolcanoJob 是批作业抽象。

对象	一句话	关键字段	面试重点
Queue	多租户资源队列	`weight`、`capability`、`deserved`、`reclaimable`	资源隔离、弹性借用、reclaim
PodGroup	一组强关联 Pod 的 Gang 单元	`minMember`、`minResources`、`priorityClassName`、`queue`	All-or-Nothing，避免 partial allocation
VolcanoJob	批作业抽象，包含多个 task	`schedulerName`、`minAvailable`、`tasks`、`policies`、`plugins`、`queue`	多角色训练任务、生命周期策略

Queue：多租户资源管理

字段	作用	面试解释
`weight`	按比例分配资源	适合资源软约束，空闲时可以动态共享
`deserved`	队列期望应得资源	表达 fair-share / deserved resource
`capability`	队列可用资源硬上限	防止某队列超用整个集群
`reclaimable`	资源是否可被回收	空闲借用和高优队列回收的基础

PodGroup：Gang Scheduling 的落地对象

字段	作用	设错的后果
`minMember`	至少多少个 Pod 同时满足才允许启动	太低会 partial allocation，太高会长期 Pending
`minResources`	整体最小资源需求	可以提前判断集群是否可能满足
`priorityClassName`	PodGroup 优先级	影响抢占和排队顺序
`queue`	归属资源队列	影响配额和公平性

VolcanoJob：批作业与生命周期策略

VolcanoJob 状态包括 pending、running、restarting、completing、completed、failed、terminating 等。

字段	作用	面试关注点
`schedulerName`	指定调度器	保持 `volcano` 才能使用高级策略
`minAvailable`	Job 正常运行所需最少 Pod 数	类似 Gang 的最低可运行条件
`tasks`	定义多角色 Pod 模板	PS / Worker / Master / Launcher 等角色
`policies`	生命周期策略	PodFailed、PodPending、TaskCompleted 等事件触发动作
`plugins`	任务级插件	如 ssh、svc、env，为分布式任务提供互信和服务发现
`maxRetry`	最大重试次数	故障恢复和失败终止的边界

源码视角：Action、Plugin、Session

Volcano 调度周期：OpenSession 建上下文，Plugin 注册算法函数，Action 顺序执行并调用这些函数，CloseSession 清理状态。

Volcano 调度器内部不是简单套 kube-scheduler 的扩展点，而是有自己的 Action + Plugin + Session 框架。理解这层，面试回答会明显更深入。

概念	作用	怎么理解
Action	调度周期里要执行的动作	例如 enqueue、allocate、backfill、preempt、reclaim、shuffle
Plugin	给 Action 提供算法函数	例如 gang、drf、proportion、priority、binpack
Session	一次调度周期的上下文	保存 Jobs、Queues、Nodes 以及插件注册的排序/过滤/抢占函数

关键机制：OpenSession 时插件把函数注册到 Session；随后 actions 按配置顺序执行，并调用 Session 里的算法函数；最后 CloseSession 清理和提交状态。

Volcano Actions：一轮调度做哪些动作

Action	做什么	面试抓手
`enqueue`	把 Pending 的 PodGroup / Job 判断为可入队，更新为 Inqueue	解决“作业能不能进入队列”
`allocate`	给 Inqueue 任务分配节点资源，选择最合适的 Node	核心资源分配动作，类似 Filter + Score + Bind 的组合
`backfill`	利用碎片资源调度适合插空的任务	提高利用率，但不能破坏主要调度目标
`reclaim`	从超额使用队列回收资源	队列间公平性和资源借用回收
`preempt`	同队列或跨队列中按优先级抢占低优任务	高优任务保障，注意抢占代价
`shuffle`	打散或重排任务，缓解局部不优	较少面试深挖，知道存在即可

runOnce
  → OpenSession(cache, plugins, config)
  → action.Execute(session)  // enqueue / allocate / backfill ...
  → plugins registered functions are called through session
  → CloseSession(session)

源码对象不要混：VolcanoJob、JobInfo、TaskInfo

对象	在哪一层	真实含义
VolcanoJob	CRD / controller 层	用户提交的批作业对象，包含 tasks、policies、plugins 等
PodGroup	CRD / scheduler 层	Gang 调度单元，表达一组 Pod 的 all-or-nothing 语义
JobInfo	scheduler cache / Session 层	调度器内部的 Job wrapper，本质更接近 PodGroup 的调度视角
TaskInfo	scheduler cache / Session 层	Pod 的 wrapper，一个 TaskInfo 基本对应一个 Pod
QueueInfo	scheduler cache / Session 层	Queue 的调度视图，保存 allocated、deserved、capability 等状态

面试易错点：源码里的 JobInfo 不等于 CRD 里的 VolcanoJob；TaskInfo 也不是 VolcanoJob.spec.tasks，而是 Pod 的调度包装。

Volcano 高频追问

Q: Queue、PodGroup、VolcanoJob 三者是什么关系？

一句话

Queue 是租户资源视角，PodGroup 是调度原子性视角，VolcanoJob 是用户提交的批作业视角。

运行链路

VolcanoJob 提交后会关联一个 Queue，并自动创建 PodGroup。Queue 决定这个 Job 属于哪个资源池；PodGroup 决定这组 Pod 是否满足 minMember / minResources，可以 all-or-nothing 启动；VolcanoJob 自己定义 tasks、policies、plugins、maxRetry 等批任务语义。

面试易错点

不要把 VolcanoJob 等同于 PodGroup。VolcanoJob 是用户作业；PodGroup 是调度器用于 Gang 的原子单元；Queue 是资源治理对象。

记忆：Queue = 资源池；PodGroup = Gang 原子单元；VolcanoJob = 批作业结构。

Q: Volcano 为什么能避免 partial allocation？

默认 K8s 问题

默认 kube-scheduler 逐 Pod 调度，可能只启动部分 worker，剩余 worker Pending。对 DDP / MPI / NCCL 这类强同步任务来说，部分 worker 启动没有意义，GPU 会空转，多个 Job 还可能互相占住部分资源形成死锁。

Volcano 做法

Volcano 用 PodGroup 的 minMember 和 minResources 表达 all-or-nothing 语义。资源不满足时整组等待；资源满足时整体进入运行。

代价

Gang 会提高正确性，但可能增加等待时间。大任务需要凑齐一组资源，小碎片不能随便启动它的一部分。

面试口径：Volcano 把“单 Pod 能不能跑”提升成“整个 Job 能不能一起跑”，避免部分 worker 白占 GPU。

Q: Volcano 的局限是什么？

已经解决

Volcano 解决了默认 K8s 在批任务里的核心缺口：Gang、Queue、多角色 Job、队列公平和部分抢占。

没有天然解决

它不天然解决运行时间预测、干扰感知共置、checkpoint-aware preemption、复杂异构 GPU 拓扑和超大规模全局优化。

什么时候要自研

当你需要 QAD 这类连续保障度、预测调度、共置干扰模型、代价感知抢占或千卡以上全局优化时，通常要自研 scheduler plugin 或独立调度层。

Q: Volcano 的 Action 和 Plugin 是什么关系？

Action

Action 是调度流程中的动作，例如 enqueue、allocate、backfill、reclaim、preempt。它决定“这一轮调度要做哪些步骤”。

Plugin

Plugin 是算法提供者，例如 gang、drf、priority、binpack。它把排序、过滤、抢占、可回收判断等函数注册到 Session。

Session

每轮调度先 OpenSession，插件在 OnSessionOpen 里注册函数；Action 执行时调用 Session 里的函数；最后 CloseSession 清理状态。

一句话：Action 决定“什么时候做”，Plugin 决定“怎么做”，Session 是二者之间的上下文。

Q: enqueue 和 allocate 有什么区别？

enqueue

解决“这个 Job / PodGroup 能不能进入队列成为 Inqueue”。它更偏作业准入和队列状态更新。

allocate

解决“已经 Inqueue 的任务具体分配到哪些节点”。它会结合 predicate、node order、task order、queue order 等插件函数做资源分配。

面试口径：enqueue 管入队，allocate 管分配。

Q: reclaim 和 preempt 有什么区别？

preempt

从任务优先级出发，高优任务抢占低优任务，重点是“谁更重要”。

reclaim

从队列公平性出发，从超额使用或可回收资源的队列里拿回资源，重点是“哪个队列超额了”。

面试口径：preempt 看任务优先级，reclaim 看队列资源公平。

一句话结论

Kueue 是 K8s SIG Scheduling 的作业准入与排队系统：它不替换 kube-scheduler，而是在 Pod 真正进入调度前决定 Workload 能不能开始、用哪类资源开始。

Kueue 解决什么问题

Kueue 的核心不是“给 Pod 打分”，而是“作业能不能被准入”。它适合你不想替换默认 scheduler，但需要 LocalQueue、ClusterQueue、ResourceFlavor、borrowing 和公平共享的场景。

对象	作用	面试解释
LocalQueue	namespace 内用户提交入口	用户只看到本 namespace 的队列
ClusterQueue	集群级资源池和配额	平台管理员配置 quota、borrowing、flavor
ResourceFlavor	资源类型 / 节点池抽象	A100、H100、spot、on-demand 等资源口味
Workload	一个待准入作业的抽象	包含 PodSet，Kueue 判断它是否可以开始

Kueue 调度链路

用户提交 Job / PyTorchJob / RayJob。
Kueue webhook 或 controller 生成 Workload。
Workload 进入 LocalQueue，再映射到 ClusterQueue。
Kueue 判断某个 ResourceFlavor 下是否有足够 nominal quota 或可借用额度。
准入后给 PodSet 写入 flavor 相关 nodeSelector / toleration 等信息。
具体 Pod → Node 绑定仍由 kube-scheduler 完成。

一句话：Kueue 像售票系统，决定作业能不能进场和坐哪个区域；kube-scheduler 像领位员，决定具体坐哪个座位。

Kueue vs Volcano

维度	Kueue	Volcano
架构	准入/排队层，复用 kube-scheduler	批调度系统，深度控制调度过程
强项	队列、配额、ResourceFlavor、渐进式接入	Gang、Queue、Job 生命周期、调度插件
升级风险	低，和 scheduler 解耦	相对高，和调度链路耦合更深
控制粒度	准入层控制，Pod 绑定交给默认 scheduler	调度过程内控制，能做更细的 Permit / Reserve

Q: ResourceFlavor 为什么重要？

异构 GPU 集群里“1 张 GPU”不是等价资源。A100/H100/V100、spot/on-demand、不同拓扑和成本都不同。ResourceFlavor 把资源的质纳入队列配额，让 Workload 在准入阶段就知道自己被分到哪类资源。

一句话结论

YuniKorn 更像大组织的层级资源管理器，Run:ai 更像商业 GPU 虚拟化和配额平台。它们解决的不是同一个层面的问题。

YuniKorn：层级队列和 Application 级调度

YuniKorn 源自 YARN 的资源管理思想，核心优势是层级队列。它适合公司 / 部门 / 团队 / 项目多层资源治理场景。

能力	说明	适用场景
层级队列	root → department → team → project	大型组织资源治理
Application 级调度	一组 Pod 作为一个应用管理	Spark、Flink、训练任务
替换调度器	可以作为完整 scheduler 运行	需要强资源管理能力的集群

Run:ai：商业 GPU 共享和配额平台

Run:ai 提供 GPU 分时共享、配额、项目级资源治理、可视化和成本归因。它的优势是开箱即用，适合想快速落地 GPU 平台能力的团队。

能力	价值	局限
GPU sharing	提高 Notebook、小实验、推理任务利用率	闭源实现，深度定制受限
Quota / borrowing	项目级配额和空闲借用	策略能力取决于产品版本
可视化	降低平台运维门槛	大规模特殊需求可能仍需自研

Q: YuniKorn 的层级队列有什么优势？

层级队列把组织结构映射到资源治理：公司给部门配额，部门给团队配额，团队之间可以按规则借用和回收。扁平队列在团队少时够用，但组织层级多后很难维护公平和预算边界。

一句话结论

原生 Kubernetes 的 ResourceQuota 是“超额即拒绝”语义，满足不了“用户照常提交、超额任务排队、有资源自动顶上”的诉求。生产做法是两级队列：自己实现一级业务队列（TrainingJob + 配额账本 + 准入策略），只把拿到 quota token 的任务下发给 Volcano；Volcano 作为二级调度器只负责 gang、PodGroup、放置和抢占执行。配额账本和任务状态存在 CRD 的 spec / status，由 etcd 持久化，不另起数据库。

复习定位

维度	内容
所属模块	GPU 集群管理
章节类型	系统设计类
解决问题	异构多团队 GPU 集群上，如何让用户超额提交不报错、硬配额不突破、大任务不饿死。
面试抓手	先点出 ResourceQuota 是拒绝语义；再给两级队列；强调 Volcano 只做二级调度。

面试场景题（面试官口吻）

这类题面试官不会直接说“设计一个 CRD”，而是给业务场景让你识别原生能力缺口：

题面

“我们有一个几千张卡的 GPU 训练集群，混合了 A100 80G、H100、V100 多种型号。资源按团队分配额度，而且是按卡型分别给：比如推荐团队分到 64 张 A100、16 张 H100。这个团队几十号算法工程师白天会密集提交训练任务，有人跑单卡调试，有人提 8 卡实验，还有人要 32 卡做大模型预训练。高峰期他们提交的任务加起来需要的 A100 远超 64 张。

我的诉求是：配额是硬上限不能突破（不然挤占别的团队），但又不能让工程师提交时直接报错——应该能正常提交，超额的自动排队，集群里有任务跑完释放卡，排队的自动顶上。同时 32 卡大任务不能被一堆小任务一直插队饿死，重要任务还得能优先。你用 Kubernetes 怎么设计？原生的 ResourceQuota、scheduler 能直接满足吗？哪里不够、你怎么补？”

这道题在考你	想确认你懂
识别原生能力边界	ResourceQuota 是“拒绝”语义，不是“排队”语义
排队的位置	排队要发生在建 Pod 之前，不是让 Pod 涌进 scheduler
异构配额	额度按 `(team, gpuType)` 分别算，不能合并成总卡数
两级队列	业务准入（配额/优先级/防饿死）vs 调度放置（gang/拓扑）分开
状态怎么存	CRD + etcd，不另起数据库；账本靠 reconcile 重算
落地参照	知道 Volcano / Kueue 是这套结构，但 Volcano 只承担二级

答题节奏：先点矛盾 → 给两级队列思路 → 等追问再展开 CRD / 状态 / 并发 → 收一句“Volcano/Kueue 就是这个模式”。别等面试官喂名词，要自己引出来。

为什么原生机制和单靠 Volcano 都不够

机制	能不能满足	原因
ResourceQuota	不满足	超 quota 直接 `Forbidden` 拒绝创建，不保留等待队列，违背“超额也能提交”
PriorityClass	不满足	只表达优先级，不表达团队/卡型运行上限
默认 scheduler	不满足	只消费已创建 Pod，不管理任务级准入队列
单靠 Volcano	不建议完全依赖	它的 Queue 偏 scheduler 内部队列：能让 PodGroup Pending，但不承载“你排第几、是 A100 还是 H100 不足、预计何时启动”等业务语义
两级：自研业务队列 + Volcano	满足	一级管业务准入与配额，二级管 gang 与放置

Volcano 文档明确：当 enqueue 判断某 PodGroup 不允许进入队列时，vc-controller 不会创建 pending pods，reclaim/preempt 也不执行。这会影响“超额任务排着、重要任务可触发抢占/回收”的业务语义，所以业务排队不能完全交给 Volcano。

推荐架构：两级队列

核心原则：用 Volcano 做二级调度器，不让它承担完整业务排队。自己实现一级 TrainingJob Queue，所有超额任务先进自研队列，只有拿到团队/卡型 quota token 后才创建 VolcanoJob。

两级队列：一级自研业务队列负责准入与配额（source of truth），二级 Volcano 负责 gang 调度与放置。超额任务停在 Queued，不创建 Pod。

层级	组件	职责
一级自研平台	Admission Webhook	校验身份、team、优先级权限、卡型；拦截“单任务请求 > 团队 quota”这种永远无法满足的任务
	Platform Queue Controller	接收所有合法 TrainingJob，永不因当前 quota 满而拒绝，进入 Queued
	Quota Manager	维护 `(team, gpuType)` 的 hard / used / reserved 账本，是业务配额的 source of truth
	Admission Scheduler + Dispatcher	按 priority / aging / 大任务 reservation / backfill 排序，reserve quota 后才创建 VolcanoJob
二级 Volcano	Volcano Queue capability	按卡型配 capability，作为执行层 guardrail，即使平台 bug 多放也不会无限超发
二级 Volcano	Volcano Scheduler	只接收已 admission 的任务，做 PodGroup、gang、allocate、preempt、binpack、topology-aware 放置

图里的关键点：超额任务只停留在 TrainingJob 的 Queued 状态；拿到 quota token 之前不创建 VolcanoJob / PodGroup / Pod。

异构配额：账本是二维表，不是一个数

A100 和 V100 不能 1:1 抵扣，所以配额账本必须按 (team, gpuType) 分格维护，准入判断也要先看任务要哪种卡，再查那一格：

recommend / a100-80g : hard=64  used=?  reserved=?
recommend / h100      : hard=16  used=?  reserved=?
search    / a100-80g : hard=32  ...
准入判断：该格 used + reserved + 任务要的同型号卡数 <= 该格 hard

这正好对应 Kueue 的 ResourceFlavor（按卡型区分资源）和 Volcano Queue 的多维 capability。业务队列本身也按这个维度分层：

TeamQueue
  └── GPUTypeQueue
        └── PriorityQueue
              └── FIFO / Aging / Backfill

recommend
  ├── a100  ├── P0 ├── P1 ├── P2 └── P3
  └── h100  ├── P0 ├── P1 ├── P2 └── P3

具体走例：团队 20 张 A100，已用 15，连续提交

用一个小数字把准入逻辑走通（生产是 64，这里用 20 便于看）。team-a 配额 20，已跑 15（Job-A=8, Job-B=7），用户连续提交 Job-C(4)、Job-D(6)、Job-E(2)：

第 1 轮 reconcile（提交后）：
  running = Σ(Running/Admitted) = 8 + 7 = 15   # 重新数，不是存的
  pending = [C(4), D(6), E(2)]                  # 按入队顺序
  C：15 + 4 = 19 <= 20  ✅ Admitted，running→19
  D：19 + 6 = 25 >  20  ❌ break（不跳过去看更小的 E，防止大任务被饿死）
  结果：只有 C 被准入并建 Pod；D、E 停在 Queued，一个 Pod 都不建

第 2 轮 reconcile（Job-A 跑完释放 8 张，触发重算）：
  running = 7 + 4 = 11                           # B + C
  D：11 + 6 = 17 <= 20  ✅ Admitted，running→17
  E：17 + 2 = 19 <= 20  ✅ Admitted，running→19
  结果：D、E 都被准入并建 Pod

配额在“建 Pod 之前”这道准入关卡卡住，靠“排队 + 每次全量重算 + 资源释放再准入”，永远不会真超过上限，超额任务也不会报错。队头放不下就 break，保证 FIFO，避免大任务被插队饿死。

状态存哪里：不用数据库，存在 CRD 的 spec / status

很多人第一反应是“再起一个 MySQL / Redis 存队列和配额”，但在 K8s 里更标准的做法是不引入外部数据库，把状态拆成两类，全部交给 etcd：

状态类型	存在哪	谁写	例子
用户期望（desired）	CRD 的 `spec`	用户 / 提交端	要几张卡、哪种卡型、哪个队列、优先级
系统观测（observed）	CRD 的 `status`	控制器	TrainingJob 当前 phase、配额账本已用量、等待列表

etcd 是 K8s 的强一致 KV 存储，CRD 读写都走 API Server，自带 watch、乐观锁（resourceVersion）、RBAC 和审计。另搭数据库反而要自己解决一致性、备份、和 etcd 状态对不齐的问题，所以默认不这么做。

# TrainingJob：任务期望 + 状态机
apiVersion: scheduling.example.com/v1
kind: TrainingJob
metadata:
  name: llm-pretrain-001
spec:
  team: recommend
  gpuType: a100-80g
  gpuCount: 32
  priority: p1
  minAvailable: 32          # Gang：32 个 Pod 要么一起跑
status:
  phase: Queued             # Submitted->Queued->Admitting->SubmittedToVolcano->Running->Succeeded/Failed/Cancelled
  reason: "waiting for a100 quota"

# 配额账本：按 (team, gpuType) 分格，存在账本 CRD 的 status
status:
  quotas:
    - team: recommend
      gpuType: a100-80g
      hard: 64
      used: 60              # 在跑的同型号卡总数
      reserved: 4           # 已 reserve、待 Volcano 拉起
    - team: recommend
      gpuType: h100
      hard: 16
      used: 8
      reserved: 0

配额账本怎么算出来：reconcile 而不是手工加减

关键认知：used 这个数字不要靠“准入时 +N、结束时 -N”手工累加，因为控制器会重启、会漏事件，累加值会和真实情况飘移。正确做法是每次 reconcile 都从真相源全量重算：

reconcile(team, gpuType):
  1. List 该 team 该卡型下 phase∈{Admitting,SubmittedToVolcano,Running} 的 TrainingJob
  2. used = Σ(它们的 gpuCount)             # 重新算，不依赖旧值
  3. for job in pending(按 priority/aging/FIFO 排序):
       if used + reserved + job.gpuCount <= hard and rough_cluster_fit(job):
           reserve_quota(job); create_volcano_job(job)
           job.phase = SubmittedToVolcano
       else:
           break                            # 队头算不动就停，保证顺序、防饿死
  4. 写回 quota.status 和各 job.status

控制器重启、丢了内存队列后，下次 reconcile 也能从 etcd 里的 TrainingJob 列表把账本完整重建，状态是“可重算的”而不是“攒出来的”——这就是 K8s 控制器 level-triggered（看最终状态）而非 edge-triggered（依赖每个事件）的思想。

并发与一致性：多副本控制器怎么不互相打架

问题	处理方式
两个任务同时准入导致超额	同一个 `(team,gpuType)` 串行 reconcile（workqueue 按 key 去重，同 key 不并发），不会两个 goroutine 同改一个账本
写 status 时对象已被改过	API Server 用 `resourceVersion` 乐观锁，update 冲突返回 409，控制器 requeue 重算再写
控制器跑多副本	用 Lease 做 leader election，同一时刻只有一个 leader 真正 reconcile
reserve 后 Volcano 长时间拉不起来	`SubmittedToVolcano` 设超时，超时 Requeue 退回 Queued 并释放 reserved，避免名额被占死

一致性靠 etcd 乐观锁 + 单 key 串行 reconcile + 全量重算，而不是分布式锁或事务数据库。Volcano 不应成为唯一的排队状态来源。

宕机恢复：控制器无状态，靠 reconcile 重建

控制器内存里的队列只是缓存。崩溃 / 升级 / 重调度后：

新实例启动，通过 informer 从 API Server List + Watch 拉全量 TrainingJob 和账本 CRD。
对每个 (team,gpuType) 触发 reconcile，重新算 used 和准入结果。
已经在跑的 Pod 不受影响（真相在 etcd 和节点上），队列顺序从 TrainingJob 的创建时间 / 优先级字段恢复。

所以“状态怎么保存”的答案是：任务和配额状态保存在 etcd 里的 CRD 对象上，控制器自己不持久化任何东西，靠 reconcile 随时重建。只有 etcd 不该放的东西才进外部数据库——跨集群全局配额、长期计费/用量审计、历史任务归档写 Postgres/ClickHouse，但准入决策的实时账本仍留在 etcd。

大任务防饿死与抢占：策略在平台层，执行在 Volcano

能力	放哪	为什么
head-of-line reservation	平台层	32 卡大任务等久了要占住名额，不让小任务无限插队
conservative backfill	平台层	只在不影响大任务预计启动时，才放声明短时长的小任务回填空隙
aging / 用户级公平	平台层	Volcano 不知道业务意图（等了几小时、debug 任务多久结束）
选 victim（抢谁）	平台层	挑低优先级、可抢占、有 checkpoint、释放卡数合适、损失最小的任务
gang 调度	Volcano	一旦下发，保证 32 个 Pod 要么一起跑
PodGroup/Pod 抢占执行	Volcano	preempt action 执行同 queue 内实际驱逐与重调度

分工：业务抢占策略（抢不抢、抢谁）在平台层；Pod 级抢占执行在 Volcano。

三个不建议的做法

不建议	问题
让用户直接提交 VolcanoJob	平台无法稳定控排队顺序、业务状态不可解释、Pending 对象太多污染调度层、权限和防绕过难做、大任务防饿死难做
用 ResourceQuota 做硬限制	超额提交直接 Forbidden，不符合“正常提交、超额排队”的诉求
完全相信 Volcano Queue capability	它只能当底线 guardrail，不能当唯一账本——pending 统计、队列位置、用户级公平、单任务合法性、业务优先级、审计计费都还得平台层做

关联模块

Volcano：PodGroup、Gang、Queue、Priority、Preempt、Reclaim 等二级调度能力细节。
Kueue：LocalQueue / ClusterQueue / ResourceFlavor / Workload 准入排队，是“准入队列”的官方实现参照。
多租户管理：配额、隔离、公平性与资源治理的总论。
GPU 拓扑与通信：二级调度里 topology-aware 放置和 NCCL 通信背景。
故障处理与弹性：抢占 victim 选择依赖的 checkpoint 策略。

内容模块

多租户管理

进阶★☆☆⏱ 15 min

一句话结论

多租户配额管理的核心是保障性（guarantee）与弹性（elasticity）的权衡：从固定配额到 ElasticQuota 再到 QAD 驱动，本质是用越来越精细的保障信号换更高利用率，再叠加 Namespace、Queue、节点、GPU 四层隔离来约束租户间干扰。

复习定位

维度	内容
所属模块	GPU 集群管理
章节类型	系统类
解决问题	围绕调度框架、多租户、拓扑通信、故障容错和面试问答建立集群管理答案。
面试抓手	回答时先定范围，再讲核心链路，最后落到工程风险和面试追问。

多租户管理：为什么"配额"不是简单地"分一下 GPU"？

多租户管理的本质问题是：如何在保证每个租户基本权益的前提下，最大化集群利用率？

最简单的方案是"固定配额"——A 团队分 40 张 GPU，B 团队分 60 张 GPU，互不干扰。问题是：A 团队晚上不用 GPU，B 团队晚上要跑实验，但 B 不能用 A 闲置的 GPU——因为"那是 A 的配额"。结果集群利用率只有 40%。

所以多租户管理的核心矛盾是：保障性（guarantee）vs 弹性（elasticity）。保障性强 → 利用率低；弹性强 → 可能损害保障。所有配额方案都在这个光谱上找平衡。

怎么理解：像公司停车位。固定配额 = 每人一个固定车位，你的车位空着别人也不能停。弹性配额 = 每人有保底车位（来了肯定有位），但空着时别人可以临时用，你来了别人得让出来。

四种配额方案详解

1. 固定配额（Static Quota）

定义：每个租户分配固定的 GPU 数量，互不借用。K8S 原生的 ResourceQuota 就是这种模型。

怎么理解：买断制——你买了 40 张 GPU，不用也归你，别人不能用。

优点：(1) 强保障——你的 GPU 永远不会被别人抢走；(2) 实现最简单——ResourceQuota + Namespace 隔离就够了。

致命问题：利用率低。实测数据：固定配额的 GPU 集群平均利用率通常只有 30-40%，因为总有租户的配额闲置（夜间、周末、实验间隙）。

面试中怎么答：不要说"固定配额不好"——要说"固定配额在什么场景下够用"：小型团队（GPU 少，每个租户都满载）、合规要求严格（不能混用资源的场景）。问题在于规模大了之后利用率不可接受。

2. ElasticQuota（弹性配额）

定义：每个租户有 min（保障量）和 max（上限）。日常使用 min 以内的资源有保障；闲置时可以借用其他租户的 min 值，但总量不超过 max；被借用方需要时可以抢占回收。

怎么理解：信用卡 + 信用额度——你有 5 万信用额度（min = 5 万保障），最多可以刷 10 万（max = 10 万上限），但超出 5 万的部分银行随时可以收回。

手动推演：100 GPU 集群，A 团队 min=30/max=60，B 团队 min=40/max=80

T1：A 用 30，B 用 40，剩 30 闲置 → A 可以借用，用 60（到 max）
T2：B 要用 70 → A 借用了 30 中的 30 需要让出 → 抢占 A 的 30 GPU → A 回到 30（min），B 用 70
T3：B 只用 40 → 剩 60 闲置 → A 又可以借用，用 60

关键机制：抢占回收。当 min 拥有者需要资源但被借用者占用时，借用者的 Pod 会被抢占。抢占策略影响很大——简单的优先级抢占可能杀掉一个训练了 10 小时的任务。

局限：(1) min/max 是静态值，不能动态调整；(2) 抢占不考虑沉没成本；(3) 没有"保障度"的概念——min 只是名义保障，实际保障度取决于抢占的及时性。

3. 弹性保障（QAD 驱动）

定义：不设 max 上限，借用不受限，但通过 QAD（Quota Assurance Degree，配额保障度）来持续监控和保障每个租户的权益。

QAD 是什么：QAD = 实际获得资源时间 / 应获得资源时间。例如一个租户的 guarantee 是 30 GPU，过去 24 小时内他需要 30 GPU 的总时间是 20 小时，其中 18 小时确实获得了 30 GPU，则 QAD = 18/20 = 0.9。

怎么理解 QAD：像手机电池健康度。你的电池设计容量是 100%，实际充满只有 90%，电池健康度就是 90%。QAD 就是"配额健康度"——你的保障配额有多少时间是真正可用的。

为什么比 ElasticQuota 更好：

无 max 限制：借用没有硬上限，利用率更高。只要 QAD 不降低，你借多少都行。
信号更精细：ElasticQuota 只有"在 min 内 / 超出 min"两个状态。QAD 是连续值（0.0-1.0），能做更精细的调度决策——QAD=0.95 的队列和 QAD=0.6 的队列，优先级显然不同。
驱动回收：当某个租户的 QAD 低于阈值（如 0.95），调度器优先从借用者回收资源，而不是等到租户主动请求。

手动推演：100 GPU，A 团队 guarantee=30，B 团队 guarantee=40

T1：A 用 30，B 用 40，剩 30 闲置 → A 借用 30，A 总共 60 GPU
T2：A 的 QAD = 1.0（一直在 30 以上），B 的 QAD = 1.0 → 一切正常
T3：B 需要用 60 但只有 40（A 借了 30）→ 调度器检测到 B 的 QAD 可能降到 0.67 → 触发回收 A 的 20 GPU → A 回到 40，B 获得 60
关键：A 不一定要退回 guarantee=30，只要 B 的需求被满足就行。A 保留了 40（比 guarantee 多 10），B 获得了 60（比 guarantee 多 20）。总量 100 刚好用满。

面试金句："ElasticQuota 是离散的保障信号——要么在 min 内要么超出。QAD 是连续的保障信号——像监控'配额健康度'一样持续度量保障水平，驱动更精细的调度决策。"

4. DRF（主导资源公平）

定义：多维资源场景下的公平分配。每个租户的"主导资源"（占集群该资源比例最高的那个维度）获得相等份额。详见调度理论模块的 DRF 章节。

在多租户中的角色：DRF 解决的是公平性，不是保障性。它没有 min/max 的概念，只是确保每个租户的"最大需求维度"被公平对待。适合无保障要求的共享集群。

配额方案对比

维度	固定配额	ElasticQuota	QAD 驱动	DRF
保障性	强（100%）	中（min 保障，抢占可能延迟）	强（QAD ≥ 0.95）	弱（无保障承诺）
弹性	无	中（max 上限）	强（无上限借用）	中（按比例分配）
回收机制	不需要	抢占（简单优先级）	QAD 驱动回收（更精细）	不需要
公平度量	—	—	QAD 连续值	Dominant Share
利用率	低（30-40%）	中（60-70%）	高（80%+）	中高
实现复杂度	低	中	高	中
适用规模	小	中	大	共享研究集群

多租户隔离的四个层次

配额管理解决的是"每个租户能用多少"，隔离解决的是"租户之间互相不影响"。隔离有四个层次，从粗到细：

第一层：Namespace 级别

机制：K8S 原生的 ResourceQuota + LimitRange。

ResourceQuota：限制一个 Namespace 的总资源量（如最多 16 GPU）。硬限制，超了 Pod 创建直接被拒绝。

LimitRange：限制单个 Pod 的资源范围（如每个 Pod 最多 4 GPU，最少 1 GPU）。防止一个 Pod 吃掉整个 Namespace 的配额。

隔离能力：资源量隔离。不同 Namespace 的资源预算独立。

局限：(1) 不支持弹性——ResourceQuota 是硬限制，空闲资源不能被其他 Namespace 用；(2) 不做性能隔离——同一节点上两个 Namespace 的 Pod 可能互相干扰。

怎么理解：公司报销制度——每个部门有固定报销额度（ResourceQuota），单次报销有上下限（LimitRange），但额度用不完不能转给其他部门。

第二层：Queue 级别

机制：Volcano Queue / Kueue ClusterQueue / Yunikorn Queue。

增强能力：(1) 弹性配额——支持 borrowing 和 reclaim；(2) 公平调度——Queue 内部可以按 DRF/proportion 调度；(3) 优先级——不同 Queue 可以有不同优先级；(4) 排队——配额不足时任务排队等待，而不是直接拒绝。

为什么比 Namespace 更好：ResourceQuota 是"硬墙"——超了就拒绝。Queue 是"弹性门"——超了可以借用，还可以排队等。后者更适合 GPU 集群的动态负载。

第三层：节点级别

机制：NodeSelector / NodeAffinity / Taint-Toleration。

做法：把特定节点（或节点组）专属于特定租户。例如给 A 团队的节点打上 tenant=A:NoSchedule taint，只有带 A 团队 toleration 的 Pod 才能调度上去。

为什么需要：(1) 合规要求：某些数据只能在特定机器上处理；(2) 性能隔离：训练任务独占节点，避免推理任务的延迟抖动；(3) 硬件差异：A 团队的模型需要 A100，B 团队 V100 就够了。

局限：降低利用率——专属于某个租户的节点即使闲置，其他租户也不能用。

第四层：GPU 级别

机制：MIG（Multi-Instance GPU）硬件切片 / MPS（Multi-Process Service）软件共享。

MIG：A100/H100 支持将一张 GPU 硬件切分为最多 7 个实例，每个实例有独立的 SM、L2 cache、显存带宽。硬件级隔离——一个实例的故障和性能波动不影响其他实例。

MPS：软件层面的 GPU 共享，多个进程共享同一 GPU 的 SM。轻量级，但没有硬件隔离——一个进程的 kernel 可能影响其他进程的延迟。

怎么理解：MIG 像"合租公寓的独立房间"——各有各的卧室和卫生间。MPS 像"合租公寓的公共空间"——共享客厅和厨房，一人做饭另一人可能要等。

选择建议：

场景	推荐	原因
训练任务（需要强隔离）	MIG 或独占	性能波动不可接受
轻量推理（延迟不敏感）	MPS	利用率高，隔离要求低
数据预处理 + 训练混跑	MPS	预处理是 I/O 密集，GPU 利用率低，可以和训练共享
合规要求（数据不能混）	MIG	硬件级隔离满足合规

多租户管理面试问答

Q: ElasticQuota 的抢占有什么问题？怎么改进？

核心回答

ElasticQuota 的抢占是简单的优先级抢占——当 guarantee 拥有者需要资源时，驱逐借用者中优先级最低的 Pod。三个问题：

不考虑沉没成本：一个训练了 20 小时的任务和一个刚启动 5 分钟的任务，如果优先级相同，可能抢占前者。前者的进度损失远大于后者。
抢占延迟：从触发抢占到实际释放资源可能需要几分钟（优雅终止期 + checkpoint + 资源清理），在此期间 guarantee 拥有者一直在等。
级联抢占：抢占 A 的资源可能不够，还需要抢占 B 的，B 又依赖 C 释放的节点……级联效应导致调度不可预测。

改进方向

(1) 代价感知抢占：优先抢占沉没成本低的任务（运行时间短、checkpoint 新鲜）。参见调度理论模块的 checkpoint-aware preemption。(2) 预回收：基于 QAD 信号，在 QAD 接近阈值时提前触发回收，而不是等到 guarantee 拥有者来请求时才抢占。(3) 优雅终止：通知借用者"请 checkpoint 后退出"，给 5 分钟优雅期，而不是直接杀 Pod。(4) 弹性缩容：如果任务支持弹性训练，缩减 world size 而非杀掉整个任务。

面试金句

"抢占不是免费的——它有沉没成本、延迟和级联效应。好的配额系统应该让抢占尽量少发生、尽量低代价、尽量可预测。"

Q: 如何设计一个支持 10 个团队共享 200 GPU 的配额系统？

回答框架（5 步）

(1) 配额模型：选择 ElasticQuota（min/max）或 QAD 驱动。10 个团队 + 200 GPU 规模下，ElasticQuota 可以工作，但 QAD 驱动利用率更高。建议 QAD 驱动 + guarantee 保障。

(2) 保障量分配：根据团队历史使用量和业务优先级分配 guarantee。例如核心训练团队 guarantee=40，实验团队 guarantee=10。总和应 ≤ 集群总量（200），保证不超卖。

(3) 借用和回收：借用无上限（或设安全上限），回收由 QAD 驱动——任何团队 QAD < 0.95 时触发回收。回收策略用代价感知抢占。

(4) 隔离层次：Namespace 级别（ResourceQuota 兜底）+ Queue 级别（Volcano/Kueue 管理）+ 节点级别（大团队专属节点组）。

(5) 监控：实时 QAD 看板、借用/回收日志、每团队利用率趋势。

面试金句

"配额系统设计的关键不是选哪个模型，而是说清楚 guarantee 怎么定、借用怎么管、回收怎么触发、代价怎么控制。这四个问题回答清楚了，配额系统就立住了。"

Q: MIG 和 MPS 的区别？什么场景用哪个？

核心回答

维度	MIG	MPS
隔离级别	硬件（独立 SM、L2、显存带宽）	软件（共享 SM，MPS server 调度）
实例数	最多 7 个（A100）	无硬限制
性能隔离	强——一个实例不影响其他	弱——一个进程的 kernel 可能阻塞其他
故障隔离	强——一个实例故障不影响其他	弱——一个进程崩溃可能影响 MPS server
利用率	中（静态切分，可能浪费）	高（动态共享）
灵活性	低（切分比例预设，运行中不能调）	高（随时加/减共享进程）
GPU 型号	A100/H100	大部分 NVIDIA GPU

场景推荐

(1) 训练 + 训练共享 → MIG。训练任务对性能波动敏感，需要硬件隔离。(2) 推理 + 推理共享 → MPS。推理任务可以利用 MPS 的高利用率。(3) 训练 + 数据预处理 → MPS。预处理是 I/O 密集，GPU 空闲时间多，MPS 让训练利用这些空闲。(4) 合规/多租户隔离 → MIG。硬件隔离满足合规要求。

面试金句

"MIG 用硬件换隔离，MPS 用共享换利用率。选择取决于你对性能确定性的要求——训练需要确定性，推理更看重利用率。"

Q: 多租户场景下如何防止"吵闹的邻居"？

核心回答

"吵闹的邻居"（Noisy Neighbor）指同一物理资源上，一个租户的高负载影响其他租户的性能。在 GPU 集群中主要表现为：

共享节点上的 GPU 争抢：MPS 共享时，一个大 kernel 占满 SM，其他进程排队。
网络带宽争抢：训练任务的 AllReduce 占满 InfiniBand 带宽，推理任务的网络延迟飙升。
存储 I/O 争抢：checkpoint 写入占满存储带宽，其他任务的数据加载变慢。

解决策略

(1) 隔离：节点级隔离（不同租户不同节点）或 GPU 级隔离（MIG 硬件切分）。这是最彻底但最浪费资源的方案。(2) 干扰感知调度：调度器感知任务间的性能干扰，避免把"吵闹"的任务和"敏感"的任务放一起。需要性能模型来预测干扰程度。(3) 资源限流：对 GPU 使用率、网络带宽、存储 I/O 设置 cgroup 限制，防止单个租户占满共享资源。(4) 监控 + 自动迁移：检测到干扰时，自动将"受害者"迁移到其他节点。

面试金句

"吵闹邻居的本质是共享资源的争抢。解决路径从粗到细：隔离（不共享）→ 干扰感知（有选择地共享）→ 限流（共享但约束）→ 监控（出问题再处理）。"

Q: Namespace 隔离和 Queue 隔离有什么区别？什么时候用哪个？

核心回答

Namespace 隔离是 K8S 原生的"硬墙"——ResourceQuota 限制总量，超了直接拒绝。Queue 隔离是批调度框架的"弹性门"——配额不足时排队等待或借用，而不是直接拒绝。

关键区别

维度	Namespace + ResourceQuota	Queue
超配额行为	直接拒绝 Pod 创建	排队等待或借用
弹性	无（硬限制）	有（borrowing/reclaim）
公平性	无调度公平性	DRF/proportion 公平调度
Gang 支持	不支持	支持（PodGroup/Workload）
多维度资源	支持（CPU/GPU/内存各自限制）	支持（且更灵活）

什么时候用哪个

(1) 只用 Namespace：微服务场景，没有 Gang 需求，每个 Namespace 的负载相对稳定。(2) 只用 Queue：训练场景，需要 Gang + 弹性配额 + 公平调度。(3) 两者结合（推荐）：Namespace 做身份隔离和 RBAC（谁能访问什么），Queue 做资源治理和调度。Namespace 是"权限边界"，Queue 是"资源边界"。

面试金句

"Namespace 解决'谁能做什么'（权限），Queue 解决'能用多少资源'（调度）。它们不是替代关系，而是互补——Namespace 做安全边界，Queue 做弹性治理。"

关联模块

GPU 硬件与资源共享：提供 SM、HBM、NVLink、MIG/MPS、利用率诊断等底层直觉。
LLM 推理系统：提供 Prefill/Decode、KV Cache、Serving Engine 和推理优化语境。
Kubernetes 核心：提供调度、资源模型、控制器和扩展机制。
分布式训练 / 调度与集群：提供多卡通信、队列、公平性、拓扑和容错背景。

内容模块

拓扑与通信

精通★☆☆⏱ 18 min

一句话结论

GPU 不是可互换的——同样数量的卡在不同拓扑下通信性能差 3-5 倍，所以调度必须感知拓扑：TP 通信频率高必须放进同节点 NVLink，DP/PP 频率低可跨节点走 InfiniBand；NCCL 据此自动选最优通信路径，拓扑错配是 NCCL 超时和训练慢的常见根因。

复习定位

维度	内容
所属模块	GPU 集群管理
章节类型	系统类
解决问题	围绕调度框架、多租户、拓扑通信、故障容错和面试问答建立集群管理答案。
面试抓手	回答时先定范围，再讲核心链路，最后落到工程风险和面试追问。

GPU 拓扑与通信：为什么"同是 8 卡"性能可以差 3 倍？

两个训练任务都用了 8 张 A100，一个跑 AllReduce 需要 50ms，另一个需要 150ms。差异来自拓扑——8 张 GPU 在物理上怎么连接的。同一节点内 NVLink 互联的 8 卡，和跨两个节点 InfiniBand 互联的 8 卡，通信性能差 3-5 倍。

拓扑感知调度的核心洞察是：GPU 不是可互换的——同一数量的 GPU，不同拓扑下的通信性能差异巨大。调度器必须理解拓扑，把对通信敏感的任务放到拓扑更优的位置。

怎么理解：同样 8 个人开会，坐在同一张桌子旁（NVLink）和在两个会议室视频连线（InfiniBand），沟通效率完全不同。

拓扑层次详解

层级	互联	带宽	延迟	量级差异	训练通信影响
GPU 内部	SM ↔ HBM	2-4.8 TB/s	ns 级	基准	计算本身，不是瓶颈
节点内 GPU 间	NVLink / NVSwitch	300-900 GB/s	~1-5 μs	比节点间快 10-50x	TP 并行的生命线
节点内 CPU-GPU	PCIe Gen4/5	32-64 GB/s	~5-10 μs	比 NVLink 慢 10-20x	数据加载、ZeRO 参数获取
节点间	InfiniBand / RoCE	200-400 Gbps (25-50 GB/s)	~5-10 μs	比 NVLink 慢 10-20x	DP/PP 通信，可接受
机柜间	Spine 交换机	几百 Gbps	几十 μs	比节点间慢 5-10x	尽力避免跨机柜通信

NVLink vs PCIe vs InfiniBand：关键区别

NVLink：NVIDIA 专有高速互联，GPU 之间直接通信，不经过 CPU。A100 每张卡 12 条 NVLink，总带宽 600 GB/s；H100 升级到 900 GB/s。NVLink 是张量并行的必要条件——没有 NVLink，TP 的通信延迟会让 GPU 大部分时间在等数据。

NVSwitch：NVLink 的交换芯片，让节点内所有 GPU 两两直连。8 卡 A100 服务器用 6 个 NVSwitch，实现 8 卡全互联（每对 GPU 间都有 NVLink）。没有 NVSwitch，8 卡只能部分互联（有些 GPU 对走 PCIe）。

PCIe：通用总线，CPU 和 GPU 之间的标准通道。Gen4 x16 带宽 32 GB/s，Gen5 翻倍。GPU 间也可以走 PCIe（没有 NVLink 连接的 GPU 对），但带宽远低于 NVLink。

InfiniBand：节点间高速网络，HDR 200 Gbps，NDR 400 Gbps。RDMA 能力让 GPU 可以直接写入远端 GPU 显存，不经 CPU。NCCL 默认使用 InfiniBand 做跨节点通信。

怎么理解：NVLink 是"高铁"（节点内、超高速、专用轨道），PCIe 是"国道"（通用、较慢），InfiniBand 是"飞机"（跨城市、快速但有起飞延迟）。

拓扑发现：调度器怎么知道拓扑？

调度器需要知道每张 GPU 在哪个节点、和哪些 GPU 有 NVLink 连接。信息来源：

nvidia-smi topo -m：输出 GPU 拓扑矩阵，显示每对 GPU 之间的连接类型（NVLink/PCIe/SYS）。调度器可以定期采集。
NFD（Node Feature Discovery）：自动发现节点硬件特征，打标签到 Node 对象上。如 nvidia.com/gpu.topology=NVSwitch。
Device Plugin：NVIDIA device plugin 可以在 Allocate 时返回拓扑信息。但标准 device plugin 不传递拓扑，需要扩展。

集合通信原语详解

分布式训练的核心通信操作由 NCCL 实现。理解每个原语的语义，才能理解不同并行策略为什么对拓扑有不同的偏好。

1. AllReduce

操作：所有节点贡献数据，聚合（如求和）后结果广播回所有节点。

训练用途：数据并行的梯度同步。每个 worker 算完本地梯度后，AllReduce 求平均。

通信量：O(N × data_size)。Ring AllReduce 可以优化到 O(2(N-1)/N × data_size)。

拓扑敏感性：中等。AllReduce 的通信量取决于模型大小，不是拓扑结构。但拓扑决定每次 AllReduce 的完成时间——NVLink 互联的 8 卡比跨节点 8 卡快 3-5 倍。

怎么理解：8 个人各自算了一道题的部分答案，现在要把所有人的部分答案汇总，然后每个人拿到完整答案。

2. AllGather

操作：每个节点贡献自己的数据，所有节点收集所有数据。

和 AllReduce 的区别：AllReduce 先 Reduce（聚合）再广播结果，每个节点拿到的是聚合值。AllGather 不聚合，每个节点拿到的是所有节点的原始数据。

训练用途：张量并行的前向/反向传播——每个 TP rank 计算局部结果，AllGather 拼出完整结果。

拓扑敏感性：极高。AllGather 的通信量 = 所有 rank 的数据总量，比 AllReduce 大。必须走 NVLink，否则通信时间 >> 计算时间。

3. ReduceScatter

操作：先 Reduce（聚合），再 Scatter（每个节点只拿自己负责的分片）。

训练用途：ZeRO 优化器的梯度分片——ReduceScatter 后每个 rank 只保留自己负责的梯度分片，不需要完整的梯度。

通信量：比 AllReduce 少——最终每个节点只拿 data_size/N 的数据。

怎么理解：8 个人汇总答案后，每人只拿走自己负责的那部分，不需要完整答案。

4. Broadcast

操作：一个节点（root）把数据广播给所有节点。

训练用途：参数初始化（rank 0 广播初始权重）、模型同步。

通信量：O(N × data_size)。但只需一个方向（root → others），比 AllReduce 少一半。

5. P2P Send/Recv

操作：点对点传输，一个节点发送，一个节点接收。

训练用途：流水线并行的 stage 间传递——stage 0 算完把中间激活发给 stage 1。

拓扑敏感性：低。每次只传一对，带宽需求小。跨节点走 InfiniBand 可以接受。

怎么理解：流水线上游把半成品递给下游，只有相邻两个 stage 在交互。

6. All-to-All

操作：每个节点向所有其他节点发送不同的数据，同时从所有其他节点接收不同的数据。

训练用途：MoE 模型的专家并行——token 被路由到不同专家所在的 GPU。

拓扑敏感性：极高。通信量 O(N² × data_size/N)，所有节点对之间都有数据传输，对网络 bisection bandwidth 要求极高。

并行策略的拓扑偏好

不同并行策略对通信的要求不同，这直接决定了调度时应该把任务放在什么拓扑位置：

策略	通信原语	通信频率	单次通信量	拓扑偏好	为什么
数据并行（DP）	AllReduce	每步 1 次	模型参数量 × 2	节点间即可	每步才同步一次，InfiniBand 带宽够用
张量并行（TP）	AllGather + ReduceScatter	每层前向+反向各 2 次	层参数量 × 2	必须同节点（NVLink）	每层都通信，频率极高，NVLink 是硬需求
流水线并行（PP）	P2P Send/Recv	每 micro-batch 1 次	激活值大小	可跨节点	点对点通信，量不大，InfiniBand 可接受
专家并行（EP）	All-to-All	每层 1 次	token 数 × hidden_dim	NVLink + 高带宽网络	All-to-All 需要全网带宽，拓扑要求最苛刻
ZeRO-3	AllGather + ReduceScatter	每层前向+反向各 1 次	参数分片量	节点间即可（DP 变体）	本质是 DP 的内存优化，通信模式类似

关键洞察：TP 必须同节点

这是面试中最高频的拓扑问题。为什么 TP 必须放在同一 NVLink 节点内？

数学推导：假设训练 GPT-3（175B 参数，96 层）。TP=8，每层 AllGather 通信量 ≈ 175B × 2 bytes / 8 ≈ 43.75 GB。前向 + 反向 = 4 次/层，96 层共 384 次 AllGather。

NVLink（600 GB/s）：43.75 GB / 600 GB/s ≈ 73ms/次。384 次 ≈ 28s/step。
InfiniBand（50 GB/s）：43.75 GB / 50 GB/s ≈ 875ms/次。384 次 ≈ 336s/step。

NVLink 下通信占训练时间的约 30%（可接受）。InfiniBand 下通信占训练时间的 90%+（不可接受——GPU 90% 时间在等数据）。所以 TP 必须 NVLink。

3D 并行拓扑布局实战

大模型训练通常组合 DP + TP + PP。以 64 GPU 训练 175B 模型为例：

TP = 8：节点内 8 卡 NVLink 互联，通信量最大但带宽最高
PP = 4：跨 4 个节点做流水线，P2P 通信量小
DP = 2：两组流水线做数据并行，AllReduce 同步梯度

物理布局：

节点 0: [TP group 0] ← NVLink → GPU 0-7
节点 1: [TP group 1] ← NVLink → GPU 8-15
节点 2: [TP group 2] ← NVLink → GPU 16-23
节点 3: [TP group 3] ← NVLink → GPU 24-31
节点 4: [TP group 4] ← NVLink → GPU 32-39
节点 5: [TP group 5] ← NVLink → GPU 40-47
节点 6: [TP group 6] ← NVLink → GPU 48-55
节点 7: [TP group 7] ← NVLink → GPU 56-63

Pipeline 0: 节点 0 → 节点 1 → 节点 2 → 节点 3  (PP=4, P2P over IB)
Pipeline 1: 节点 4 → 节点 5 → 节点 6 → 节点 7  (PP=4, P2P over IB)

DP group 0: Pipeline 0 和 Pipeline 1 之间 AllReduce 梯度 (DP=2, over IB)

调度器的任务：确保 TP group 分配在同一节点，PP stage 尽量在同一机柜（减少 InfiniBand 跳数），DP group 可以跨机柜。

怎么理解：像一个大型工程项目。8 个密切协作的工程师坐同一办公室（TP，高频沟通），4 个办公室依次传递半成品（PP，低频但有序），两组流水线定期同步进度（DP，频率最低）。

NCCL：拓扑感知通信引擎

NCCL（NVIDIA Collective Communication Library）是分布式训练通信的底层引擎。它自动根据 GPU 拓扑选择最优通信路径。

NCCL 通道选择逻辑

NCCL 检测 GPU 之间的所有可用路径，构建拓扑图，然后为每次集合通信选择最优通道：

节点内：优先 NVLink → 次选 PCIe → 最后 SYS（跨 NUMA）
节点间：优先 InfiniBand → 次选 RoCE → 最后 Socket
混合：NVLink 用于节点内 reduce，InfiniBand 用于节点间 scatter/gather

NCCL_TOPO_FILE：NCCL 读取拓扑文件来决定通道。调度器可以通过设置这个环境变量来影响 NCCL 的路径选择——例如告诉 NCCL "这些 GPU 在同一个机柜内，可以用更激进的树形算法"。

Ring AllReduce 的拓扑依赖

Ring AllReduce 是 NCCL 最常用的 AllReduce 算法。它把所有 GPU 排成一个逻辑环，数据在环上分步传递。

拓扑要求：环上相邻 GPU 之间需要高带宽。如果环跨越了低带宽链路（如 PCIe 替代 NVLink），该链路成为瓶颈——环的速度取决于最慢的那一跳。

NCCL 的优化：NCCL 会构建多个环，避免所有数据走同一条路径。在 8 卡 NVSwitch 服务器中，NCCL 通常构建 4 个环，充分利用 NVLink 的带宽。

NCCL 超时：最常见的训练故障

现象：训练卡住，日志显示 NCCL error: timeout。

原因：某个 rank 没有按时到达同步点。可能原因：(1) Gang 不完整——某个 worker 没启动成功；(2) 网络分区——某个节点网络断了；(3) GPU 挂了——ECC 错误导致 GPU 不可用但没被检测到；(4) 负载不均——某个 rank 的计算量特别大，其他 rank 等待超时。

调度层面的解决：(1) Gang scheduling 确保所有 worker 同时启动；(2) 拓扑感知调度确保所有 worker 在合理拓扑内；(3) 健康检查——调度前确认节点和 GPU 健康；(4) NCCL 超时时间设置——太短导致误报，太长导致故障发现慢。

拓扑与通信面试问答

Q: 为什么 TP 必须在同一节点？可以用 InfiniBand 替代 NVLink 吗？

核心回答

不行。TP 的通信频率是"每层每步 4 次"（前向 AllGather + ReduceScatter，反向 AllGather + ReduceScatter），96 层模型一步就有 384 次集合通信。NVLink（600 GB/s）下单次 AllGather 约 73ms，InfiniBand（50 GB/s）下约 875ms——慢 12 倍。384 次累积下来，InfiniBand 下训练一步的通信时间占 90%+，GPU 基本在等数据。

为什么 DP 可以跨节点

DP 每步只做 1 次 AllReduce，通信频率低一个量级。即使 InfiniBand 慢一些，通过 gradient accumulation + 通信-计算重叠，可以把通信时间隐藏在计算时间内。

面试金句

"TP 和 DP 的本质区别是通信频率——TP 每层都要通信，DP 每步才通信一次。频率差两个量级，所以 TP 需要高一个量级的带宽。"

Q: 调度器怎么做拓扑感知？有哪些实现路径？

核心回答

五条实现路径，从简到复杂：

Node Label：给节点打标签（如 topology=nvswitch），Pod 通过 nodeSelector 选择。最简单，但粒度粗（只区分节点类型，不知道具体 GPU 拓扑）。
NFD + NodeFeature：NFD 自动发现硬件特征（GPU 数量、NVLink 拓扑、InfiniBand 卡数），写入 Node 对象。调度器根据这些特征打分。比手动标签更准确，但 NFD 不感知 GPU 间的具体拓扑。
Device Plugin 扩展：扩展 NVIDIA device plugin，在 Allocate 时返回 GPU 拓扑信息（哪些 GPU 有 NVLink 连接）。调度器据此做拓扑感知的分配。但 device plugin 的 Allocate 回调在调度决策之后，无法影响初始调度。
Scheduler Plugin：写自定义的 Scheduling Framework 插件，在 Score 阶段根据拓扑信息给节点打分。例如"Pod 请求 4 GPU，这个节点有 4 张 NVLink 互联的 GPU → 高分"。控制力最强，但开发复杂。
DRA（Dynamic Resource Allocation）：K8S 1.26+ 引入的新机制，通过 ResourceSlice 表达拓扑。调度器选择 ResourceSlice，驱动程序（driver）根据拓扑做精确分配。这是最优雅的方案，但还处于 Alpha/Beta 阶段。

推荐路径

短期用 Node Label + NFD（够用，低风险），中期上 Scheduler Plugin（更精细），长期迁移到 DRA（K8S 原生支持，标准路径）。

面试金句

"拓扑感知的实现路径不是一蹴而就的——从 Node Label 到 NFD 到 Scheduler Plugin 到 DRA，逐步演进。关键是当前阶段选择够用的方案，不追求一步到位。"

Q: NCCL 通信卡住（超时）怎么排查？

核心回答

NCCL 超时的排查按"从上到下"的顺序：

检查 Gang 完整性：是不是所有 worker 都启动了？kubectl get pods 看 Pending 的 Pod。如果一个 worker 没启动，其他 worker 会永远等在 NCCL init。
检查网络连通性：nccl-test 或 ibv_devinfo 检查 InfiniBand 是否正常。ping 检查节点间网络。网络分区是 NCCL 超时的常见原因。
检查 GPU 健康：nvidia-smi 检查 GPU 是否正常。ECC 错误、温度过高都可能导致 GPU 无响应。
检查 NCCL 配置：NCCL_DEBUG=INFO 查看详细日志。常见的配置问题：NCCL_SOCKET_IFNAME 设错（用了管理网络而非高速网络）、NCCL_IB_DISABLE=1 没开 IB。
检查负载不均：某个 rank 处理的数据量特别大（数据倾斜），其他 rank 等待超时。检查数据分片策略。

调度层面的预防

(1) Gang scheduling 防止部分启动；(2) 拓扑感知调度确保合理拓扑；(3) 节点健康检查在调度前排除故障节点；(4) 合理设置 NCCL_COMM_BLOCKING 和超时时间。

面试金句

"NCCL 超时 80% 的原因是 Gang 不完整或网络问题，不是 NCCL 本身的 bug。先查 Pod 状态和网络，再看 NCCL 日志。"

Q: Ring AllReduce 和 Tree AllReduce 有什么区别？各适合什么场景？

核心回答

维度	Ring AllReduce	Tree AllReduce
算法	GPU 排成环，数据分步沿环传递	GPU 排成树，先向上 reduce 再向下 broadcast
通信步数	2(N-1) 步（N = GPU 数）	2log(N) 步
每步通信量	data_size / N（均匀分片）	取决于树层级，根节点通信量最大
带宽利用	均匀——每个 GPU 发送接收量相同	不均匀——根节点是瓶颈
延迟	O(N)——步数线性增长	O(log N)——步数对数增长

适用场景

(1) 小规模 + 高带宽（节点内 8 卡 NVLink）→ Ring AllReduce。延迟 O(N) 但 N=8 很小，带宽利用均匀。(2) 大规模 + 节点间（64+ GPU 跨节点）→ Tree AllReduce 或 Ring + Tree 混合。延迟 O(log N) 在大规模下优势明显。(3) NCCL 的实际做法：节点内用 Ring，节点间用 Tree（或 CollNet，如果交换机支持）。混合策略兼顾延迟和带宽。

面试金句

"Ring 和 Tree 不是非此即彼——Ring 带宽均匀但延迟线性，Tree 延迟对数但根节点瓶颈。实际系统都是混合使用：节点内 Ring，节点间 Tree。"

关联模块

GPU 硬件与资源共享：提供 SM、HBM、NVLink、MIG/MPS、利用率诊断等底层直觉。
LLM 推理系统：提供 Prefill/Decode、KV Cache、Serving Engine 和推理优化语境。
Kubernetes 核心：提供调度、资源模型、控制器和扩展机制。
分布式训练 / 调度与集群：提供多卡通信、队列、公平性、拓扑和容错背景。

内容模块

故障与弹性

精通★☆☆⏱ 18 min

一句话结论

GPU 集群规模越大故障越频繁（1024 卡 MTBF 仅约 42 分钟），所以容错的目标不是防故障而是降 MTTR：靠 DCGM/Prometheus 秒级检测，靠 Checkpoint（最优频率 T*=√(2FC)）兜底进度，靠 PyTorch Elastic 弹性缩容快速恢复，小故障弹性续跑、大故障 Checkpoint 重启。

复习定位

维度	内容
所属模块	GPU 集群管理
章节类型	系统类
解决问题	围绕调度框架、多租户、拓扑通信、故障容错和面试问答建立集群管理答案。
面试抓手	回答时先定范围，再讲核心链路，最后落到工程风险和面试追问。

故障与弹性

故障类型详解

GPU 集群故障远比 CPU 集群频繁——一块 A100 的 MTBF 约 24 个月，一个 1024 卡集群的平均无故障时间仅约 24 小时。理解每种故障的特征是设计容错体系的前提。

1. GPU ECC 错误

维度	说明
频率	单卡约每月 1-2 次（可纠正）；不可纠正约每 3-6 个月一次
现象	可纠正：DCGM 报 `ECC_SBE` 警告，训练继续但性能微降；不可纠正：CUDA 报 `uncorrectable ECC error`，进程崩溃
影响	单卡故障 → 整个训练 Job 挂起（Gang Scheduling 约束）
检测	`nvidia-smi -q -d ECC`；DCGM `dcgmi diag -r 3`；Prometheus `DCGM_FI_DEV_ECC_SBE_VOLATILE` 指标
响应	可纠正：标记降级，继续运行；不可纠正：驱逐 Pod，触发重调度

> 类比理解：ECC 就像内存的"自动纠错笔"——单比特翻转它能自己修正（可纠正），但如果一次翻转太多比特，就修不过来了（不可纠正），只能放弃这张卡。

2. NVLink 降级

维度	说明
频率	较低，约每 2-3 个月一次（通常由温度/物理连接问题引起）
现象	NVLink 从 600 GB/s 降到 300 GB/s 或完全断开；`nvidia-smi nvlink -s` 显示链路状态变化
影响	TP 通信延迟翻倍 → 整体训练吞吐下降 20-40%；Ring AllReduce 性能急剧下降
检测	`nvidia-smi nvlink -s`；DCGM `NVLink` 错误计数器；训练中观察到通信时间异常增长
响应	降低并行度（如 TP=8 降到 TP=4），或将该节点从 TP 组中排除

> 类比理解：NVLink 降级就像高速公路突然从 8 车道变成 4 车道——车（数据）还能走，但通行时间翻倍。

3. 节点故障

维度	说明
频率	约 1-2 次/月/节点（包括 kernel panic、内存故障、电源问题等）
现象	节点 NotReady；所有 GPU Pod 进入 `Unknown` 或 `Terminating` 状态
影响	所有运行在该节点上的训练 Job 中断；如果是 DP 组中的节点，整个 Job 需要重启
检测	kubelet 心跳超时；Node Problem Detector；DCGM `dcgmi diag` 节点级诊断
响应	标记节点 `unschedulable`；重建 Pod；如果支持弹性训练则缩容继续

4. 网络分区

维度	说明
频率	约 1 次/1-2 月（交换机故障、光模块损坏、配置错误等）
现象	部分节点间 RDMA 连接断开；NCCL 超时 `ncclTimeout`；etcd 选举超时
影响	集群分裂为多个分区；跨分区的 AllReduce 无法完成；可能导致脑裂
检测	NCCL 超时日志；InfiniBand `ibqueryerrors`；etcd 延迟飙升
响应	缩小训练规模到同一分区内；或者等待网络恢复后重建 Job

5. OOM（显存溢出）

维度	说明
频率	训练阶段较高，尤其在模型参数、batch size 变更时
现象	CUDA `out of memory`；进程被 OOM Killer 杀掉；容器被驱逐
影响	单卡 OOM → 整个训练 Job 失败（Gang 约束）
检测	`nvidia-smi` 显存使用率接近 100%；cgroup OOM 事件；PyTorch `CUDA out of memory` 异常
响应	减小 batch size / 启用 gradient checkpointing / 增加 ZeRO 分片级别 / 扩容 GPU 数量

故障响应体系

检测 → 定位 → 恢复

阶段	方法	工具	时延
检测	指标异常 + 心跳超时 + 诊断测试	DCGM + Prometheus + NPD	秒级 ~ 分钟级
定位	逐层排查：GPU → NVLink → 节点 → 网络	`dcgmi diag` + `ibqueryerrors` + `kubectl describe`	分钟级
恢复	重启 / 重调度 / 缩容 / 从 Checkpoint 恢复	Volcano/Kueue + PyTorch Elastic + Checkpoint	分钟级 ~ 小时级

检测工具栈

┌─────────────────────────────────────────────┐
│              Grafana Dashboard               │
│          (可视化告警 & 历史趋势)              │
└──────────────────┬──────────────────────────┘
                   │
┌──────────────────▼──────────────────────────┐
│              Prometheus                       │
│     (指标采集 + 告警规则 + 数据存储)          │
└──────────────────┬──────────────────────────┘
                   │
┌──────────────────▼──────────────────────────┐
│         DCGM Exporter                        │
│    (GPU 指标: 温度/ECC/显存/利用率/NVLink)    │
└──────────────────┬──────────────────────────┘
                   │
┌──────────────────▼──────────────────────────┐
│            DCGM (Data Center GPU Mgmt)       │
│        (底层 GPU 状态采集 + 诊断)             │
└─────────────────────────────────────────────┘

关键指标列表：

指标	含义	告警阈值
`DCGM_FI_DEV_GPU_TEMP`	GPU 温度	> 85°C
`DCGM_FI_DEV_ECC_DBE_VOLATILE`	不可纠正 ECC 错误数	> 0
`DCGM_FI_DEV_FB_USED` / `FB_TOTAL`	显存使用率	> 95%
`DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT`	NVLink CRC 错误	持续增长
`DCGM_FI_DEV_GPU_UTIL`	GPU 利用率	< 10%（可能卡死）
`DCGM_FI_DEV_POWER_USAGE`	功耗	异常低（可能挂起）

Checkpoint 策略

Checkpoint 是 GPU 训练容错的基石——没有 Checkpoint，一次故障就可能浪费数天的训练时间。

1. 周期性 Checkpoint（Periodic）

原理：每隔 N 步或 N 分钟保存一次完整的模型状态。

实现：

# PyTorch 示例
for step, batch in enumerate(dataloader):
    loss = model(batch)
    loss.backward()
    optimizer.step()

    if step % checkpoint_interval == 0:
        torch.save({
            'step': step,
            'model_state_dict': model.state_dict(),
            'optimizer_state_dict': optimizer.state_dict(),
        }, f"checkpoint_{step}.pt")

优点：实现简单，所有框架原生支持缺点：保存期间训练暂停（大模型 Checkpoint 可能耗时 10-30 分钟）；存储开销大

> 手动推演：假设 175B 参数模型，FP16 存储： > - 模型参数：175B × 2B = 350 GB > - 优化器状态（Adam）：175B × (2+4+4)B = 1.75 TB（含 momentum + variance） > - 单次 Checkpoint 约 2.1 TB，每次保存需 10-20 分钟 > - 如果每 1000 步保存一次，训练有效利用率降低约 2-5%

2. 异步 Checkpoint（Async）

原理：将模型状态拷贝到共享内存后立即恢复训练，由后台线程负责持久化到存储。

流程：

训练进程 ──copy──→ 共享内存 ──background──→ 持久存储
   │                                         │
   └── 立即恢复训练 ←──────────不等待──────────┘

优点：训练暂停时间极短（通常 < 1 秒）缺点：需要额外内存（2 倍模型状态）；共享内存拷贝仍然有 CPU 开销；极端情况下可能丢失最后几个 step 的数据

3. 增量 Checkpoint（Incremental）

原理：只保存与上次 Checkpoint 相比发生变化的部分（通常是优化器状态的增量）。

优点：存储和 I/O 开销大幅降低（增量通常只有全量的 5-20%）缺点：恢复时需要回放所有增量，恢复链越长越慢；需要管理 Checkpoint 版本链

4. 分布式 Checkpoint（Distributed）

原理：每个 Rank 只保存自己负责的分片，恢复时各 Rank 读取自己的分片即可。适用于 ZeRO 或 TP 分片场景。

优点：每个节点只写一小部分数据，I/O 并行化，保存速度快缺点：恢复时必须保证 Rank 映射不变（或支持重映射）；需要元数据协调

> 为什么大模型必须用分布式 Checkpoint？ > 以 175B + ZeRO-3 为例，每张 GPU 只存 1/N 的参数。如果每张卡独立保存自己的分片，单卡 I/O 仅约 350GB/N。假设 N=1024，每卡仅 ~350 MB，保存时间从分钟级降到秒级。

Checkpoint 策略选择

维度	周期性	异步	增量	分布式
实现复杂度	★☆☆	★★☆	★★★	★★☆
训练暂停	10-30 min	< 1s	< 5 min	< 1 min
存储开销	全量	全量×2	增量	全量/N
恢复速度	快（单文件）	快	慢（回放增量）	中等（需协调）
适用规模	小模型	中大模型	大模型	超大模型
生产推荐	小型实验	通用	配合分布式	配合 ZeRO

> 实践建议：生产环境通常组合使用——异步 + 分布式 + 定期全量（作为增量基线）。

Checkpoint 频率的数学推导

核心问题：多久保存一次 Checkpoint 最优？

建模：

C = 单次 Checkpoint 的开销（保存时间）
F = 平均故障间隔（MTBF）
t = 每步训练时间
T = 两次 Checkpoint 之间的训练时间

推导：

- C/T：Checkpoint 的稳态开销 - T/(2F)：故障导致的平均进度丢失

每次 Checkpoint 浪费 C 的时间
故障发生时，平均丢失 T/2 的训练进度
单位时间的总浪费 = (C/T) + (T/(2F))

`` d/dT [C/T + T/(2F)] = -C/T² + 1/(2F) = 0 T² = 2FC T* = √(2 × F × C) ``

对 T 求导令其为零：

手动验证：

F = 24 小时，C = 15 分钟
T* = √(2 × 24 × 15) = √720 ≈ 26.8 分钟
即约每 27 分钟保存一次 Checkpoint 最优
对应步数：如果每步 2 秒，则约每 800 步保存一次

> 面试金句：「Checkpoint 频率的最优解是 T* = √(2FC)，本质上是在 Checkpoint 固定开销和故障导致的进度丢失之间找平衡点。」

弹性训练

PyTorch Elastic / torchrun

核心思想：允许训练过程中动态改变 world_size（GPU 数量），故障时自动缩容继续训练，新节点加入时自动扩容。

关键组件：

组件	作用	说明
Rendezvous	分布式协调	保证所有 Worker 就同一 epoch 的 world_size 达成一致
StateDict	状态同步	每个 Rank 保存自己的状态，Rendezvous 后按新 world_size 重新分配
Watchdog	故障检测	监控心跳，发现 Worker 失败后触发 Rendezvous 重新协商

Rendezvous 流程（手动推演）：

初始: 8 GPU (world_size=8), Rank 0-7

Step 1: Rank 3 故障
  └── Watchdog 检测到 Rank 3 心跳超时

Step 2: 触发 Rendezvous
  ├── 存活 Rank [0,1,2,4,5,6,7] 进入 Rendezvous
  ├── 等待 min_nodes=6（最少需要 6 个节点才能继续）
  └── 新 world_size = 7

Step 3: 状态重分配
  ├── 从最近 Checkpoint 恢复模型状态
  ├── 数据集按 7 份重新分片
  └── 优化器状态重新分配（ZeRO 场景）

Step 4: 继续训练
  └── 从 Checkpoint 对应的 step 继续训练

torchrun 启动示例：

torchrun \
  --nnodes=4:8 \        # 最少 4 节点，最多 8 节点
  --nproc_per_node=8 \  # 每节点 8 GPU
  --rdzv_id=job-001 \   # Rendezvous ID
  --rdzv_backend=c10d \ # 协调后端
  --rdzv_endpoint=master:29500 \ # 协调地址
  train.py

关键参数解释：

nnodes=4:8：弹性范围，最少 4 节点才能启动/继续，最多接受 8 节点
rdzv_id：同一训练 Job 的所有 Worker 必须使用相同的 ID
rdzv_backend：c10d（内置 TCP）、etcd（生产推荐，支持持久化）

弹性 vs 非弹性对比

维度	非弹性训练	弹性训练
故障响应	整个 Job 失败，从最近 Checkpoint 重启	自动缩容，继续训练
恢复时间	分钟级（重调度 + 重启 + 恢复）	秒级（Rendezvous + 恢复）
GPU 利用率	故障期间 GPU 空闲	故障节点排除，其余继续
实现复杂度	低	高（需要处理 Rank 重映射、数据重分片）
训练一致性	确定性（相同 world_size）	弱确定性（world_size 变化影响 BatchNorm 等）
框架支持	所有框架	PyTorch Elastic、DeepSpeed 等
调度器要求	普通 Gang Scheduling 即可	需要支持弹性配额和动态扩缩

弹性训练的局限

BatchNorm 兼容性：world_size 变化导致 global batch size 变化，BN 统计量不一致 → 需使用 SyncBN 或改用 LayerNorm
学习率调整：线性缩放规则 lr = base_lr × batch_size / 256，batch size 变化时需要相应调整学习率
数据分片：需要可重新分片的数据加载器（如 DistributedSampler 的 drop_last=False）
ZeRO 重分片：优化器状态需要按新的 world_size 重新分片，实现复杂
调度器配合：需要调度器支持弹性配额（如 ElasticQuota），否则缩容后的资源可能被抢占

> 面试金句：「弹性训练的核心挑战不是技术实现，而是 world_size 变化带来的语义一致性——BatchNorm、学习率、梯度累积步数都需要适配。」

面试问答

Q1: 一个 1024 卡的 GPU 集群，故障率大约是什么量级？你会怎么设计高可用？

核心回答：

单卡 MTBF 约 24 个月，1024 卡集群的 MTBF ≈ 24/1024 月 ≈ 42 分钟。这意味着训练过程中几乎必然会遇到故障。

高可用设计层次：

检测层：DCGM + Prometheus + NPD，秒级发现异常
容错层：异步分布式 Checkpoint，频率按 T* = √(2FC) 计算
恢复层：弹性训练（PyTorch Elastic），自动缩容继续
隔离层：故障节点自动标记 unschedulable，防止新 Pod 调度上去
预防层：定期 dcgmi diag 体检，提前发现 ECC 错误趋势和温度异常

为什么这样设计：高可用的核心不是"不故障"（不可能），而是"故障后快速恢复"。关键指标是 MTTR（平均恢复时间），而非 MTBF。

面试金句：「1024 卡集群的 MTBF 约 42 分钟，所以高可用的核心不是防故障，而是降 MTTR——检测快、Checkpoint 密、弹性恢复。」

---

Q2: Checkpoint 的最优保存频率怎么算？实际中你怎么定？

核心回答：

理论最优频率 T* = √(2 × F × C)，其中 F 是 MTBF，C 是单次 Checkpoint 耗时。

手动推演：

假设 F = 24h（256 卡集群），C = 10min（异步分布式 Checkpoint）
T* = √(2 × 1440 × 10) = √28800 ≈ 170 min ≈ 2.8 小时

实际调整：

不能比理论值更频繁：否则 Checkpoint 开销占比过高
可以比理论值稍稀疏：如果训练对断点丢失容忍度低（如预训练），宁可多保存
关键节点必保存：epoch 边界、学习率衰减点、验证指标最佳点
生产实践：通常按步数（如每 1000 步）保存，按时间（如每 2 小时）做全量 Checkpoint

为什么这样设计：T* 是数学最优解，但实际还需考虑存储成本、I/O 瓶颈、业务容忍度。

面试金句：「Checkpoint 频率本质是 Checkpoint 开销和故障损失的帕累托最优——T* = √(2FC) 是数学最优，实际中还需叠加业务约束。」

---

Q3: 弹性训练和 Checkpoint 恢复各自的适用场景？

核心回答：

维度	弹性训练	Checkpoint 恢复
故障规模	少量节点故障（1-2 节点）	大规模故障（半数以上节点）
恢复速度	秒级 ~ 分钟级	分钟级 ~ 十分钟级
GPU 利用率	高（剩余 GPU 继续训练）	低（所有 GPU 等待重启）
实现复杂度	高	低
训练一致性	弱确定性	强确定性

选择原则：

少量节点故障 → 弹性训练（缩容继续，不浪费剩余 GPU）
大规模故障 / 网络分区 → Checkpoint 恢复（等环境恢复后统一重启）
预训练（容忍弱一致性） → 优先弹性训练
精调 / 对齐（需要强一致性） → 优先 Checkpoint 恢复

为什么这样设计：弹性训练的"弱确定性"对大规模预训练几乎无影响（数据量大，几个 batch 的 BN 偏差可忽略），但对精调和小数据集可能显著影响收敛。

面试金句：「弹性训练和 Checkpoint 恢复不是互斥的，而是互补的——小故障弹性恢复，大故障 Checkpoint 兜底。」

---

Q4: 设计一个 GPU 集群的故障自动恢复系统

核心回答：

┌─────────────────────────────────────────────────────┐
│                   故障自动恢复系统                      │
├────────────┬────────────┬────────────┬──────────────┤
│  检测层     │  决策层     │  执行层     │  验证层      │
│            │            │            │             │
│ DCGM指标   │ 故障分类器  │ 节点隔离    │ 恢复验证     │
│ 心跳监控   │ 恢复策略    │ Pod 驱逐    │ 训练一致性   │
│ NCCL超时   │ 优先级排序  │ 弹性缩容    │ 指标回归     │
│ NPD事件    │ 并发控制    │ Checkpoint  │ 健康检查     │
│            │            │   恢复      │             │
└────────────┴────────────┴────────────┴──────────────┘

决策逻辑：

单卡故障 → 弹性缩容（排除故障卡，继续训练）
节点级故障 → 弹性缩容 + 新节点调度（如果有空闲节点）
网络分区 → 缩小训练规模到同一分区内
大规模故障（> 50% 节点） → 暂停训练，等待恢复后 Checkpoint 重启

关键设计决策：

故障分级：不是所有故障都需要同样的响应——ECC 可纠正错误只需记录，不可纠正才需要驱逐
恢复优先级：小任务优先恢复（恢复快，影响面小），大任务可以排队等资源
防抖动：故障确认需要连续 N 次检测失败（防止网络抖动导致误判）
人工兜底：连续故障超过阈值时，自动通知运维介入

面试金句：「故障恢复系统的核心不是技术复杂度，而是决策逻辑——什么故障用什么策略，什么规模走什么流程，需要有清晰的分级响应机制。」

---

Q5: 如何监控一个 GPU 集群？你会关注哪些指标？

核心回答：

三层监控体系：

层次	关注指标	工具
基础设施层	GPU 温度/ECC/功耗、NVLink 状态、InfiniBand 误码率、节点 CPU/内存/磁盘	DCGM Exporter + Node Exporter + IB Exporter
训练层	GPU 利用率、显存使用率、训练吞吐（samples/s）、损失曲线、通信占比	PyTorch Profiler + WandB + 自定义 Metric
调度层	队列等待时间、资源利用率、Pending Pod 数、抢占次数	Volcano/Kueue Metrics + Kubernetes Metrics

关键告警规则：

GPU 温度 > 85°C → 可能散热故障
ECC 不可纠正错误 > 0 → 需要驱逐该 GPU
GPU 利用率 < 10% 且持续 5 分钟 → 可能卡死或通信死锁
NVLink CRC 错误持续增长 → 物理链路问题
Pending Pod > 阈值 → 资源不足或调度策略问题
训练 Loss NaN → 学习率过大或数据问题

为什么这样设计：三层监控覆盖从硬件到业务的全链路——基础设施层发现物理故障，训练层发现性能异常，调度层发现资源瓶颈。

面试金句：「GPU 监控的核心不是指标多，而是三层联动——硬件异常要能追溯到训练影响，训练瓶颈要能定位到硬件根因。」

关联模块

GPU 硬件与资源共享：提供 SM、HBM、NVLink、MIG/MPS、利用率诊断等底层直觉。
LLM 推理系统：提供 Prefill/Decode、KV Cache、Serving Engine 和推理优化语境。
Kubernetes 核心：提供调度、资源模型、控制器和扩展机制。
分布式训练 / 调度与集群：提供多卡通信、队列、公平性、拓扑和容错背景。

内容模块

面试问答

精通★★☆⏱ 15 min

一句话结论

GPU 集群管理面试题可归到一条主线：K8S 默认调度器无 Gang、无公平、无拓扑，需在 Scheduling Framework 上扩展，靠 Gang + Backfill、弹性配额、拓扑感知（TP 锁 NVLink）和 Checkpoint/弹性恢复，把刚性、强拓扑、Gang 聚合、抢占代价重的 GPU 资源从 30-40% 利用率拉到 70%+。

复习定位

维度	内容
所属模块	GPU 集群管理
章节类型	排障诊断类
解决问题	围绕调度框架、多租户、拓扑通信、故障容错和面试问答建立集群管理答案。
面试抓手	回答时先定范围，再讲核心链路，最后落到工程风险和面试追问。

面试问答

调度框架方向

Q1: K8S 默认调度器为什么不适合 GPU 训练调度？如果要改造，你会怎么做？

核心回答：

K8S 默认调度器的三大不足：

无 Gang Scheduling：默认调度器逐 Pod 调度，如果 8 卡 Job 只调度了 7 个 Pod，第 8 个因资源不足 pending，则前 7 个占着资源却无法训练，造成资源浪费（"资源碎片化"问题）
无队列/公平性：默认调度器只有 PriorityClass，没有 Queue 级别的公平性保证。大量小 Job 可以饿死大 Job，反之亦然
无拓扑感知：默认调度器不知道 GPU 之间的 NVLink 拓扑关系，可能把 TP 组的 Pod 调度到 NVLink 不连通的节点上，导致通信性能下降 10 倍

改造路径：

方案	改动量	效果	推荐度
Scheduling Framework 扩展插件（如 Volcano）	中	解决 Gang + 公平性	★★★
独立调度层（如 Kueue）	低	解决排队 + 配额，不改 K8S 调度器	★★★
自研调度器替换 kube-scheduler	高	完全控制	★☆☆（维护成本太高）

为什么这样设计：改造的核心原则是"最小侵入"——尽量在 K8S 已有框架上扩展，而不是替换。Scheduling Framework 的插件机制正好提供了这个能力。

面试金句：「K8S 默认调度器对 GPU 训练的三大硬伤：无 Gang、无公平、无拓扑。改造思路是在 Scheduling Framework 上做扩展，而不是替换调度器。」

---

Q2: Volcano 的 Gang Scheduling 是怎么实现的？有什么缺陷？

核心回答：

实现机制：

用户创建 PodGroup CRD，声明 minMember（最少需要同时运行的 Pod 数量）
Volcano 的 gang 插件在 PreFilter 阶段检查：如果当前可调度资源不足以满足 minMember，则整个 PodGroup 的所有 Pod 都不调度
调度成功后，如果部分 Pod 失败导致运行中的 Pod 数 < minMember，则杀死所有 Pod（保证 All-or-Nothing 语义）

关键代码路径：

PodGroup CRD (minMember=8)
    ↓
gang 插件 PreFilter: 可调度 Pod 数 >= minMember?
    ├── Yes → 正常调度所有 Pod
    └── No  → 所有 Pod 状态设为 Unschedulable，等待资源释放

缺陷：

资源浪费：等待期间所有 Pod 占着资源不动（"占坑不拉屎"问题）
死锁可能：两个 Gang Job 各占部分资源，都等对方释放 → 死锁
无弹性：minMember 是固定的，不能根据当前资源动态调整
粗粒度：只有全部调度或全部不调度，没有部分调度 + 排队的中间态

改进方案：

Coscheduling：用队列替代 Gang，Job 进入队列排队，资源足够时一次性调度
Elastic Gang：minMember 支持范围（如 min=4, max=8），根据资源弹性调度
Backfill：小 Job 填充 Gang 等待期间的空闲资源

面试金句：「Gang Scheduling 的核心矛盾是 All-or-Nothing 语义和资源利用率之间的博弈——解决思路是弹性 Gang + Backfill 填充。」

---

多租户方向

Q3: GPU 集群的资源利用率通常只有 30-40%，你会怎么优化？

核心回答：

GPU 利用率低的根因是碎片化——大量的资源被占而不用或低效使用。优化从四个维度入手：

1. 调度维度（贡献最大，可提升 20-30%）：

Gang + Backfill：大 Job Gang 等待期间，Backfill 小 Job 填充碎片
拓扑感知：减少跨节点 TP，提升通信效率 → 提升有效计算时间占比
优先级 + 抢占：低优先级 Job 被抢占后释放资源给高优先级 Job

2. 多租户维度（可提升 10-20%）：

ElasticQuota：空闲配额自动共享，避免"我的配额我用不完，你的配额你不够用"
分时复用：训练（夜间批处理）和推理（白天在线）分时共享 GPU

3. 共享维度（可提升 10-15%）：

MIG：大卡切小卡，推理/小模型训练复用同一张 GPU
MPS：多进程共享 GPU，适合推理场景
时间片：GPU 时间片调度（如 Run:ai），适合轻量级任务

4. 业务维度（可提升 5-10%）：

自动 Batch Size 调优：避免显存浪费
自动混合精度：FP16 训练，减少显存占用
Gradient Checkpointing：用计算换显存

面试金句：「GPU 利用率优化的核心是降碎片——调度层面 Gang+Backfill，多租户层面弹性配额，共享层面 MIG/MPS，三个维度叠加可以从 30% 提到 70%+。」

---

Q4: 训练和推理混部时，如何保证推理的延迟不受训练影响？

核心回答：

核心矛盾：训练任务 GPU 利用率接近 100%，会争抢推理任务的 GPU 时间片，导致推理延迟飙升。

隔离方案（从强到弱）：

方案	隔离强度	资源利用率	适用场景
物理隔离（不同节点）	最强	最低	延迟敏感的在线推理
MIG 隔离（同 GPU 不同 Instance）	强	中	A100/H100 推理 + 小训练
MPS 隔离（同 GPU 共享）	中	较高	推理延迟容忍 > 10ms
时间片（GPU 分时）	弱	最高	离线推理

推荐方案：

延迟敏感推理（P99 < 50ms）：物理隔离，专用节点
中等延迟推理（P99 < 200ms）：MIG 隔离，推理占 1-2 个 MIG Instance，训练占其余
离线推理：与训练混部，低优先级，利用训练空闲时间

关键细节：

MIG 的 Instance 之间有硬件级隔离，训练的显存溢出不会影响推理
MPS 没有硬件隔离，需要通过 CUDA_MPS_ACTIVE_THREAD_PERCENTAGE 限制训练的 GPU 时间片占比
时间片方案需要监控推理延迟，超过阈值时暂停训练任务

面试金句：「训练和推理混部的关键不是共享，而是隔离——延迟敏感推理用 MIG 硬件隔离，离线推理才考虑时间片共享。」

---

拓扑方向

Q5: 如何评估一个 GPU 集群的拓扑质量？哪些指标最重要？

核心回答：

拓扑质量评估三维度：

- NVLink 全连接度：8 卡 A100 有 6 条 NVLink/GPU，是否全连接？ - NVSwitch 有无：有 NVSwitch 则任意两卡间带宽一致（900 GB/s）；无则部分卡对带宽低 - PCIe 拓扑：GPU 是否挂在同一个 NUMA Node？跨 NUMA 访问有 20-30% 性能损失

节点内拓扑质量：

- InfiniBand 网络：是否是 Fat-Tree 拓扑？是否有收敛比？（1:1 无收敛最优） - GPU 直连：是否支持 GPUDirect RDMA？（减少一次 CPU 拷贝，延迟降低 30-50%） - 网络带宽：HDR (200 Gbps) vs NDR (400 Gbps)？

节点间拓扑质量：

- 所有节点是否同构？（不同型号 GPU 混部会导致负载不均） - 网络是否对称？（某些节点对之间带宽不一致会导致 AllReduce 性能下降）

全局拓扑一致性：

关键指标排序：

NVLink 全连接度（影响 TP 性能，权重最高）
InfiniBand 收敛比（影响 DP/PP 通信）
GPUDirect RDMA 支持（影响跨节点 TP 通信效率）
NUMA 一致性（影响单节点内数据搬运延迟）

面试金句：「评估拓扑质量的核心是看通信热点——NVLink 全连接度决定 TP 上限，IB 收敛比决定跨节点通信带宽，GPUDirect RDMA 决定跨节点通信延迟。」

---

Q6: GPUDirect RDMA 是什么？为什么对分布式训练重要？

核心回答：

传统路径（无 GPUDirect RDMA）：

GPU A 显存 → CPU A 内存 → NIC A → 网络 → NIC B → CPU B 内存 → GPU B 显存
   │                                                           │
   └── 2 次 PCIe 搬运 + 1 次 CPU 拷贝 ──┘── 2 次 PCIe 搬运 + 1 次 CPU 拷贝 ──┘

GPUDirect RDMA 路径：

GPU A 显存 → NIC A → 网络 → NIC B → GPU B 显存
   │                                    │
   └── 省去 CPU 中转，延迟降低 30-50% ──┘

为什么重要：

降低延迟：省去 CPU 内存中转，跨节点通信延迟降低 30-50%
降低 CPU 开销：CPU 不参与数据搬运，可处理其他任务
提升有效带宽：减少 PCIe 往返，有效带宽提升 20-30%
NCCL 自动利用：NCCL 检测到 GPUDirect RDMA 支持后自动启用

前提条件：

网卡支持 RDMA（InfiniBand 或 RoCE）
GPU 支持 GPUDirect（A100+ 原生支持）
驱动和 NCCL 版本匹配

面试金句：「GPUDirect RDMA 的本质是让 GPU 绕过 CPU 直接和网络对话——省两次 PCIe 往返和一次 CPU 拷贝，对跨节点 TP 和 PP 性能至关重要。」

---

综合方向

Q7: 设计一个 GPU 集群调度器，你会怎么设计？

核心回答：

┌──────────────────────────────────────────────────────────────┐
│                     GPU 集群调度器                              │
├──────────────┬──────────────┬──────────────┬────────────────┤
│   接入层      │   调度层      │   资源层      │   观测层       │
│              │              │              │               │
│ Job 提交 API │ Queue 管理   │ GPU 拓扑感知  │ 利用率监控     │
│ 优先级/队列  │ Gang Sched   │ 显存感知     │ 故障检测       │
│ 弹性配额     │ Backfill     │ MIG/MPS 分配 │ 训练进度追踪   │
│ Job 依赖     │ 拓扑感知排序  │ 多维度资源   │ Checkpoint    │
│              │ 优先级/抢占  │              │   管理         │
└──────────────┴──────────────┴──────────────┴────────────────┘

核心设计决策：

- 原因：保持 K8S 兼容性，复用 Pod 调度能力，降低维护成本

架构选择：Scheduling Framework 扩展（不替换 kube-scheduler）

- Gang：保证训练 Job 的 All-or-Nothing 语义 - Backfill：填充 Gang 等待期间的碎片资源，提升利用率

Gang + Backfill：

- GPU 数量 + 显存 + NVLink 拓扑 + InfiniBand 带宽 - 不只是"GPU 数量"，还要考虑拓扑约束

多维度资源模型：

- ElasticQuota（min/max），空闲配额自动共享 - QAD 驱动：保障各团队的 QAD > 0.8

弹性配额：

- TP 组 → 同节点 NVLink 全连接 - PP 组 → 相邻节点（IB 直连） - DP 组 → 拓扑不敏感，跨机架即可

拓扑感知调度：

- 集成 PyTorch Elastic，支持弹性缩容 - 异步分布式 Checkpoint，T* = √(2FC)

故障自恢复：

为什么这样设计：

Scheduling Framework 扩展 → 最小侵入 K8S
Gang + Backfill → 兼顾训练语义和利用率
多维资源 → 匹配 GPU 拓扑约束
弹性配额 → 解决多租户公平性

面试金句：「GPU 调度器的设计核心是三个"感知"：感知 Gang 语义、感知 GPU 拓扑、感知多租户公平性。缺了任何一个，要么利用率低，要么性能差，要么团队吵。」

---

Q8: GPU 调度和 CPU 调度有什么本质区别？

核心回答：

维度	CPU 调度	GPU 调度
资源粒度	CPU 核（毫核级别）	整卡 / MIG Instance（不可细分）
调度语义	每个 Task 独立	Gang Scheduling（All-or-Nothing）
拓扑约束	NUMA（影响较小）	NVLink/IB（影响 10 倍+）
资源碎片	毫核级，易填充	整卡级，碎片大
抢占代价	低（状态小，迁移快）	高（显存状态大，Checkpoint 慢）
共享模式	时间片天然支持	MIG/MPS 有限支持
故障影响	单 Task 失败	整个 Gang Job 失败
监控维度	CPU/内存	GPU 温度/ECC/显存/NVLink/功耗

本质区别：

GPU 是刚性资源：不能像 CPU 那样切毫核，一张 GPU 要么给一个 Task 要么不给，碎片化严重
GPU 有强拓扑约束：CPU 调度几乎不关心 NUMA，但 GPU 调度如果忽视 NVLink/IB，TP 性能可能差 10 倍
GPU 任务是 Gang 的：CPU 的每个 Task 独立运行，GPU 训练 Job 的所有 Pod 必须同时运行
GPU 抢占代价极高：CPU 抢占只需要保存寄存器，GPU 抢占需要保存几十 GB 的显存状态

面试金句：「GPU 调度 vs CPU 调度的本质区别是四个字：刚、绑、合、重——资源刚性、拓扑绑定、Gang 聚合、抢占代价重。」

---

Q9: 一个 7B 模型需要多少 GPU 资源？请详细计算

核心回答：

模型参数：7B (7 × 10⁹)

FP16 显存占用计算：

组件	计算公式	大小
模型参数	7B × 2 bytes	14 GB
梯度	7B × 2 bytes	14 GB
Adam 优化器状态	7B × (4+4) bytes (momentum + variance, FP32)	56 GB
激活值 (batch=1, seq=2048)	约 2-4 GB	~3 GB
总计		~87 GB

不同策略下的单卡显存需求（假设 N 卡）：

策略	单卡显存	最少 GPU 数	备注
纯 DP	87 GB	2×A100-80G（放不下）	单卡 80GB 不够
ZeRO-1	14 + 56/N + 14 + 3 ≈ 31 + 56/N GB	2	N=2 时约 59 GB
ZeRO-2	14 + 56/N + 14/N + 3 ≈ 17 + 70/N GB	2	N=2 时约 52 GB
ZeRO-3	(14+56+14)/N + 3 ≈ 84/N + 3 GB	1	N=1 时 87 GB 放不下，N=2 时 45 GB
TP=2 + ZeRO-1	(14/2) + (56/2)/N + 3 ≈ 10 + 28/N GB	2	N=1 时 38 GB

生产推荐：

训练：2-4 × A100-80G + ZeRO-2，显存充裕，通信量低
推理：1 × A100-80G，14 GB 参数 + KV Cache，单卡足够
微调 (LoRA)：1 × A100-80G，只训练少量参数，显存绰绰有余

面试金句：「7B 模型的显存瓶颈不在参数本身（14 GB），而在 Adam 优化器状态（56 GB）——所以 ZeRO-1/2 就能解决，不需要上 TP/PP。」

---

Q10: 你提到了 DCGM，能详细说说 GPU 监控体系吗？

核心回答：

DCGM 全称：Data Center GPU Management，是 NVIDIA 提供的 GPU 集群管理中间件。

三层架构：

┌─────────────────────────────────────┐
│       Grafana (可视化 & 告警)        │
└───────────────┬─────────────────────┘
                │ PromQL 查询
┌───────────────▼─────────────────────┐
│       Prometheus (指标存储 & 告警)    │
└───────────────┬─────────────────────┘
                │ HTTP /metrics
┌───────────────▼─────────────────────┐
│    DCGM Exporter (指标暴露)           │
└───────────────┬─────────────────────┘
                │ NVML / DCGM API
┌───────────────▼─────────────────────┐
│    DCGM (底层 GPU 状态采集)           │
└───────────────┬─────────────────────┘
                │ GPU Driver
┌───────────────▼─────────────────────┐
│    NVIDIA GPU 硬件                    │
└─────────────────────────────────────┘

DCGM 的三种使用方式：

dcgmi：命令行工具，用于诊断和排查（dcgmi diag -r 3 完整诊断）
DCGM Exporter：Prometheus 集成，持续监控（生产环境必备）
DCGM API：编程接口，用于自定义监控和自动化

关键指标分组：

分组	指标	用途
健康	ECC 错误计数、PCIe 降速、NVLink 错误	故障预警
性能	GPU 利用率、显存使用率、功耗	训练效率
环境	温度、风扇转速、电源电压	散热和供电
拓扑	NVLink 带宽、PCIe 带宽	拓扑质量

生产实践：

每 15 秒采集一次指标（Prometheus scrape_interval）
ECC 不可纠正错误 → 自动驱逐 Pod
温度 > 85°C → 告警 + 降低频率
GPU 利用率持续 < 10% → 可能卡死，需要检查

面试金句：「DCGM 是 GPU 监控的基石——它不是可选的，而是必须的。没有 DCGM 的 GPU 集群就像没有仪表盘的汽车，出了问题你连原因都不知道。」

关联模块

GPU 硬件与资源共享：提供 SM、HBM、NVLink、MIG/MPS、利用率诊断等底层直觉。
LLM 推理系统：提供 Prefill/Decode、KV Cache、Serving Engine 和推理优化语境。
Kubernetes 核心：提供调度、资源模型、控制器和扩展机制。
分布式训练 / 调度与集群：提供多卡通信、队列、公平性、拓扑和容错背景。