Research Work

论文工作

Maestro · DeepShare · 互补关系与面试叙事

papersmaestrodeepshare

Module Switcher

论文工作

一作论文2

面试叙事1

内容模块

ICDCS 2026 Maestro

精通★☆☆⏱ 25 min

一句话结论

Maestro 针对 LLM 多智能体工作流推理，利用 agent 上下文做前瞻性输出长度预测，再驱动弹性内存管理（CUDA VMM 超配）和工作流感知 SRTF 调度，在 64×A100 上把 SLO 达成率提升 23.6pp、KV 预留内存降 67.2%。

复习定位

维度	内容
所属模块	论文工作
章节类型	论文项目类
解决问题	围绕 Maestro 与 DeepShare 的问题背景、系统设计、实现细节、实验结果和高频追问建立项目叙事。
面试抓手	按背景、方案、实现、结果、局限回答。

问题背景

传统 LLM 推理面对的是独立的一问一答请求。但现在越来越多的应用把多个 agent 组成协作工作流：比如旅行助手里有"需求分析 agent"、"机票搜索 agent"、"酒店推荐 agent"、"行程整合 agent"，它们之间有 DAG 依赖，一个用户请求触发十几次甚至几十次 LLM 推理调用（称为 stage）。

这带来了三个新挑战：

输出长度剧烈波动：工具调用输出几十 token（JSON），用户交互输出几百上千 token。KV 缓存需求差异巨大，固定分配要么浪费要么 OOM。
多模型共存的内存压力：不同 agent 使用不同模型，一块 GPU 需要同时驻留多个模型权重加上所有请求的 KV 缓存。
混合延迟要求：交互式 stage 要低延迟，批处理 stage 要高吞吐。不区分优先级就会造成队头阻塞。

系统设计

核心思路：不把 LLM 请求当黑盒，利用 agent 上下文做前瞻性预测，指导内存管理和调度。

组件一：两阶段输出长度预测

第一阶段——工具调用分类器：LightGBM 判断当前 stage 是否会触发工具调用，AUC = 0.9625。特征包括结构化特征（agent 角色、工作流位置、调用索引、工具可用性）和语义特征（MiniLM 编码 prompt，PCA 从 384 维降到 32 维）。

第二阶段——输出长度回归器：拿到分类器的预测概率 p̂_tool 作为额外特征，预测输出 token 数。MAE = 165 tokens，R² = 0.78。对 token 数做 log 变换处理长尾分布，用 isotonic regression 校准分类器概率。

为什么分两阶段？输出长度呈双峰分布——工具调用短、用户交互长。单一回归器在双峰上表现差。分类器先识别模式，回归器在给定模式下预测。消融实验：去掉分类器 MAE 从 134 升到 142。

组件二：节点级弹性内存管理

模型状态管理：五种状态按层级流转——

Running：权重在 GPU，可立即执行推理
Sleeping：权重移到 CPU，但 GPU 上保留 CUDA Graph 和 JIT 内核缓存（约 0.5GB），重新激活省 5-8 秒
CPU-resident：权重完全在 CPU 内存
Disk-resident：权重在本地 NVMe
Remote：权重在远程存储

层级化 LRU 逐级淘汰，最热的模型留 GPU，最冷的逐步退到远端。

KV 缓存管理：CUDA VMM 虚拟内存超配——40GB 物理 GPU 上分配 122GB 虚拟地址池（3 倍超配）。关键在于虚拟地址和物理页分离，按需映射物理页。三层防护：(1) 虚拟 vs 物理分离，不会同时达峰；(2) 准入控制——每个 stage 检查剩余物理页是否够；(3) 映射失败时拒绝 stage 而非崩溃。五级降级策略保证极端情况也不会 OOM。

内存核算：M_kv + M_res ≤ M_total，安全裕度 ρ ∈ [0.1, 0.3]，偏向高估以避免低估导致 OOM。

组件三：工作流感知 SRTF 调度

基于预测的剩余执行时间排队（SRTF），优先执行快要完成的工作流。交互式和批处理 stage 分开排队。Stage 边界抢占——只在两次 LLM 调用之间切换，不打断正在解码的请求。

节点选择：适应度评分 S(N,T) = A(N,T) − λ·T_ready − μ·C_deg，综合模型就绪延迟和降级代价。

核心结果

+23.6pp

SLO 达成率 (vs EDF)

−67.2%

KV 预留内存

−84.8%

交互排队延迟

64×A100

14.4 万 stage

Maestro 高频问答

Q: 低估输出长度和高估，哪个危害更大？

低估远比高估危害大：(1) KV 缓存方面，低估导致预分配不够，解码到一半 OOM，请求被杀；高估只是暂时多占。(2) SRTF 调度方面，低估剩余时间导致长作业排到队首，造成队头阻塞；高估则长作业排后面，影响较小。所以设计安全裕度 ρ 偏向高估。

Q: CUDA VMM 超配 3 倍不怕 OOM 吗？

三层防护：(1) 122GB 是虚拟地址空间，物理页按需映射，不会同时分配满；(2) 每个 stage 进来先做准入控制，检查剩余物理页是否够预测需求；(3) cuMemMap 返回失败时拒绝该 stage 而非崩溃。多 agent 的 KV 使用弹性大，统计上不会同时达峰，类似内存超卖的思路。

Q: 五种模型状态 vs 四层存储的关系？

四层存储：GPU → CPU → Disk → Remote。五种状态多出一个 Sleeping——权重在 CPU，但 GPU 上保留 CUDA Graph 和 JIT 内核缓存（约 0.5GB），重新激活省 5-8 秒。Sleeping 横跨 GPU 和 CPU 两层。设计原因：模型切换频繁时，CUDA Graph 的重建开销可观。

Q: Stage 边界抢占够用吗？为什么不做 token 级？

Token 级抢占需要和解码引擎深度集成，还要做 KV 缓存迁移，工程复杂度极高。Stage 边界抢占只需更新元数据，实测效果已足够：交互排队从 11 秒降到 2 毫秒。超长解码阶段可作为 future work。

Q: 新 agent 角色上线没有历史数据怎么办？

三级回退：(1) per-role 数据不足时回退到全局模型；(2) 结构化特征（工作流位置、工具可用性）本身就有信号；(3) post-execution profiling 增量更新，几轮执行后适应新角色。

Q: 适应度评分 S(N,T) 的权重怎么设？

S(N,T) = A(N,T) − λ·T_ready − μ·C_deg。默认 λ = μ = 1（毫秒量级）。交互式 stage 增大网络延迟权重。用 robust min-max 归一化（5/95 分位数裁剪），防止异常值主导。验证集上选定后跨负载固定。

关联模块

GPU 硬件与资源共享：提供硬件、显存、互联和利用率诊断基础。
LLM 推理系统 / 分布式训练：提供大模型系统中的实际落点。
Kubernetes / 调度与集群：提供平台、资源和多租户治理语境。
专题综合题 / 论文工作：把基础知识组织成可复述的方案和项目叙事。

内容模块

IEEE Cluster 2026 DeepShare

精通★☆☆⏱ 40 min

一句话结论

DeepShare 用统一指标配额保障度 QAD 把多租户 GPU 集群的弹性配额借用、预测性调度和干扰感知合用三个子系统串成闭环，在保障租户 QoS 的前提下把 GPU 利用率从 39.64% 提到 70.58%，QoS 合规率 93%。

复习定位

维度	内容
所属模块	论文工作
章节类型	论文项目类
解决问题	围绕 Maestro 与 DeepShare 的问题背景、系统设计、实现细节、实验结果和高频追问建立项目叙事。
面试抓手	按背景、方案、实现、结果、局限回答。

问题背景

多团队共享 GPU 集群的核心矛盾：

配额闲置：某个团队暂时没有训练任务时 GPU 空转浪费，实测集群平均利用率只有 40%。
配额不够：另一个团队赶 deadline 想多用几块卡，却因超配额被拒。

固定配额简单但浪费严重，完全共享利用率高但无法保障 SLA。问题本质：在保障每个租户配额的前提下，把闲置资源借给需要的人，原主需要时及时收回。

额外问题：即使 GPU 被分配出去了，很多训练任务在 I/O 或 CPU 预处理阶段 GPU 是空闲的。两个任务合用同一块 GPU 可以提升利用率，但会互相干扰——抢占 SM 和显存带宽，搞不好两个任务都变慢。

系统设计

统一控制信号——配额保障度 QAD，同时驱动三个子系统：

$$\mathrm{QAD} = \frac{AG_i(t)}{\min(q_i,\, DG_i(t))}$$

QAD = 1.0 恰好满足，< 1.0 欠缺，> 1.0 使用借来的额外资源。经 EMA 平滑避免瞬时波动。

子系统一：弹性配额借用（DRA）

空闲 GPU 可被其他租户借走跑低优先级任务。原主提交新任务导致 QAD 下降时，按 QAD 优先级回收——最欠缺的租户最先被满足。和固定配额的区别：闲置资源不浪费，但需要时保证能收回。

子系统二：预测性调度

Random Forest 预测作业运行时间（MAPE 31.84%，R² = 0.73）。调度排序采用词典序：

$$\big(\tilde{Q}_i(t)\uparrow,\; \hat{T}(j)\uparrow\big)$$

先按 QAD 升序（优先欠缺的租户），再按预测运行时间升序（短作业优先）。

抢占牺牲者选择：代价基抢占效率

$$E_j = \frac{R_j \cdot \hat{T}(j)}{1 + \alpha \cdot C_p(j)}$$

综合释放资源量 $R_j$、剩余时间 $\hat{T}(j)$ 和抢占代价 $C_p(j)$（已完成进度的浪费 + checkpoint 保存时间）。

子系统三：干扰感知 GPU 合用

Random Forest 预测两个任务共享同一块 GPU 时的性能保持率（R² = 0.902）。特征来自硬件计数器（SM activity、memory bandwidth），而非模型架构，保证跨框架泛化。只有预测保持率高于动态容忍阈值时才允许合用。运行时持续监控，实际性能下降超过容忍度时立即驱逐低优先级伙伴。

整个系统实现为 Kubernetes scheduler plugin，覆盖 Filter → Score → Reserve → PostFilter → Permit 五个扩展点，端到端调度延迟 < 50ms。

核心结果

70.58%

GPU 利用率 (基线 39.64%)

−46%

排队延迟

−34%

作业完成时间

93%

QoS 合规 (QAD≥0.95)

核心定位

不考虑 Gang Scheduling 时，可以把 DeepShare 的 Kubernetes 实现拆成两层：

Controller：租户级资源治理 — tenant、quota、QAD、Guaranteed/Best-effort 队列、准入、抢占决策。
Scheduler Plugin：Pod 级调度执行 — 谁先出队、能不能放到某个节点、放哪个节点、是否允许 colocation。

面试一句话总结：Controller 管"资源权益和队列准入"，Scheduler Plugin 管"Pod 出队和节点放置"。

调度对象简化：一个 Job 对应一个 Pod，不引入 PodGroup / minAvailable / Permit。

5-10 分钟中文论文讲解稿

这版适合面试时完整介绍，目标是让面试官听完后清楚知道：

这篇论文解决什么问题；
为什么这个问题重要；
DeepShare 的核心思想是什么；
QAD 是什么；
DRA、预测调度、colocation 分别做什么；
Kubernetes 实现大概怎么落地；
实验效果说明了什么。

你可以按这个版本背，也可以根据面试时间压缩。

开场：论文定位

我介绍的这篇论文是 DeepShare: Assurance-Driven Resource Management for Multi-Tenant GPU Clusters。它主要研究的是 多租户 GPU 集群中的资源管理问题。

简单来说，这篇论文想解决的问题是：

在多个团队共享一批 GPU 的情况下，如何既保证每个租户的 quota 和 QoS，又尽可能提高 GPU 利用率、降低作业排队时间。

1. 背景和问题

现在很多 AI 平台或者云平台都会有多租户 GPU 集群。比如不同团队、不同项目共用一批 GPU。为了公平，平台通常会给每个租户分配一个 quota，比如 A 团队 32 张 GPU，B 团队 16 张 GPU。

但是实际使用中会有一个矛盾。

如果我们严格按照 quota 静态隔离资源，那么就会出现资源浪费。比如 B 团队当前没有任务，它的 16 张 GPU quota 是空闲的，但 A 团队有很多任务在排队。如果系统不允许 A 使用 B 暂时空闲的 GPU，那么集群整体利用率就会下降。

反过来，如果系统允许 A 临时借用 B 的 GPU，又会出现另一个问题：当 B 后面提交了 Guaranteed 作业，需要拿回自己的 quota 时，资源可能已经被 A 的作业占住了。如果系统不能及时回收资源，就会破坏 B 的 QoS。

所以这里的核心矛盾是：

静态 quota 会降低利用率，过度共享又会破坏 QoS。

论文认为，现有系统的问题不只是某一个调度策略不好，而是 quota 管理、作业调度、抢占回收和 GPU 共享之间缺少一个统一的控制信号。

比如：

调度器可能只看作业优先级；
quota 模块只看租户有没有超过 quota；
抢占模块只看哪个作业优先级低；
colocation 模块只看 GPU 是否空闲或者干扰是否低。

这些模块如果各自决策，就很难同时保证 QoS 和利用率。

2. DeepShare 的核心思想

DeepShare 的核心思想是引入一个统一指标，叫 QAD，Quota Assurance Degree，也就是 配额保障程度。

它用来衡量：

一个租户当前 Guaranteed 资源需求中，有多少已经被满足。

也就是说，QAD 不是简单看一个租户用了多少 GPU，而是看它 应该被保障的资源有没有被保障到。

论文中 QAD 的作用是连接三个关键模块：

Elastic Quota Regulation，也就是弹性 quota 调节 / DRA；
Predictive Scheduling，也就是基于预测的调度；
Interference-Aware Colocation，也就是干扰感知的 GPU 共享。

这三个模块都围绕 QAD 来做决策。

可以简单理解为：

QAD 低，说明租户保障不足，系统应该优先恢复它的 Guaranteed 作业；QAD 高，说明租户保障充分，系统可以更积极地允许资源借用和 GPU 共享。

3. QAD 是什么？

QAD 的直观定义是：

QAD = 已满足的 Guaranteed 资源 / 当前应该被保障的 Guaranteed 资源

更具体一点，瞬时 QAD 可以理解为：

如果租户当前没有 Guaranteed demand：
    QAD = 1

否则：
    QAD = 当前已分配的 Guaranteed GPU / min(租户 quota, 当前 Guaranteed demand)

这里分母用 min(quota, demand) 很关键。

举个例子，一个租户 quota 是 32 张 GPU。

如果它当前只需要 8 张 GPU，那么系统只需要保障它 8 张。只要它拿到 8 张，QAD 就是 1，而不是 8/32。

如果它当前提交了 100 张 GPU 的需求，但 quota 只有 32，那么系统只承诺保障 32 张，不会因为它提交了 100 张就认为系统欠它 100 张。

所以 QAD 避免了两个问题：

租户不能通过提交超大 demand 来放大资源缺口；
租户当前需求小于 quota 时，也不会因为没用满 quota 而被错误认为保障不足。

论文还对 QAD 做了平滑处理，因为瞬时 QAD 会因为短任务完成、突发任务到来、资源释放等事件频繁波动。

平滑公式是：

Q̃_i(t) = λ Q_i(t) + (1 - λ) Q̃_i(t - 1)

默认 λ = 0.3。

也就是说：

当前平滑 QAD = 30% 当前瞬时 QAD + 70% 上一轮平滑 QAD

这样系统不会因为短期波动频繁重排队列或者抢占 Best-effort 作业，但如果一个租户持续保障不足，平滑 QAD 仍然会逐步下降，从而提高它的恢复优先级。

4. 模块一：Elastic Quota Regulation / DRA

第一个模块是 DRA，弹性 quota 调节。

它解决的是：

怎么允许租户借用别人暂时不用的资源，同时保证这些资源之后能被回收。

DeepShare 把作业分成两类：

Guaranteed 作业
Best-effort 作业

Guaranteed 作业是 quota 内应该被保障的作业。它们会计入租户的 quota，并且在调度时优先级更高。

Best-effort 作业是机会型作业。它们可以使用集群中暂时空闲的 GPU，或者其他租户当前没有用到的 surplus capacity，但它们是可回收的。

这里的关键是：

Best-effort 可以借资源，但不能破坏 Guaranteed QoS。

当某个租户 Guaranteed 需求回来，导致它的 QAD 降低时，系统会优先回收 Best-effort 作业占用的资源。

所以 DRA 的核心逻辑是：

有空闲资源时，提高利用率；
Guaranteed 保障不足时，回收借出去的资源。

这就是 DeepShare 同时提升利用率和保证 QoS 的基础。

5. 模块二：Predictive Scheduling

第二个模块是 预测调度。

论文使用预测模型，比如 random forest，去预测作业完成时间或者剩余运行时间。这个预测信息主要有两个用途。

第一个用途是 队列排序。

DeepShare 的排序不是简单 FIFO，也不是单纯短任务优先，而是：

Guaranteed 优先于 Best-effort；
同一类作业里，平滑 QAD 低的租户优先；
QAD 接近时，预测运行时间短的作业优先。

也就是：

先恢复保障不足的租户，再用短任务优先降低平均排队时间。

这点很重要。预测运行时间只是第二排序键，它不能覆盖 QAD。也就是说，一个已经保障充分的租户，不能仅仅因为它的作业更短，就排到一个保障不足的租户前面。

第二个用途是 抢占代价估计。

如果需要回收 Best-effort 资源，系统不应该随便杀任务，而要考虑：

这个任务已经运行了多久；
剩余运行时间大概多长；
是否有 checkpoint；
重启成本多高；
抢占它能不能真正释放足够 GPU；
抢占后能不能提升低 QAD 租户的保障程度。

所以这里是一个 cost-aware preemption，而不是简单 priority-based preemption。

6. 模块三：Interference-Aware Colocation

第三个模块是 干扰感知的 GPU colocation。

它解决的是：

很多 GPU 作业并不能一直打满一张 GPU，如果让它们完全独占 GPU，会造成利用率浪费；但如果随便共享，又可能互相干扰，破坏 QoS。

GPU 共享的干扰来源很多，比如：

显存容量；
显存带宽；
SM 算力；
L2 cache；
PCIe / NVLink；
CPU dataloader；
网络通信。

所以 DeepShare 不只是看 GPU 有没有空，而是预测两个作业放在一起会不会产生过大 slowdown。

论文中提到使用 random forest 模型预测 colocation 干扰。如果预测干扰低于阈值，才允许 colocation。

而且这个阈值不是固定的，会受到 QAD 影响。

如果某个租户 QAD 很低，说明它的 Guaranteed 资源已经保障不足，那系统会更保守，避免它的作业受到共享干扰。

如果租户 QAD 较高，说明保障比较充分，系统可以更激进地允许 colocation，提高 GPU 利用率。

所以 colocation admission 是：

干扰感知 + QAD 感知

而不是单纯基于利用率。

7. Kubernetes 实现怎么落地？

论文说 DeepShare 是 Kubernetes-native，也就是它不是重新造一个集群系统，而是集成到 Kubernetes 生态里。

我理解比较合理的实现方式是：

Controller + Scheduler Plugin

Controller 负责租户级状态管理，比如：

TenantQuota；
Guaranteed / Best-effort 队列；
QAD 计算；
DRA 准入；
Best-effort 回收策略。

Scheduler Plugin 负责调度路径，比如：

QueueSort：按 Guaranteed first、QAD low first、runtime short first 排序；
Filter：检查节点 GPU 是否足够、是否允许 colocation；
Score：做 bin packing、碎片控制和干扰最小化；
Reserve / Unreserve：维护资源账本；
PostFilter：当 Guaranteed 作业调度失败时，选择低代价 Best-effort 作业进行抢占。

这里有一个关键点：

Kubernetes 默认调度器是 Pod 级的，但 DeepShare 的核心是 tenant/job 级资源保障，所以需要 Controller 维护租户级语义，再通过 Scheduler Plugin 影响 Pod 级调度。

8. 实验结果

论文做了两类实验。

第一类是 trace-driven simulation，基于 23,859 个作业的 trace。

结果显示：

平均 GPU 利用率达到 70.58%；
比 Lucid 高 29.5%；
排队延迟降低 46%；
per-tenant QoS compliance 达到 93%。

第二类是在 16-GPU Kubernetes 集群上的部署实验。

结果显示：

Job Completion Time 降低 34%；
吞吐和资源利用都有明显提升；
说明系统不只是模拟有效，在 Kubernetes 原型上也有实际效果。

论文还做了 ablation study。

比如：

DRA 能降低排队延迟；
predictive scheduling 能进一步优化调度顺序；
interference-aware colocation 对降低排队延迟也有明显贡献；
DRA 和 colocation 结合后效果更好。

这说明 DeepShare 的收益不是来自单个技巧，而是来自：

QAD 统一控制下，资源借用、预测调度和干扰感知共享的协同。

9. 论文贡献总结

我理解这篇论文的核心贡献有三个。

第一，提出了 QAD 这个连续的租户保障指标。它不是简单 quota，也不是简单资源使用率，而是衡量租户当前 Guaranteed 需求被满足的程度。

第二，用 QAD 把多个原本分散的资源管理决策统一起来，包括 quota 借用和回收、队列排序、抢占、colocation admission 和 QoS reporting。

第三，做了一个 Kubernetes-native 的资源管理系统，把 DRA、预测调度和干扰感知 colocation 结合起来，在保证 tenant QoS 的同时提高 GPU 利用率。

所以如果用一句话总结 DeepShare：

DeepShare 不是单纯追求更高 GPU 利用率，也不是单纯做静态 quota 隔离，而是用 QAD 这个统一指标，在多租户 GPU 集群里动态平衡 QoS 保障和资源效率。

10. 面试时的收尾版本

我认为这篇论文最有价值的地方在于，它抓住了多租户 GPU 集群里的核心矛盾：资源空闲时希望共享，提高利用率；资源紧张时又必须恢复租户 quota 保障。DeepShare 用 QAD 把这个矛盾形式化，然后用 DRA 解决资源借用和回收，用预测调度降低排队和抢占成本，用干扰感知 colocation 提高共享效率，同时通过 Kubernetes Scheduler Framework 落地。

所以这篇论文的核心不是某一个单点调度算法，而是一个围绕租户资源保障的统一资源管理框架。

关联模块

GPU 硬件与资源共享：提供硬件、显存、互联和利用率诊断基础。
LLM 推理系统 / 分布式训练：提供大模型系统中的实际落点。
Kubernetes / 调度与集群：提供平台、资源和多租户治理语境。
专题综合题 / 论文工作：把基础知识组织成可复述的方案和项目叙事。

一句话结论

DeepShare 在 Kubernetes 上拆成 Controller 加 Scheduler Plugin 两层：Controller 管租户级的 quota、QAD、队列与准入，通过 TenantQuota CRD 和 Pod annotation 把租户语义传给调度路径；Scheduler Plugin 复用 Scheduler Framework 五个扩展点做 Pod 级排序、过滤、打分、预留和抢占。

复习定位

维度	内容
所属模块	论文工作
章节类型	论文项目类
解决问题	围绕 Maestro 与 DeepShare 的问题背景、系统设计、实现细节、实验结果和高频追问建立项目叙事。
面试抓手	按背景、方案、实现、结果、局限回答。

总体架构

用户提交 GPU Job / Pod
        |
        v
DeepShare Controller
        |-- 维护 TenantQuota
        |-- 计算 QAD
        |-- 维护租户级 Guaranteed / Best-effort 队列
        |-- 做 quota admission
        |-- 给 Pod 打 annotation / 移除 schedulingGate
        |-- 必要时触发 Best-effort 抢占
        v
kube-scheduler + DeepShare Scheduler Plugins
        |-- QueueSort：QAD-aware 排序
        |-- PreFilter：解析 tenant / class / GPU request
        |-- Filter：quota、节点 GPU、共享可行性
        |-- Score：bin packing、干扰感知、碎片控制
        |-- Reserve / Unreserve：更新资源账本
        |-- PostFilter：资源不足时触发抢占候选选择
        v
Bind Pod 到 Node

为什么要拆成 Controller + Scheduler Plugin

DeepShare 的核心机制（QAD、弹性配额借用、预测性调度、干扰感知合用、Best-effort 借用与回收、Guaranteed QoS）属于租户级 / 作业级逻辑；而 kube-scheduler 默认的调度对象是 Pod，原生并不知道：

这个 Pod 属于哪个 tenant
这个 Pod 是 Guaranteed 还是 Best-effort
这个 tenant quota 是多少
这个 tenant 当前 QAD 是多少
这个 Pod 是否借用了别人的空闲资源
这个 Pod 是否应该被抢占
这个 Pod 与已有 GPU workload 是否会互相干扰

模块	适合处理的问题
Controller	租户状态、quota、QAD、队列、准入、抢占策略
Scheduler Plugin	Pod 级排序、节点过滤、节点打分、资源预留、绑定前决策

系统里需要的 K8S 对象

TenantQuota CRD

表示每个租户的 GPU quota 与当前状态：

apiVersion: deepshare.io/v1
kind: TenantQuota
metadata:
  name: team-a
spec:
  gpuQuota: 32
  bestEffortMultiplier: 2
status:
  guaranteedDemand: 40
  guaranteedAllocated: 20
  bestEffortUsed: 8
  qad: 0.625

gpuQuota：租户 Guaranteed 配额。
bestEffortMultiplier：Best-effort 借用上限 η（如 η=2）。
guaranteedDemand：当前 Guaranteed 需求。
guaranteedAllocated：当前已满足的 Guaranteed 资源。
bestEffortUsed：当前 Best-effort 使用量。
qad：当前租户保障程度。

GPU Job / Pod 的两种表达方式

方式 A：DeepShareJob CRD（推荐，更工程化，便于做租户级排队和准入）

apiVersion: deepshare.io/v1
kind: DeepShareJob
metadata:
  name: train-a
spec:
  tenant: team-a
  class: Guaranteed
  gpu: 4
  estimatedRuntime: 3600
  preemptible: false

方式 B：原生 Pod / Job + label（轻量化）

apiVersion: v1
kind: Pod
metadata:
  name: train-a
  labels:
    deepshare.io/tenant: team-a
    deepshare.io/class: guaranteed
  annotations:
    deepshare.io/estimated-runtime: "3600"
spec:
  schedulerName: deepshare-scheduler
  containers:
  - name: train
    image: train:latest
    resources:
      limits:
        nvidia.com/gpu: 4

Pod Annotation / Label（Controller 写入，调度路径读取）

metadata:
  labels:
    deepshare.io/tenant: team-a
    deepshare.io/class: guaranteed
  annotations:
    deepshare.io/qad: "0.625"
    deepshare.io/estimated-runtime: "3600"
    deepshare.io/admitted: "true"
    deepshare.io/preemptible: "false"

Scheduler Plugin 通过这些字段做 QueueSort、Filter、Score。

关联模块

GPU 硬件与资源共享：提供硬件、显存、互联和利用率诊断基础。
LLM 推理系统 / 分布式训练：提供大模型系统中的实际落点。
Kubernetes / 调度与集群：提供平台、资源和多租户治理语境。
专题综合题 / 论文工作：把基础知识组织成可复述的方案和项目叙事。

一句话结论

DeepShare 的两级队列中，第一级租户级 Guaranteed/Best-effort 队列在 Controller 里显式维护并做准入，第二级全局队列是逻辑队列——由 Controller 准入后的 Pod 集合加 Scheduler Plugin 的 QAD-aware QueueSort 共同体现，调度执行落在 Framework 各扩展点。

复习定位

维度	内容
所属模块	论文工作
章节类型	论文项目类
解决问题	围绕 Maestro 与 DeepShare 的问题背景、系统设计、实现细节、实验结果和高频追问建立项目叙事。
面试抓手	按背景、方案、实现、结果、局限回答。

两级队列具体在哪里实现

论文里的队列结构：

每个 tenant 有：
  Q_i^G：Guaranteed 队列
  Q_i^B：Best-effort 队列
集群级有：
  Q^G：全局 Guaranteed 候选队列
  Q^B：全局 Best-effort 候选队列

第一级（租户队列）：Controller 内显式维护

这是 tenant/job 级语义，必须在 Controller 里：

type TenantQueue struct {
    TenantID         string
    GuaranteedQueue  PriorityQueue
    BestEffortQueue  PriorityQueue
}

tenantQueues map[string]*TenantQueue

Controller watch 到新 Job 后，根据 tenant / class / submitTime / estimatedRuntime 放入对应租户队列。

第二级（全局队列）：Controller 生成候选集 + Scheduler Plugin QueueSort

建议回答：Controller 生成全局候选集，Scheduler Plugin 的 QueueSort 实现最终全局排序。

Controller 不显式维护长期存在的 Q^G/Q^B 物理队列；
它周期性从各 tenant 队列里挑出 admitted jobs；
这些 admitted Pods 进入 kube-scheduler；
然后 QueueSort 按 DeepShare 规则排序。

所以 Q^G / Q^B 是逻辑队列，由"admitted Pod 集合 + QueueSort 排序规则"共同体现。

为什么不完全放 Controller 排好顺序再逐个放行

kube-scheduler 内部仍有自己的 ActiveQ。
Pod 进入 scheduler 后还会经历 backoff / unschedulable。
节点状态变化后，顺序需要重新评估。
QAD 是动态的，会持续变化。
调度还要结合 Filter / Score 的结果。

所以更自然：Controller 控制 admission，Scheduler Plugin 控制 scheduler 内部排序和落点。

Controller 具体工作流

Step 1 — watch Job / Pod，放入租户队列

用户提交 team-a, Guaranteed, 4 GPU，Controller 将其放入 Q_a^G；Best-effort 任务放入 Q_a^B。

Step 2 — 计算 QAD

$$\mathrm{QAD} = \frac{\text{Allocated GPU time}}{\text{Guaranteed GPU time}}$$

简化实现：

$$\mathrm{QAD} = \frac{\text{已满足 Guaranteed GPU}}{\min(\text{quota},\, \text{当前 Guaranteed demand})}$$

例：team-a quota = 32，Guaranteed demand = 40，Guaranteed allocated = 16 → QAD = 16 / min(32, 40) = 0.5。QAD 越低，租户保障越不足。

Step 3 — Guaranteed admission

对 Guaranteed job 检查：

$$U_i^G + R_j \le q_i$$

满足则进入调度候选集；否则继续留在 Q_i^G 中等待。

Step 4 — Best-effort admission（更保守）

需同时满足：

$$\text{没有可放置的 Guaranteed job}\quad\text{且}\quad U_i^B + R_j \le \eta \cdot q_i$$

含义：Best-effort 可借用空闲资源，但不能无限借，也不能挡住 Guaranteed 作业。

Step 5 — 释放 admitted Pod 到调度器

方法 A（推荐）：移除 schedulingGate

spec:
  schedulingGates:
  - name: deepshare.io/admission

Controller 判断可以调度后移除 gate，Pod 才进入 kube-scheduler。

方法 B：annotation 兜底 — Pod 已存在但 plugin 仅放行 deepshare.io/admitted: "true" 的 Pod；不推荐完全依赖，因为 Pod 已进入 scheduler 后可能造成无效调度循环。

Scheduler Plugin 的扩展点实现

运行自定义调度器：schedulerName: deepshare-scheduler，复用 Kubernetes Scheduler Framework 加载 DeepShare 插件。

QueueSort — DeepShare 全局排序

排序 key（按优先级从高到低）：

class：Guaranteed 优先于 Best-effort。
tenant QAD：QAD 低优先。
predicted runtime：短任务优先。
submit time：早提交优先（tie-breaker）。

Pod	class	tenant	QAD	runtime
pod-a	Guaranteed	team-a	0.4	2h
pod-b	Guaranteed	team-b	0.9	10min
pod-c	Best-effort	team-c	1.0	5min

排序：pod-a → pod-b → pod-c。即使 pod-b 更短，team-a QAD 更低也优先。先恢复保障不足的租户，再用预测运行时间优化局部顺序。

PreFilter — 解析调度上下文

读取 tenant / class / GPU request
读取 estimated runtime / QAD / preemptible
写入 cycle state，供后续插件复用

Filter — 节点可放置性

节点是否有足够 GPU；GPU 型号是否满足。
node affinity / taint toleration 是否满足。
共享 GPU 是否超过共享上限。
colocation 干扰是否在阈值内（对应论文 interference-aware colocation）。
Best-effort 是否会影响 Guaranteed 的资源恢复能力。

Score — 节点打分

bin packing：减少碎片，2-GPU 任务优先放到刚好剩 2 张 GPU 的节点；不要打散完整 8-GPU 节点。
GPU utilization：优先利用空闲碎片。
interference score：选择干扰更小的 colocated 节点。
reserved capacity：避免破坏 Guaranteed 恢复能力。
Best-effort 优先放到可回收、低干扰位置；Guaranteed 优先放到稳定、低干扰位置。

Reserve / Unreserve — 维护资源账本

选定节点但未 Bind 时更新 DeepShare 账本：

tenant guaranteedUsed += gpuRequest
node   allocatedGpu  += gpuRequest
if Best-effort:
    tenant bestEffortUsed += gpuRequest

Bind 失败时 Unreserve 回滚。很重要：避免 DeepShare 账本与 kube-scheduler assumed state 不一致。

PostFilter — 抢占

Guaranteed Pod 调度失败且 tenant QAD 很低时触发。Victim 选择优先级：

Best-effort Pod
低优先级 Pod
可抢占 Pod
抢占代价低的 Pod

对应论文 predictive scheduling 与 preemption cost：综合 progress loss、checkpoint 状况、restart overhead，确认抢占后能真正释放足够 GPU 并提升低 QAD 租户保障。

关联模块

GPU 硬件与资源共享：提供硬件、显存、互联和利用率诊断基础。
LLM 推理系统 / 分布式训练：提供大模型系统中的实际落点。
Kubernetes / 调度与集群：提供平台、资源和多租户治理语境。
专题综合题 / 论文工作：把基础知识组织成可复述的方案和项目叙事。

一句话结论

这一节用高频问答澄清 DeepShare 的关键设计点：QAD 与 DRF 的本质区别、为何 JCT 仅改善 6.3% 而排队延迟降 46%、GPU 共享靠 NVIDIA MPS 而非改 Extended Resource、干扰模型选 RF 的延迟与泛化考量，以及 Controller 与 Scheduler Plugin 的职责切分。

复习定位

维度	内容
所属模块	论文工作
章节类型	论文项目类
解决问题	围绕 Maestro 与 DeepShare 的问题背景、系统设计、实现细节、实验结果和高频追问建立项目叙事。
面试抓手	按背景、方案、实现、结果、局限回答。

DeepShare 高频问答

Q: QAD 和 DRF（Dominant Resource Fairness）的区别？

DRF 追求均等分配，不区分保障和尽力而为。QAD 量化"距离保障配额有多远"——允许过量分配（QAD > 1），但超额可回收。QAD 同时服务调度优先级、合用准入、QoS 报告三个子系统，是一个统一控制信号；DRF 只做资源分配。

Q: 为什么 JCT 只改善 6.3% 但排队延迟改善 46%？

JCT = 排队时间 + 执行时间。执行时间由计算量决定，对所有调度策略相同。调度只能影响排队部分。当执行时间占 JCT 主要部分时，排队大幅改善只带来 JCT 小幅改善。这恰好说明调度的优化空间集中在排队环节。

Q: nvidia.com/gpu 不可修改，GPU 共享怎么实现？

K8s Extended Resource admit 后不能修改。GPU 共享通过 NVIDIA MPS 在驱动层做多路复用，设 per-client 内存限制。每块 GPU 部署一个 MPS control daemon（DaemonSet 方式）。CPU 和内存可通过 InPlacePodVerticalScaling 动态调整，但 GPU 分配必须在调度时确定。

Q: 干扰模型为什么选 Random Forest 而不用深度学习？

三个原因：(1) 推理延迟——RF 推理 < 1ms，满足实时调度预算；对比 GAN-based 方法需要 50-200ms。(2) 精度足够——R² = 0.902。(3) 硬件计数器特征跨框架泛化，不需要针对每种模型架构重新训练。

Q: 过载时怎么表现？

大约 8% 高峰时段过载：按 QAD 升序优先最欠缺租户；最坏 QAD = 0.72，过载消退后 3.2 个周期（约 160ms）恢复到 ≥ 0.95。Best-effort 排队延迟增加 2.1 倍，Guaranteed 仅增加 14%，体现服务分级。

实现细节高频问答

Q: QAD 存在哪里？调度路径如何读？

QAD 由 Controller 计算，写入 TenantQuota.status.qad。Scheduler Plugin 通过 informer cache 订阅这份状态，本地维护 tenantID → qad 映射。QueueSort 与 Filter 不直接 RPC Controller，只读本地 cache，避免调度热路径阻塞。结果是低延迟、最终一致、调度路径不阻塞。

Q: 为什么不全放 Scheduler Plugin？

Scheduler Plugin 是 Pod 调度热路径上的组件，适合做快速决策（排序、过滤、打分）；但租户队列、quota 统计、QAD 计算、job admission、Best-effort cap 这些是全局状态管理，放在 Controller 更合适。Controller 可以异步 watch 集群状态并维护租户级资源账本，避免把复杂全局逻辑塞进调度热路径。

Q: 为什么不全放 Controller？

Controller 可以决定哪些 Pod 被释放，但 Pod 进入 kube-scheduler 后，真正的出队顺序、节点过滤、节点打分、抢占都是 scheduler 决定。DeepShare 需要影响 Pod 级调度过程（QAD-aware QueueSort、interference-aware Filter/Score、Reserve 账本更新、PostFilter 抢占），所以必须 Scheduler Plugin 与 Controller 配合。

Q: Best-effort 是怎么借用和归还的？

Best-effort Pod 由 Controller 做准入，仅当没有可放置的 Guaranteed 作业，且租户 Best-effort 使用量未超过 cap（η·q_i） 时才允许进入调度。当某租户 Guaranteed 需求回来导致 QAD 下降，Controller 或 PostFilter 会触发资源回收：优先选择 Best-effort、可抢占、抢占代价低的 Pod 作为 victim，抢占后释放 GPU，低 QAD 租户的 Guaranteed Pod 重新进入调度。本质：可借但可回收。

Q: 不考虑 Gang Scheduling 后流程能简化什么？

不需要讲 PodGroup / minAvailable / Permit waiting / Reserve 多 Pod 后统一放行 / 超时整体回滚。流程简化为"一个 Pod 满足条件 → 直接调度"。Scheduler Plugin 先实现 QueueSort / PreFilter / Filter / Score / Reserve / Unreserve / PostFilter 即可，不重点讲 Permit。如果面试官追问分布式训练，再补充："如果后续要支持多 worker 训练，再引入 PodGroup 和 Permit 扩展点做 Gang Scheduling。"

关联模块

GPU 硬件与资源共享：提供硬件、显存、互联和利用率诊断基础。
LLM 推理系统 / 分布式训练：提供大模型系统中的实际落点。
Kubernetes / 调度与集群：提供平台、资源和多租户治理语境。
专题综合题 / 论文工作：把基础知识组织成可复述的方案和项目叙事。

一句话结论

这一节是基于 IEEE Cluster 2026 原稿的论文级深度问答，覆盖面试官按论文细节追问的参数与机制：EMA λ=0.3 与 50ms 周期的收敛意义、QAD 边界规定、RF 选型依据与 31.84% MAPE、抢占效率 E_j、动态容忍 ρ_tol、过载降级数据、消融贡献，以及与 Lucid/Tiresias/Gavel/HiveD 的本质差异和论文承认的四条局限。

复习定位

维度	内容
所属模块	论文工作
章节类型	论文项目类
解决问题	围绕 Maestro 与 DeepShare 的问题背景、系统设计、实现细节、实验结果和高频追问建立项目叙事。
面试抓手	按背景、方案、实现、结果、局限回答。

论文原文延伸问答（基于 IEEE Cluster 2026 原稿）

下面这组问题对应面试官真正会按论文细节追问的角度：参数选取、消融、敏感性、对比 baseline、工程边界。回答全部出自论文正文与 §V 实验。

Q: 论文里 EMA 系数 λ=0.3、调度周期 50ms，物理意义是什么？

论文 §III-A 给的解析：在 50ms 调度周期下，持续偏差在大约 350ms 内累积到稳态值的 90%，几何收敛速率为 $(1-\lambda)$。这个区间能 过滤亚秒级抖动（短任务结束、突发请求），同时让真正的"持续 under-service"快速被发现。λ 再调大会被短任务完成的抖动带飞，调小则恢复信号迟滞。

Q: 当租户暂时没有 Guaranteed 需求时 QAD 怎么定？为什么不直接定 0？

论文 Eq.1 显式规定 $Q_i(t)=1$ 当 $D_i^G(t)=0$。这是为了 "暂时不用 quota ≠ 被亏待"：定 0 会让空闲租户被错误识别为最受损者并抢回资源；同时分母用 min(q_i, D_i^G(t)) 又防止租户通过虚报巨大 $D_i^G$ 哄抬 QAD 优先级。这两条共同实现"既不奖励虚假 demand，也不惩罚临时空闲"。

Q: 为什么选 Random Forest？论文给的理由是什么？

论文 §III-C 给三点：(1) sub-millisecond 推理，能挂在 Kubernetes scheduler 关键路径上；(2) RFE 选出的主特征是 SM Active (44.5%)、co-run SM Active (20.6%)、mem copy util (12.3%)，符合干扰主因可解释；(3) 输入是 DCGM 硬件计数器，跨 framework / model 泛化好。准确率上：MAPE 从 Lucid 的 68.72% 降到 31.84%（2.16× 误差缩减），$R^2$ 从 0.6413 升到 0.7286；干扰预测 $R^2=0.902$。深度模型在 sub-ms 预算下做不到，且 16 个 model family 数据量不足以稳定训出更大模型。

Q: 抢占效率 $E_j$ 的物理含义？为什么用贪心？

定义：

$$E_j = \frac{R_j \cdot \hat{T}(j)}{1 + \alpha \cdot C_p(j)}$$

分子 R_j·T̂(j) 是"如果抢占这个 victim，能回收多少 GPU-时"；分母 1+α·C_p(j) 惩罚已经被抢占过多次的 Pod，避免同一作业被反复打断。SelectVictims 按 $E_j$ 降序贪心选取直到释放约束 Eq.3 满足，复杂度 O(n log n)。这是对原 NP-hard 选 victim 子问题的近似。论文 sensitivity 给默认 α=0.5、β=0.3，区间 α∈[0.3,0.8]、β∈[0.1,0.6] 都接近最优。

Q: 共享时光靠 RF 准入会不会被打脸？运行时怎么兜底？

会，所以论文叠了一层在线检测：DCGM 周期采样实际 retention $\hat{\rho}=t_{shared}/t_{excl}$，连续 3 个采样窗口 $\hat\rho<\rho_{tol}$ 就把这一对标 degraded，下一周期把 Best-effort 伙伴抢占。固定窗口规则相比 CUSUM 等顺序检测的好处：检测延迟有界 + 每对只维护一组计数器，落到调度器里行为更可预测。一对 GPU 上发生干扰漂移时不会拖到 Guaranteed 任务才被发现。

Q: 动态容忍 $\rho_{tol}$ 里的压力 $P$ 和 $\gamma$ 是怎么调的？

论文公式：

$$P = \left(\frac{G_p}{G_f+\epsilon}\right)^{\gamma},\quad \rho_{tol} = \min\!\big(1,\;[\rho_{min} + P(1-\rho_{min})] \cdot \max(k-\tilde{Q}_i,\, k-\tilde{Q}_{ie})\big)$$

$\gamma=0.5$ 让压力亚线性增长，短促 demand burst 不会立刻把所有 colocation 一刀切关掉；最大值再被任一租户的"欠服务度" k - Q̃ 放大，欠服务越严重门槛越高。Sensitivity 显示 $\rho_{min}=0.7$ 是甜点：0.5 时 GPU 利用 71.2% 但平均放慢 18%，反而 JCT 倒挂；0.9 时干净但只剩 55.3% 利用率。

Q: 31.84% MAPE 是怎么得到的？冷启动用户怎么办？

Venus 23,859 jobs 上按 user 训 RF 回归。论文给出两档：历史提交 ≥50 的老用户 MAPE<25，新用户落到集群级 fallback 模型，MAPE<60，从而冷启动不会阻断调度，只是排序在租户内不那么准。Figure 4 在随机 2000 jobs 上对照 real vs prediction，曲线整体贴合，长尾 jobs 误差稍大但不影响 QAD 主排序——因为 $\hat{T}(j)$ 只是租户内 secondary key。

Q: nvidia.com/gpu 是 K8s Extended Resource，论文怎么绕开"准入后不可修改"？

论文 §IV-B 明确：GPU 数确实改不了，所以 DeepShare 不动 GPU 数；要释放资源时走两条路。
(1) CPU/Memory 走 Pod resize subresource：control plane 必须启用 InPlacePodVerticalScaling，VPA 推荐基础上额外保留 max(10%, 0.5 core) CPU 和 max(10%, 256 MB) memory headroom，避免压缩后 OOM。
(2) GPU 抢占走删 Pod / 重建：通过 PostFilter 选 victim 后由 API server 删除 Pod，新 Pod 重新进入 scheduler。这是为什么论文必须在 §IV 里强调依赖 K8s v1.35 的新 subresource。

Q: 集群过载（$\sum \min(q_i, D_i^G) > G_{tot}$）时 DeepShare 怎么降级？数据多少？

论文 §V-D 给出量化：Venus peak-hour 中约 8% 周期会进入过载。Algorithm 1 按 $\tilde{Q}_i(t)$ 升序排队，近似 max-min fair recovery。可观测后果：
· 单租户最差 $\tilde{Q}_i=0.72$；
· spike 之后 3.2 个 cycle (~160ms) 恢复到 $\tilde{Q}_i\ge 0.95$；
· Best-effort 排队延迟 2.1×，Guaranteed 仅 +14%——这就是"服务差异化"在论文里的实际兑现。

Q: Ablation 里"DRA 单独"和"DRA + colocation"分别贡献多少？

物理 16-GPU testbed（§V-E Figure 11）：
· DRA 单独 vs Hard：makespan −23%、JCT −18.5%、queue −36%；
· DRA + Colocate vs Hard+Colocate：makespan −32%、JCT −34%、queue −66%；
· DRA + Colocate vs DRA-only 再省 31% 排队（Figure 10），整体 throughput 1.48×。
仿真消融（Figure 7）：去掉 runtime prediction 排队 +18.4%，去掉 interference awareness 排队 +30.1%——结论是 colocation 的贡献 > runtime prediction，但两者必须由 QAD 兜住才不会反过来伤害 SLA。

Q: 为什么平均 JCT 只比 Lucid 好 6.3%，但论文还是把 JCT 当卖点？

论文 §V-C 直接解释了：JCT = queueing + execution，execution 部分各策略基本一样，所以平均 JCT 改善被稀释。真正能差异化的是排队侧——论文给出 queueing −46%（1067s vs 1976s）、P95/P99 tail JCT −23%、idle GPU time −71%（vs Lucid）/ −96.8%（vs FIFO）。面试时讲"为什么 JCT 看起来涨幅有限"是高频反向追问，要答：DeepShare 主战场是 排队公平性 + tail-latency，平均 JCT 不是核心指标。

Q: 论文承认哪些局限？（部署前你会注意什么）

§V-G 明文承认四条：
(1) 干扰预测器在 16 个 DL 模型族（CV/NLP/RL/recommender） 上训练，未见架构（如新型 MoE）可能要重训；硬件计数器为输入提供一定泛化。
(2) 物理 testbed 只有 16 GPU，结论稳妥外推到 部门级集群（数十至低三位数 GPU），更大规模需要重新评估。
(3) 异构加速器（如 H100、TPU、国产卡）需要重新 profiling 并重训 RF 干扰模型。
(4) 论文未覆盖 多 node 分布式训练 / Gang Scheduling 场景，generalize 到 LLM 大集群训练需要补 PodGroup + Permit 扩展点（可主动补充作为面试加分）。

Q: 跟 Lucid、Tiresias、Gavel、HiveD 这些 prior art 的本质差异点是什么？

论文 §VI Related Work 总结：
· Tiresias：MLFQ 排序但无 runtime knowledge；DeepShare 加了 RF 预测和 QAD。
· Lucid：最强非侵入式 sharing baseline，但干扰模型简单（DeepShare 干扰 $R^2=0.902$ 显著更准）+ 静态阈值（DeepShare 用 $\rho_{tol}$ 动态调）。
· Gavel：max-min fair throughput 但假设 GPU 独占，没法 colocate。
· HiveD：静态 cell 分区给保证，不弹性，恰好是 DRA 要解的问题。
· Optimus / ElasticFlow：在线 runtime prediction 但无 QAD，会让短任务覆盖租户公平性。
论文卖点是把 quota assurance + interference colocation + runtime prediction 三者用单一 $\tilde{Q}_i(t)$ 信号闭环，前述任何一篇都只解决其中一两块。

关联模块

GPU 硬件与资源共享：提供硬件、显存、互联和利用率诊断基础。
LLM 推理系统 / 分布式训练：提供大模型系统中的实际落点。
Kubernetes / 调度与集群：提供平台、资源和多租户治理语境。
专题综合题 / 论文工作：把基础知识组织成可复述的方案和项目叙事。

一句话结论

这一节给出 DeepShare 在面试里可直接背诵的完整口述版：不考虑 Gang Scheduling 时，Controller 维护两级租户队列、计算 QAD 并做 quota 准入，Scheduler Plugin 用 QAD-aware QueueSort 加 Filter/Score/Reserve/PostFilter 完成 Pod 级排序、落点和抢占。

复习定位

维度	内容
所属模块	论文工作
章节类型	论文项目类
解决问题	围绕 Maestro 与 DeepShare 的问题背景、系统设计、实现细节、实验结果和高频追问建立项目叙事。
面试抓手	按背景、方案、实现、结果、局限回答。

面试版完整回答（背诵展开版）

如果先不考虑 Gang Scheduling，我会把 DeepShare 在 Kubernetes 里的实现拆成 Controller 和 Scheduler Plugin 两部分。Controller 负责租户级资源治理，Scheduler Plugin 负责 Pod 级调度。

Controller 维护每个租户的 Guaranteed 队列和 Best-effort 队列，也就是论文里的 Q_i^G 和 Q_i^B。它 watch 用户提交的 GPU Job 或 Pod，读取 tenant、class、GPU request 和预测运行时间，然后放入对应租户队列。Controller 还会周期性统计每个租户的 quota 使用量，计算 QAD，并维护 TenantQuota 的 status。

Controller 还负责准入。对于 Guaranteed 作业，只有满足 U_i^G + R_j ≤ q_i 时才允许进入调度候选集；对于 Best-effort 作业，只有在没有可放置的 Guaranteed 作业，并且 U_i^B + R_j ≤ η·q_i 时才允许进入候选集。被准入的 Pod 通过移除 schedulingGate，或打上 admitted annotation 进入 kube-scheduler。

第二级集群队列由 Scheduler Plugin 的 QueueSort 实现：Controller 负责生成 admitted Pod 集合，QueueSort 在 kube-scheduler 内部按 DeepShare 规则排序——Guaranteed 优先于 Best-effort；同一类中 QAD 低的租户优先；QAD 接近时预测运行时间短的作业优先；最后用提交时间作为 tie-breaker。

后续 Scheduler Plugin 负责真正的节点决策。PreFilter 解析 tenant、class、GPU 需求和预测时间；Filter 检查节点 GPU 是否足够、是否满足共享和干扰约束；Score 做 bin packing、碎片控制和干扰感知打分；Reserve/Unreserve 维护 DeepShare 自己的资源账本；PostFilter 在 Guaranteed 作业调度失败且租户 QAD 很低时，选择低代价 Best-effort Pod 进行抢占。

两个队列的实现总结：第一级租户队列在 Controller 中显式维护；第二级全局队列不一定是单独物理队列，而是由 Controller 准入后的 Pod 集合 + Scheduler Plugin 的 QAD-aware QueueSort 共同实现。这样既保留 Kubernetes-native 的调度框架，又能实现 DeepShare 的 QAD 驱动资源管理。

面试版 60 秒背诵版

不考虑 Gang Scheduling 时，Controller + Scheduler Plugin 的分工是：Controller 管 tenant/job 级逻辑，Scheduler Plugin 管 Pod/node 级逻辑。

Controller 维护每个租户的 Guaranteed / Best-effort 队列，计算 QAD，做 quota admission 和 Best-effort cap 控制。通过准入的 Pod 才进入 scheduler。

Scheduler Plugin 通过 QueueSort 实现全局排序：Guaranteed first，QAD low first，runtime short first。然后用 Filter/Score 做节点选择和 colocation 判断，用 Reserve/Unreserve 更新资源账本，用 PostFilter 做 Best-effort 抢占。

第一级队列在 Controller 里，第二级队列由 admitted Pod 集合 + QueueSort 逻辑实现。

关联模块

GPU 硬件与资源共享：提供硬件、显存、互联和利用率诊断基础。
LLM 推理系统 / 分布式训练：提供大模型系统中的实际落点。
Kubernetes / 调度与集群：提供平台、资源和多租户治理语境。
专题综合题 / 论文工作：把基础知识组织成可复述的方案和项目叙事。

内容模块

关系与面试叙事

精通★☆☆⏱ 15 min

一句话结论

Maestro 与 DeepShare 互补——前者解决推理侧多 agent 调度、后者解决训练侧多租户管理，两者共享预测驱动调度、代价感知抢占、弹性资源管理和分层架构四个理念，可串成"用轻量预测为调度器提供前瞻信号"的统一研究叙事。

复习定位

维度	内容
所属模块	论文工作
章节类型	论文项目类
解决问题	围绕 Maestro 与 DeepShare 的问题背景、系统设计、实现细节、实验结果和高频追问建立项目叙事。
面试抓手	按背景、方案、实现、结果、局限回答。

互补关系

Maestro 解决推理侧的多 agent 调度，DeepShare 解决训练侧的多租户管理。一个完整的 GPU 集群需要同时支持训练和推理。

共通设计理念

理念	Maestro	DeepShare
预测驱动调度	预测输出长度 → 内存管理 + 排队	预测运行时间 → 排序 + 抢占
代价感知抢占	量化降级代价 C_deg 选最小影响路径	量化抢占效率 E_j 考虑进度损失
弹性资源管理	CUDA VMM 3× 超配	DRA 弹性配额借用
分层架构	全局调度器 + 节点运行时	全局调度器 + 节点 DaemonSet

自我介绍中的论文定位

我的研究聚焦于 GPU 集群的资源调度与性能预测，在训练和推理两个互补场景下展开：

DeepShare（IEEE Cluster 2026）解决多租户 GPU 集群中训练作业的调度。核心创新是配额保障度 QAD，统一驱动弹性配额管理、预测性调度和干扰感知合用，在 219 GPU 的 K8s 集群上实现 70.58% GPU 利用率和 93% QoS 合规率。

Maestro（ICDCS 2026）面向 LLM 多智能体系统的推理调度。核心挑战是输出长度不确定性和多模型内存压力。设计了两阶段预测器加 CUDA VMM 超配加 SRTF 调度，在 64 块 A100 上将 SLO 达成率提升 23.6 个百分点。

贯穿核心能力：用轻量预测模型为调度器提供前瞻性信号，再设计弹性资源管理和抢占策略来利用这些信号。

与工业界系统的区别

对比对象	区别
vLLM / SGLang	它们是单节点推理引擎，Maestro 在其之上做多模型管理和跨节点调度
Volcano	面向 Gang scheduling，DeepShare 在配额弹性、干扰感知、运行时间预测方面做了增强
Orca / FastServe	它们关注单模型的迭代级调度，Maestro 关注多模型多 agent 的工作流级调度

关联模块

GPU 硬件与资源共享：提供硬件、显存、互联和利用率诊断基础。
LLM 推理系统 / 分布式训练：提供大模型系统中的实际落点。
Kubernetes / 调度与集群：提供平台、资源和多租户治理语境。
专题综合题 / 论文工作：把基础知识组织成可复述的方案和项目叙事。