AI Infra Interview Notes

把面试知识组织成一张系统地图

毕业准备 · 面试 / 项目 / 简历 / 学习笔记总入口

从硬件互联、Linux 内核、Kubernetes 调度、分布式训练到 LLM 推理,把每个模块放到资源路径和回答结构里理解,而不是孤立背概念。

11学习主题
5复习主线
QA面试问答
01

计算机基础

操作系统、组成原理、网络、Linux/容器、编程工程与分布式基础,先补足 AI Infra 面试的系统底座。

02

AI Infra 核心系统

从 Transformer、GPU/CUDA 到算力资源模型,建立大模型系统最核心的硬件与模型执行直觉。

03

调度与集群

任务调度理论、Kubernetes 与 GPU 集群管理,覆盖多租户、拓扑、队列和稳定性治理。

04

推理 / 训练 / 性能

LLM 推理、分布式训练与性能预测建模,聚焦吞吐、延迟、显存、通信和容量判断。

05

论文项目与 Agent

论文工作和 Agent 工程表达,服务自我介绍、项目深挖和高频追问;综合设计题已归入各专题专栏。

Foundation

计算机基础

操作系统、组成原理、网络、Linux/容器、编程工程与分布式基础,先补足 AI Infra 面试的系统底座。

Core Systems

AI Infra 核心系统

从 Transformer、GPU/CUDA 到算力资源模型,建立大模型系统最核心的硬件与模型执行直觉。

Scheduling

调度与集群

任务调度理论、Kubernetes 与 GPU 集群管理,覆盖多租户、拓扑、队列和稳定性治理。

Serving & Training

推理 / 训练 / 性能

LLM 推理、分布式训练与性能预测建模,聚焦吞吐、延迟、显存、通信和容量判断。

Projects & Interview

论文项目与 Agent

论文工作和 Agent 工程表达,服务自我介绍、项目深挖和高频追问;综合设计题已归入各专题专栏。