ML / LLM 系统设计速查表

面向 LLM Research Intern 岗位准备 | For LLM research intern preparation 公开发布版 · 无特定论文内部结果 | Public edition · No proprietary results included

一、概念与公式推导 / Concepts & Key Formulas

1.1 因果语言模型 / Causal Language Modeling (CLM)

核心思想 / Core Idea： 自回归地预测下一个 token，训练时使用 causal mask 阻止未来信息泄漏。

损失函数 / Loss Function：

$\mathcal{L}_{\text{CLM}} = -\frac{1}{T}\sum_{t=1}^{T} \log P_\theta(x_t \mid x_{<t})$

推导要点 / Derivation：

由链式法则（chain rule）： $P(x_1, \ldots, x_T) = \prod_{t=1}^{T} P(x_t \mid x_{<t})$
取对数并取负号即得交叉熵损失（cross-entropy loss）
实现时，logits 形状为 (batch, seq_len, vocab_size)，target 为左移一位的 token ids

1.2 Softmax 与 Attention / Softmax & Attention

Scaled Dot-Product Attention：

$\text{Attn}(Q, K, V) = \text{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right)V$

为什么除以 $\sqrt{d_k}$ ？ / Why scale by $\sqrt{d_k}$ ？

假设 $Q, K$ 各元素独立同分布，均值为 0、方差为 1
则 $QK^\top$ 中每个元素的方差为 $d_k$
若 $d_k$ 很大，softmax 输入数值大 → 梯度消失（softmax 饱和）
除以 $\sqrt{d_k}$ 将方差归一化到 1，保持梯度稳定

Multi-Head Attention (MHA)：

$\text{MHA}(X) = \text{Concat}(\text{head}_1, \ldots, \text{head}_h) W^O$

$\text{head}_i = \text{Attn}(XW_i^Q,\; XW_i^K,\; XW_i^V)$

其中 $W_i^Q, W_i^K \in \mathbb{R}^{d_{\text{model}} \times d_k}$ ， $W_i^V \in \mathbb{R}^{d_{\text{model}} \times d_v}$ ， $d_k = d_v = d_{\text{model}} / h$ 。

GQA / MQA 变体 / Variants：

Multi-Query Attention (MQA)： 所有 head 共享同一组 $K, V$ ，仅 $Q$ 不同 → KV cache 显著缩小
Grouped-Query Attention (GQA)： 将 $h$ 个 query head 分成 $g$ 组，每组共享 $K, V$ ，是 MHA 与 MQA 的折中

1.3 Position Encoding / 位置编码

Rotary Position Embedding (RoPE)：

$\tilde{q}_m = q_m e^{im\theta}, \quad \tilde{k}_n = k_n e^{in\theta}$

其中 $\theta_j = 10000^{-2j/d}$ 。

$\langle \tilde{q}_m, \tilde{k}_n \rangle = \text{Re}[q_m^* k_n \, e^{i(m-n)\theta}]$

性质 / Properties：

内积仅依赖相对位置 $(m-n)$ → 自然编码相对位置
无需学习参数（deterministic）
外推性优于 learned positional embedding（配合 NTK-aware scaling 可扩展长度）

RoPE 的实际实现 / Practical Implementation：

$\text{RoPE}(x) = x \odot \cos(m\theta) + \text{rotate\_half}(x) \odot \sin(m\theta)$

对 $x \in \mathbb{R}^{d_k}$ ，rotate_half 实现把前后两半配对 $(x_i, x_{i+d/2})$ 做 2D 旋转（原始 RoPE 论文用相邻对 $(x_{2i}, x_{2i+1})$ ，二者仅差维度排列、数学等价）。

1.4 LoRA — 低秩适配 / Low-Rank Adaptation

动机 / Motivation： 全参数微调大型模型显存开销大（需存储参数、梯度、优化器状态各一份）。LoRA 冻结预训练权重，仅训练低秩增量。

核心公式 / Key Formula：

$h = W_0 x + \Delta W x = W_0 x + BAx$

其中 $W_0 \in \mathbb{R}^{d \times k}$ 冻结， $B \in \mathbb{R}^{d \times r}$ ， $A \in \mathbb{R}^{r \times k}$ ， $r \ll \min(d, k)$ 。

缩放因子 / Scaling：

$h = W_0 x + \frac{\alpha}{r} BAx$

$\alpha$ 为缩放超参数，典型设为 $\alpha = 2r$ 或 $\alpha = r$ 。

参数量分析 / Parameter Count：

原始参数： $d \times k$
LoRA 参数： $d \times r + r \times k = r(d + k)$
例： $d = 4096, k = 4096, r = 16$ → LoRA 参数 = $16 \times 8192 = 131072$ ，占原始的 $131072 / (4096^2) \approx 0.78\%$

初始化 / Initialization：

$A$ ：使用 Kaiming 均匀分布初始化（或高斯）
$B$ ：零初始化 → 训练开始时 $\Delta W = BA = 0$ ，不改变预训练输出

合并推理 / Merge for Inference：

$W_{\text{merged}} = W_0 + \frac{\alpha}{r} BA$

合并后推理无额外开销。

1.5 RLHF 与 DPO / Reinforcement Learning from Human Feedback

奖励模型训练 / Reward Model Training (Bradley-Terry)：

$\mathcal{L}_{\text{RM}} = -\log \sigma\big(r_\phi(x, y_w) - r_\phi(x, y_l)\big)$

其中 $y_w \succ y_l$ 为人工标注的偏好对（preferred vs rejected）。

PPO 目标 / PPO Objective：

$\max_{\pi_\theta} \; \mathbb{E}_{x \sim D,\, y \sim \pi_\theta(\cdot|x)} \!\Big[ r_\phi(x, y) - \beta \, \text{KL}\big(\pi_\theta(\cdot|x) \| \pi_{\text{ref}}(\cdot|x)\big) \Big]$

KL 散度的作用 / Role of KL：

$\beta$ 过小 → reward hacking（策略钻 reward model 的漏洞）
$\beta$ 过大 → 策略几乎不动（退化为 SFT 模型）

DPO（Direct Preference Optimization）/ 直接偏好优化：

绕过显式 reward model，从 Bradley-Terry 模型出发推导：

$\mathcal{L}_{\text{DPO}} = -\log \sigma \!\left( \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)} \right)$

DPO 优势 / Advantages：

无需 RL 采样循环（不需要在训练时生成 response）
无需显式 reward model
训练更稳定，超参更少

DPO 局限 / Limitations：

隐式 reward 可能不如显式 RM 的泛化能力
对偏好数据质量更敏感（没有 RM 的"缓冲"）
不易做 online RL（需要 on-policy 采样来改进）

1.5b RLHF 分布式架构 / Distributed RLHF Architecture

Naive Co-located PPO 的 GPU 利用率问题

最简单的实现方式是把 actor、reference model、critic、reward model 全部跑在同一批 GPU 上（co-located）。瓶颈在 rollout 阶段：

┌─────────────────────────────────────────────────────┐
│  Co-located PPO（简化时间线）                         │
│                                                     │
│  ──[rollout: actor 自回归生成]──►  ──[train: PPO 更新]──► │
│         GPU 忙于推理              trainer 忙，actor 闲   │
└─────────────────────────────────────────────────────┘

rollout 时：actor 逐 token 自回归，计算不密集，GPU MFU（Model FLOP Utilization）往往偏低；trainer（ZeRO/FSDP）处于空闲。
train 时：前向 + 反向计算密集，actor 又没有推理任务；rollout worker 闲置。
结果：两个阶段相互空等，整体 GPU 利用率是两段利用率的加权平均，远低于纯训练或纯推理时的峰值。

⚠️ 这不是精确测量值，具体 MFU 因模型规模、batch size、硬件而异——以上描述的是定性问题，实际数字请参考对应框架（OpenRLHF、veRL 等）的技术报告。

Disaggregated Rollout + Train 拓扑

为解决上述问题，分离（disaggregated） rollout worker 和 train worker：

┌──────────────────────────────────────────────────────────────────┐
│  Disaggregated PPO 拓扑                                          │
│                                                                  │
│  ┌─────────────────────────┐      ┌──────────────────────────┐  │
│  │   Rollout Workers        │      │   Train Workers           │  │
│  │   (vLLM / SGLang 引擎)   │      │   (ZeRO-3 / FSDP)        │  │
│  │                         │      │                          │  │
│  │  actor (inference mode) │─────►│  actor (grad update)     │  │
│  │  ref model (frozen)     │      │  critic (grad update)    │  │
│  │  reward model (frozen)  │      │                          │  │
│  └─────────────────────────┘      └──────────────────────────┘  │
│           │  生成 responses + 奖励              ▲                 │
│           │  (rollout buffer)                  │ 权重同步         │
│           └────────────────────────────────────┘                 │
│              每 N 步（或每轮 rollout）同步一次 actor 权重           │
└──────────────────────────────────────────────────────────────────┘

关键设计点：

Rollout workers 加载 actor 的推理权重（FP16/BF16），用 vLLM 或 SGLang 做 continuous batching 自回归生成，效率高。
Train workers 用 ZeRO-3 或 FSDP 持有完整的可训练参数（含优化器状态），执行 PPO/GRPO 梯度更新。
权重同步（weight sync）：train workers 更新完一批后，将最新 actor 权重广播给 rollout workers。同步频率通常是每个 PPO iteration 同步一次（即每 rollout + train 完整循环）；也有实现支持更精细的分步同步。
Ref model / RM：一般以推理模式常驻在 rollout 侧（冻结权重，无需梯度），节省 train 侧显存。

4 模型显存拆解 + LoRA-in-RL 如何省显存

标准 RLHF 涉及四个模型：

模型	参数	梯度	优化器状态（AdamW）	典型位置
Actor	✅（训练）	✅	✅（ $m, v$ ，FP32 约 8 bytes/参数）	Train workers
Ref model	✅（冻结）	✗	✗	Rollout workers 或独立节点
Critic	✅（训练）	✅	✅	Train workers（可与 actor 共 GPU）
Reward Model	✅（冻结）	✗	✗	Rollout workers

单模型（以 7B 参数为例）显存估算（仅量级，非精确值）：

$M_{\text{param}} \approx 7 \times 10^9 \times 2\,\text{bytes/param (BF16)} \approx 14\,\text{GB}$

$M_{\text{opt}} \approx 7 \times 10^9 \times 8\,\text{bytes} \approx 56\,\text{GB}$

其中 $M_{\text{param}}$ 为参数显存（BF16）， $M_{\text{opt}}$ 此处仅计 FP32 $m$ + $v$ 两个动量（共 8 bytes/参数；fp32 主权重副本另 $+4$ → 完整优化器状态 12 bytes，见 §1.6）。4 个模型 naive co-located，显存需求量级在数百 GB——7B 尚可塞进单机 8×80G，但 naive co-located 的 GPU 利用率很低（见下文）；更大模型（如 70B）显存则远超单机。

LoRA-in-RL 的节省：

仅训练 actor 和 critic 的 LoRA 旁路（ $r \ll d$ ），冻结预训练权重。
梯度和优化器状态只与 LoRA 参数量成比例，参数量减少约 $99\%$ 时（例如 rank=16），优化器状态从 56 GB 量级降到约 1 GB 量级（数量级估算）。
代价：LoRA 本身的表达能力受秩限制，RL 阶段的策略更新幅度可能受约束。实践中 PPO + LoRA 已在多个公开工作中验证可行（具体效果视任务和 rank 而定，需参考原始论文数据）。

Async vs Sync Rollout 的 Staleness

模式	描述	优点	缺点
Sync rollout	rollout 完成后才开始 train，train 完成后才开始下一轮 rollout	无 staleness，on-policy	GPU 利用率低（两阶段轮流空闲）
Async rollout	rollout worker 持续生成，train worker 持续更新；权重同步有延迟	GPU 利用率高，吞吐高	Staleness：rollout 用的是 $k$ 步之前的旧权重，数据是 off-policy 的

Staleness 的影响：

生成数据时用的策略 $\pi_{\theta_{\text{old}}}$ 与更新目标 $\pi_\theta$ 的分布偏差增大。
PPO 的 clip objective 对小幅度 off-policy 有一定容忍度（通过 $r_t(\theta) = \pi_\theta / \pi_{\theta_{\text{old}}}$ 的 importance ratio 矫正），但 staleness 过大时 importance ratio 方差急剧增大。
实践中，许多框架选择 近似同步（每 $k$ 步同步一次权重），在吞吐和 staleness 之间折中。

参考实现：OpenRLHF vs veRL

维度	OpenRLHF	veRL
定位	研究友好、简洁、快速上手	面向大规模生产，性能优化更激进
Rollout 引擎	vLLM（深度集成）	vLLM / SGLang 均支持
训练并行	DeepSpeed ZeRO-3	FSDP + Megatron-LM TP/PP 均支持
4 模型调度	支持 co-located 和 disaggregated 模式	Hybrid Engine（rollout/train 共享 GPU，动态切换）
LoRA-in-RL	✅ 支持	✅ 支持
代码量	较少，架构清晰，适合二次开发	较多，但生产特性完备（checkpoint、fault tolerance）
典型引用场景	学术实验、快速验证算法思路	大规模 post-training 流水线

✅ 两者都是公开实现，可作为"系统设计题"的参考答案骨架。 具体性能数字请参阅各自的官方技术报告和 GitHub，不同版本、硬件间数字差异较大，面试中说"量级"而非精确值更安全。

吞吐量估算：Rollout vs Train GPU-hours 比例

⚠️ 以下为定性量级分析，具体数字因模型规模、response 长度、硬件配置高度敏感，面试中应明确"举例估算"而非引用精确 benchmark。

思路框架（以 7B actor 为例）：

Rollout cost：自回归生成是 memory-bound，每生成 token 仍需过所有层的前向（KV cache 后每步只处理 1 个新 token、而非整个序列，但层数不变），吞吐受 HBM 带宽限制。若平均 response 长度 $L_r$ ，则 rollout 的计算量约正比于 $B \times L_r \times \text{param\_size}$ （内存访问量）。
Train cost：前向 + 反向约为 $6 \times B \times s \times P$ FLOPs（ $s$ 为序列长度， $P$ 为参数量；其中前向 $\approx 2P$ 、反向 $\approx 4P$ ，合计 $6P$ 每 token）。
典型结论（量级）：在 response 较长（数百 token）时，rollout GPU-hours 往往与 train GPU-hours 同量级，甚至更高——这是 disaggregated 架构的核心动机之一。若 rollout 远快于 train，那 disaggregation 的增益有限；若 rollout 是瓶颈，多分配 rollout worker 是自然的扩展方式。

1.6 分布式训练 — 并行策略 / Distributed Training Parallelism

Data Parallelism (DP) / 数据并行

每张卡持有完整模型副本，梯度通过 All-Reduce 同步。

通信量 / Communication： 每步 All-Reduce 参数梯度 = $2 \times |\theta|$ （ring all-reduce）。

ZeRO（Zero Redundancy Optimizer）/ 零冗余优化

阶段 Stage	分片内容 Sharded	显存占比 Memory per GPU
ZeRO-1	Optimizer states（Adam: master + $m$ + $v$ ）	~参数量的 4×（与 DP 相同参数显存）
ZeRO-2	+ Gradients	~参数量的 2×
ZeRO-3	+ Parameters	~参数量的 $1/P$ （P = GPU 数）

代价 / Overhead： ZeRO-3 前向、反向都需 All-Gather 参数，通信量增加（详见下方 $16\Phi$ 说明）。

$16\Phi$ 显存分解（混合精度 Adam， $\Phi$ = 参数量）/ The $16\Phi$ memory breakdown:

组成 Component	精度	字节/参数	显存
模型参数 (fp16)	fp16	2	$2\Phi$
梯度 (fp16)	fp16	2	$2\Phi$
Adam 优化器状态	fp32	12	$12\Phi$

其中优化器状态 $12\Phi$ = fp32 主权重副本 $4\Phi$ + 一阶动量 $m$ （ $4\Phi$ ）+ 二阶动量 $v$ （ $4\Phi$ ），合计 $16\Phi$ （如 7.5B 模型 → 120 GB，单卡放不下）。各 ZeRO 阶段在 $P$ 卡上的单卡显存：

阶段	分片内容	单卡显存	$P\to\infty$
baseline (DP)	无	$16\Phi$	$16\Phi$
ZeRO-1	优化器状态	$2\Phi + 2\Phi + \tfrac{12\Phi}{P}$	$4\Phi$
ZeRO-2	+ 梯度	$2\Phi + \tfrac{14\Phi}{P}$	$2\Phi$
ZeRO-3	+ 参数	$\tfrac{16\Phi}{P}$	$\to 0$

ZeRO-3 三者全分片，通信量约为纯 DP 的 1.5×（前向 all-gather 参数、反向 all-gather 参数 + reduce-scatter 梯度）——用通信换显存。来源：Rajbhandari et al. 2020, arXiv:1910.02054。

Tensor Parallelism (TP) / 张量并行

将每一层的权重矩阵按列或行切分到多张卡。

Column-parallel： $Y = XA$ ， $A$ 按列切分为 $[A_1, A_2]$ ，各卡计算 $XA_i$ ，无需通信即得部分结果。后续若需行切分层，可融合一次 AllReduce。
Row-parallel： $Y = A_1 X_1 + A_2 X_2$ ，各卡独立计算后做一次 AllReduce。

Megatron-LM 设计： Column-parallel Linear → GeLU（本地）→ Row-parallel Linear → AllReduce。整个 MLP 块只需一次 AllReduce（+ 反向一次）。

Pipeline Parallelism (PP) / 流水线并行

将模型按层切段分配到不同机器。

GPipe 策略： 将 mini-batch 拆成 $M$ 个 micro-batch，顺序前向 + 逆序反向。
1F1B 调度： 交替执行 1 次前向和 1 次反向，bubble 率与 GPipe 相同，但把每个 stage 的峰值激活缓存从 $O(M)$ 降到 $O(P)$ 个 micro-batch（受流水线深度限制：反向更早开始、激活更早释放）。
Bubble 率： $\text{Bubble} \approx (P-1) / (M + P - 1)$ ， $P$ = pipeline stages， $M$ = micro-batches。
Interleaved 1F1B（虚拟 stage）： 每设备持有 $v$ 段不连续层，bubble 率降为 $(P-1)/(Mv + P - 1)$ （约非交错版的 $1/v$ ），代价是每 micro-batch 额外 p2p 通信；Megatron-LM 的 interleaved/虚拟流水线调度（启用 virtual pipeline stages 时）。

Sequence Parallelism (SP) / 序列并行

对 LayerNorm、Dropout 等不含参数但占激活显存的操作，沿序列维度切分。

Ring Attention：将长序列切为 $P$ 段分到 $P$ 张卡，通过环形通信传递 KV，激活显存从 $O(N)$ 降为 $O(N/P)$ 。

实践选型 / Practical Guidance：

单机 8 卡：DP/ZeRO-2 + TP（NVLink 快）
多机：DP/ZeRO-3 + PP（跨节点带宽低）+ TP（节点内）

1.6b 解耦服务 — DistServe 与 Mooncake / Disaggregated Serving

传统 LLM 服务将 prefill 和 decode 共享同一 GPU（如 vLLM），但两个阶段的资源需求截然不同：prefill 是 compute-bound（受益于 intra-op 并行），decode 是 memory-bandwidth-bound（受益于增大 batch）。共享 GPU 导致相互干扰——compute-heavy prefill 拖慢 decode（TPOT 膨胀），decode batch 拖慢 prefill（TTFT 膨胀）；且只能采用折中并行策略。

DistServe (Zhong et al., OSDI 2024, arXiv:2401.09670) 首次正式论证解耦 prefill 和 decode 到不同 GPU：prefill 实例和 decode 实例独立配置并行策略，KV cache 通过节点内 NVLINK 快速迁移（OPT-175B ShareGPT 实测 KV cache 传输 <0.1% 总延迟，取决于 placement 和 interconnect）。

核心收益：

指标	vs SOTA (vLLM 等)
最大请求速率 (goodput)	最高 7.4× (vs DeepSpeed-MII)；vs vLLM 各任务 $2.0$ – $5.7\times$
SLO 遵守率	>90% 请求满足延迟约束
单 GPU goodput (13B 示例)	~3.3 rps/GPU (vs ~1.6, 合成工作负载示意)

Mooncake (Qin et al., Moonshot AI / Kimi, arXiv:2407.00079) 将解耦思想工程化为生产系统，同时引入以 KV cache 为中心的架构：

KVCache 池: 利用 GPU 集群中未充分利用的 CPU DRAM + SSD 组成共享 KV cache 池，通过 RDMA（含 GPUDirect）提供高速跨机传输（Messenger 组件；vLLM 集成支持 TCP/NVMe-of 等额外协议）
Conductor 全局调度器: 基于 KV cache 复用潜力 + 节点负载 + SLO 约束做请求调度；过载时预测式提前拒绝
Chunked Pipeline Parallelism (CPP): 长上下文 prefill 分块到多 GPU + 逐层流式传输增量的 KV cache，重叠传输与计算

关键数字： Kimi 真实负载重放测试：~75% 更多请求在 SLO 内处理；长上下文模拟设置下吞吐 50–525% 提升（取决于上下文长度）。Mooncake Transfer Engine 已开源并集成入 vLLM (PR #10884)。

提示 / Note

DistServe vs Mooncake: DistServe 提供理论论证（OSDI 论文），Mooncake 证明工程可行性（Kimi 万级并发）。共同结论：在 SLO 约束和长上下文场景下，prefill/decode 解耦 + 专用并行策略 + KV cache 传输显示出显著收益；非普适法则，但在 serving 前沿是主要方向之一。

1.6c 专家并行 (EP) 与 All-to-All / Expert Parallelism & All-to-All

Mixture-of-Experts (MoE) 模型（如 Mixtral 8×7B、DeepSeek-V3）将 FFN 层拆为多个 expert，每 token 只激活 top-k 个（如 top-2），因此需要专家并行 (Expert Parallelism, EP): 将 expert 分布到不同 GPU，token 通过 all-to-all 通信路由到对应 expert 所在的 GPU。

EP 的核心瓶颈——All-to-All 通信：

在 DeepSpeed-MoE 推理 DeepSeek-V2-236B 的初步实验中（8 GPUs, Speculative MoE 论文），all-to-all 占 expert 层延迟的 ~59%，占模型总前向延迟的 ~47%。EP 的通信成本取决于路由 token 量、hidden size、top-k、dtype 和 interconnect；增加 EP degree 会增加通信参与方和碎片化风险，需与 DP、TP 仔细 trade off。

优化方向：

系统 / 方法	场景	思路	效果
Parm (IEEE INFOCOM 2024)	训练	专用通信调度:消除冗余通信+重叠节点内/间	1.13–5.77× vs DeepSpeed-MoE
MoNTA (arXiv:2411.00662)	训练	基于网络拓扑的并行策略择优	All-to-All 8× 加速，端到端 13% 延迟改善
ScheMoE (2024)	训练	泛化调度框架 + 优化 all-to-all collective + 数据压缩	9–30% vs Tutel/Faster-MoE
Speculative MoE (arXiv:2503.04398)	推理	推测式 token 路由:预判 token-expert 分配减少通信	1.58–6.54× 吞吐 vs DeepSpeed-MoE

EP 与其它并行的组合——「8 卡 TP + EP」的权衡：

节点内 NVLink 带宽高 (900 GB/s)，all-to-all 通信开销相对低 → EP 放节点内
跨节点带宽低 (InfiniBand / RoCE)，all-to-all 通信开销高 → 优先用 DP/PP 而不是跨节点 EP
实际部署中，EP 与 TP 常组合使用：TP 做 dense 层的矩阵乘法分片，EP 做 MoE expert 的分布

注意 / Caution

EP 不是「免费」的并行度: 增加 EP 度虽然降低单卡显存压力，但会增加 all-to-all 的通信参与方数量（每次 all-to-all 需要所有 EP rank 参与）。通信开销随 EP degree 线性增长，需要与 DP、TP 仔细 trade off。

1.6d FSDP2 vs ZeRO — 参数分片策略对比 / FSDP2 vs ZeRO

ZeRO（DeepSpeed, Rajbhandari et al., arXiv:1910.02054）和 FSDP（PyTorch）都通过参数/梯度/优化器状态分片降低单卡显存，但 PyTorch FSDP2 在架构设计上做了根本性改进。

FSDP2 核心变化 — per-parameter DTensor 分片：

维度	FSDP1	FSDP2
参数表示	FlatParameter（多参数展平→单体 tensor）	DTensor per-parameter 分片
FQN	展平后失真	保持不变
状态字典	需要 FULL/SHARDED/LOCAL API	默认 sharded DTensor；全量需显式 materialize
拓扑	ProcessGroup	DeviceMesh / DTensor

reshard_after_forward — ZeRO 等效映射：

`reshard_after_forward`	ZeRO 等效	行为
`True`	ZeRO-3 (FULL_SHARD)	前向后立即释放参数分片，反向重新 all-gather
`False`	ZeRO-2 (SHARD_GRAD_OP)	前向后保留完整参数，反向无需重新通信
`int` (如 8)	ZeRO++ / HSDP	在小 world size 内 all-gather，跨组继续 shard

各 ZeRO Stage 单卡显存占用 (混合精度 Adam，沿用 §1.6 的 $16\Phi$ 约定——参数 $2\Phi$ + 梯度 $2\Phi$ + 优化器状态 $12\Phi$ )：

Stage	参数	梯度	优化器状态	总显存
DDP (baseline)	$2\Phi$	$2\Phi$	$12\Phi$	$16\Phi$
ZeRO-1	$2\Phi$	$2\Phi$	$12\Phi/P$	$4\Phi + 12\Phi/P$
ZeRO-2	$2\Phi$	$2\Phi/P$	$12\Phi/P$	$2\Phi + 14\Phi/P$
ZeRO-3 / FSDP FULL_SHARD	$2\Phi/P$	$2\Phi/P$	$12\Phi/P$	$16\Phi/P$

FSDP2 的通信优化 — pre-/post- hook 隐式预取： 前向 pre-hook → all-gather 参数 → 计算 → post-forward (可选 reshard)；反向 pre-hook → 如需则重新 all-gather → 反向计算 → reduce-scatter 梯度。FSDP2 通过隐式预取重叠通信与计算，在 Llama2-7B 128 A100 训练上比 FSDP1 高 ~1.5% 吞吐。

选型建议：

场景	推荐	原因
模型能单卡装下	DDP	无通信开销
参数能装下，优化器装不下	ZeRO-1	只分片 opt states
中等 SFT / LoRA	ZeRO-2 / FSDP `SHARD_GRAD_OP`	ZeRO-3 的额外 all-gather 反而不划算
70B+ 全参训练	ZeRO-3 / FSDP `FULL_SHARD`	参数必须分片
PyTorch 原生管线	FSDP2 (`fully_shard`)	与 DTensor/DeviceMesh/DCP 深度集成
HuggingFace 生态	DeepSpeed ZeRO	成熟、配置丰富、文档多

陷阱 / Pitfall

陷阱: 「ZeRO-3 最省显存 = 最快」是错的。如果 ZeRO-2 已经装得下，通常比 ZeRO-3 吞吐更高——因为 ZeRO-3 每次前向+反向都要 all-gather 参数，通信量 ~1.5× DP。选最浅的分片级别，不是最深。

1.7 KV Cache 显存分析 / KV Cache Memory Analysis

每层每个 token 需缓存 $K$ 和 $V$ ：

$\text{KV cache (bytes)} = 2 \times L \times n_{\text{kv\_heads}} \times d_{\text{head}} \times s \times B \times \text{bytes\_per\_param}$

$L$ = 层数， $n_{\text{kv\_heads}}$ = KV head 数（GQA 时少于 Q head 数）， $d_{\text{head}}$ = 每个 head 维度， $s$ = 序列长度， $B$ = 并发 batch（请求数）
FP16 下 bytes_per_param = 2

PagedAttention（vLLM）： 将 KV cache 分为固定大小的 page（如 16 tokens/page），按需分配，消除显存碎片，支持更多并发。

1.7b FlashAttention — 从 FA2 到 FA3 / FlashAttention: FA2 → FA3

FlashAttention 是主流通用 CUDA attention 后端，在条件满足时被 PyTorch SDPA / vLLM / HuggingFace 等框架优先选用。核心思路：避免物化完整的 $N\times N$ 注意力矩阵，通过分块 (tiling) + 在线 softmax 重计算，将 $O(N^2)$ 显存降到 $O(N)$ 。

FA2 (Dao, ICLR 2024, arXiv:2307.08691):

在 A100 上前向+反向均达到显著加速（FP16/BF16，~1.3–3× vs 标准 PyTorch attention）
核心优化：减少非 matmul FLOPs（在线 rescaling + causal mask 跳过）、在序列维度并行化、按 warp 重新划分工作；反向从写中间矩阵改为重计算（memory-bound → compute-bound）
A100 利用率 50–73%（取决于序列长度和 head dim），显著高于标准 attention
主要局限：H100 上利用率仅 ~35%（vs GEMM 的 80–90%），因为 FA2 采用同步执行模型，未利用 Hopper 的异步 Tensor Core（WGMMA）和 Tensor Memory Accelerator（TMA）

FA3 (Shah et al., NeurIPS 2024, arXiv:2407.08608): 针对 H100 从硬件-软件协同角度重新设计，三项核心技术：

生产者-消费者异步 (warp specialization): 将 warp 拆为 producer（用 TMA 从 HBM→SMEM 异步搬运 Q/K/V tile）和 consumer（用 WGMMA 在 Tensor Core 做 GEMM + softmax），通过 pingpong SMEM buffer 重叠数据搬运与计算。Hopper 的 setmaxnreg 让 consumer warp 独占更多寄存器（MMA 需大量 regfile），producer 只用 1 线程驱动 TMA
GEMM-softmax 交错 (2-stage pipelining): softmax 的非 GEMM 操作（exp·mul-add·row-max）吞吐低；FA3 重排计算顺序——WGMMA 异步发射下一块 score 矩阵 $S$ 的同时执行当前块的 softmax，把 softmax 延迟隐藏在 GEMM 下，Tensor Core 几乎不空转
FP8 + block quantization + incoherent processing: Hopper FP8 Tensor Core 吞吐是 FP16 的 2×。精确保留方面：per-block scaling 替代 per-tensor scaling + incoherent processing 处理 outlier，数值误差比标准 per-tensor FP8 低 2.6×

性能 (H100 SXM5):

精度	吞吐量	利用率	vs FA2
FP16	740 TFLOPs/s	75%	1.5–2.0×
BF16 (NeurIPS 更新)	840 TFLOPs/s	85%	1.5–2.0×
FP8	1.3 PFLOPs/s	—	~2× (vs FP16)

反向 ~1.5–1.75× vs FA2。FA3 可通过 Dao-AILab flash-attn 库直接使用；HuggingFace 在近期版本中支持 flash_attention_3 作为可选 attention 后端。PyTorch SDPA 截至当前仍以 FA2 为 Flash 后端（FA3 集成属后续工作）。

1.7c RadixAttention — 前缀感知 KV Cache 复用 / RadixAttention & Prefix-Aware KV Cache Reuse

SGLang (Zheng et al., NeurIPS 2024, arXiv:2312.07104) 的核心创新 RadixAttention 是一个自动 KV cache 复用机制——通过将 KV cache 组织为基数树 (radix tree)，实现任意粒度前缀的零计算复用。

基数树结构：

每条边代表一个 token 序列片段，每个节点存储对应的 KV cache tensor
新请求到达时，运行时在树中查找最长匹配前缀——其 KV cache 可直接复用，无需重算（如 system prompt、few-shot 示例、多轮对话历史）
两个请求共享前缀但在某点分叉时，树自动分裂节点，允许细粒度共享
用 LRU (Least Recently Used) 驱逐策略——GPU 显存满时，最久未被访问的分支被剪枝

缓存感知调度 — 最优性保证： SGLang 按匹配前缀长度排序请求（最长共享前缀优先），等价于在基数树上的 DFS 遍历顺序。消融实验中该策略在测试的调度策略中表现最优；论文指出实现为简化版，当等待中的请求共享未入树前缀时可能次优。

性能：

指标	数值
吞吐量 vs vLLM/Guidance	最高 6.4×
延迟降低	最高 3.7×
Chatbot Arena 生产缓存命中率	52–74%
无可复用场景开销	<0.3%

与 vLLM Prefix Caching 的区别： vLLM 用基于哈希的块级方法——每个 KV block 的哈希 = hash(tokens + parent block hash)，适合简单场景（相同 system prompt）。SGLang 论文对比的是 vLLM v0.2.2 及当时的 prefix caching 支持；基数树天然表示细粒度分支前缀和缓存感知调度。两者最新版本已互相借鉴——vLLM 后续版本扩展了 prefix caching 能力，SGLang 也已开源。

提示 / Note

本质: PagedAttention 解决 KV cache 的显存分配问题（不浪费在 padding/碎片上）；RadixAttention 解决 KV cache 的复用问题（不重算已见过的前缀）。两者正交且互补——vLLM 和 SGLang 的最新版本已互相集成对方的技术。

工程演进: SGLang 后续推出 HiCache——将基数树扩展为三级缓存层级: GPU (L1) → CPU Host Memory (L2) → 分布式存储 (L3)，进一步扩展可复用 KV cache 的容量。

1.8 量化基础 / Quantization Fundamentals

对称量化 / Symmetric Quantization：

$x_q = \text{round}\!\left(\frac{x}{s}\right), \quad s = \frac{\max(|x|)}{2^{b-1} - 1}$

非对称量化 / Asymmetric Quantization：

$x_q = \text{round}\!\left(\frac{x}{s}\right) + z, \quad s = \frac{x_{\max} - x_{\min}}{2^b - 1}, \quad z = \text{round}\!\left(\frac{-x_{\min}}{s}\right)\ (\text{整数零点})$

GPTQ — 基于 OBS 的逐层后训练量化（Frantar et al., ICLR 2023, arXiv:2210.17323）：

逐层最小化重建误差 $\|WX - \hat{W}X\|_2^2$ ；沿用 OBS/OBQ，用 Hessian $H = 2XX^\top$ 的逆来补偿。
量化第 $q$ 个权重后，把误差按 $\delta = -\dfrac{w_q - \mathrm{quant}(w_q)}{[H^{-1}]_{qq}}\,(H^{-1})_{:,q}$ 分摊到尚未量化的权重上，抵消量化造成的输出偏移。
GPTQ 的工程化：固定列顺序（免去 OBQ 的逐权重贪心选择）+ Cholesky 分解保数值稳定 + 分块更新，可在数小时内把 175B 量化到 3–4 bit。

AWQ — 激活感知权重量化（Lin et al. 2023, arXiv:2306.00978）：

观察：权重并非同等重要，约 0.1–1% 的"显著权重"由激活幅度（而非权重幅度）识别。
做法：对显著通道做 per-channel 缩放——权重乘 $s>1$ 、对应激活除以 $s$ （ $\hat{W}=W\,\mathrm{diag}(s),\ \hat{X}=X\,\mathrm{diag}(s)^{-1}$ ，乘积 $\hat{X}\hat{W}^\top=XW^\top$ 不变），使显著权重的相对量化误差变小；逐层网格搜索最优 $s$ 。纯前向、无需反传。

SmoothQuant — 把量化难度从激活迁移到权重（Xiao et al., ICML 2023, arXiv:2211.10438）：

问题：激活存在 per-channel 离群值（outlier）极难量化，而权重平滑好量化。
做法：per-channel 平滑 $\hat{X}=X\,\mathrm{diag}(s)^{-1},\ \hat{W}=W\,\mathrm{diag}(s)$ （与上面 AWQ 同朝向，保持 $\hat{X}\hat{W}^\top=XW^\top$ ），缩放因子 $s_j=\dfrac{\max(|X_j|)^\alpha}{\max(|W_j|)^{1-\alpha}}$ （ $\alpha\approx0.5$ ），把激活的动态范围"匀"一部分给权重，实现 W8A8。

FP8（Hopper/H100）： E4M3（4 指数 3 尾数，范围 ±448）用于前向的权重/激活；E5M2（5 指数 2 尾数，动态范围更大 ±57344）用于梯度。相比非对称 INT8 免去零点（zero-point）校准（仍需 per-tensor amax scaling），且浮点表示对离群值更鲁棒。

KV-cache 量化： 长上下文下 KV cache 主导显存。K 沿 channel 维有离群值 → 宜 per-channel 量化；V 较平滑 → per-token 量化（如 KIVI, arXiv:2402.02750）。常用 int8/int4/fp8，可把 KV 显存降 2–4×；int8/fp8 多数任务精度损失可忽略，int4 则依任务而定（长上下文检索更敏感）。

1.8b FP8 训练与 Transformer Engine / FP8 Training & Transformer Engine

H100 引入原生 FP8 Tensor Core（吞吐为 FP16 的 2×），配合 NVIDIA Transformer Engine (TE) 在训练中动态管理 FP8 精度。

FP8 两种子格式：

格式	指数·尾数	范围	用途
E4M3	4 exp + 3 mantissa	±448	前向权重/激活（精度优先）
E5M2	5 exp + 2 mantissa	±57,344	反向梯度（动态范围优先）

TE 的 HYBRID 模式：前向 E4M3 + 反向 E5M2，是推荐配置。

Delayed Scaling 配方（核心机制）：

与 FP16 训练的单全局 loss scale 不同，FP8 动态范围太小，需每个张量独立缩放因子。TE 采用延迟缩放——用前 $N$ 次迭代的 amax（absolute max）历史计算当前步缩放：

$\text{scaling\_factor} = \frac{\text{FP8\_MAX}}{\text{amax}} \ \div\ 2^{margin},\quad \text{amax} = \max(\text{history\_window})$

核心参数：amax_history_len=1024（窗口）、amax_compute_algo="max"（取保守最大值）、margin=0（安全边距，增大可防溢出但降精度）。

混合精度张量布局：

张量	格式	原因
前向激活值	FP8 E4M3	高吞吐 GEMM
权重主副本	BF16/FP32	优化器更新需要精度
梯度 GEMM	FP8 E5M2	宽动态范围
优化器状态	FP32	Adam m/v 稳定更新

使用方式：

from transformer_engine.pytorch import fp8_autocast
from transformer_engine.common.recipe import DelayedScaling, Format

recipe = DelayedScaling(fp8_format=Format.HYBRID, amax_history_len=1024,
                        amax_compute_algo="max", margin=0)

with fp8_autocast(enabled=True, fp8_recipe=recipe):
    out = model(inp)   # 前向在 FP8 下执行
loss = out.mean()
loss.backward()        # ⚠️ backward 必须在 fp8_autocast 外调用

注意 / Caution

关键: backward() 必须在 fp8_autocast 上下文外部调用——TE 需要先聚合跨 GPU 的 amax 再做反向。

训练吞吐量加速比 (H100, vs BF16):

模型规模	加速比	趋势
7–8B	~1.3–1.5×	小模型受限于内存带宽
70B	~1.4–1.6×	GEMM 占比增大
405B (NeMo)	~1.53×	大模型 GEMM 占主导

模型越大加速越显著（GEMM 占比更高 + BF16 内存带宽压力更重，FP8 将权重传输量减半）。

调试提示： 剧烈学习率或小 batch 时延迟缩放可能不稳定（历史 amax 含异常值），可切换 Float8CurrentScaling（用当前张量 amax）。TE Linear 层要求输入维度被 16 整除。

1.8c Marlin INT4 内核 / Marlin INT4 Kernel

Marlin (Frantar et al., IST-DASLab, arXiv:2408.11743) 是面向 GPTQ INT4 权重的极致优化的 FP16×INT4 GEMM 内核，目标是 LLM 推理时的 auto-regressive decode。

核心贡献：

在 A100/Ampere 上同时饱和全部 GPU 资源（全局显存、L2 cache、共享内存、Tensor Core、Vector Core）——此前 INT4 内核在 batch > 1 时性能急剧退化
对 batch size 1–32 的单层 GEMM 微基准达 ~3.9× 加速（此前最优内核仅能覆盖 batch 1–2）
集成 vLLM 端到端推理：最高 2.8× vs FP16（batch 16）；Sparse-Marlin 扩展支持 2:4 稀疏性，kernel 层面 ~5.3×（非端到端）
AutoGPTQ 支持 use_marlin=True 一键转换 GPTQ 权重到 Marlin 格式

提示 / Note

Marlin 的设计哲学与 FA3 相同：不是新数学——是针对具体硬件代数重排计算，让所有执行单元同时忙起来。 batch 1→16 的平坦性能曲线对生产服务尤为关键（意味着可以增大并发批处理而不会损失每 token 延迟）。

1.8d 量化粒度对比 / Quantization Granularity Comparison

量化精度 vs 开销由共享缩放因子的粒度决定。各粒度的工程取舍：

粒度	缩放因子数	精度	典型场景	开销
per-tensor	1 / tensor	最低—离群值撕裂误差大	早期 INT8 推理、per-tensor amax FP8	几乎为零
per-token / per-channel	$T$ 或 $C$	中—各 token/channel 有独立 scale	AWQ / SmoothQuant per-channel；KIVI per-channel K + per-token V	少量额外显存 ( $T \times \text{fp16}$ )
per-group	$T \times C / G$	中上—分组内共享 scale	GPTQ group-128（默认， $G=128$ ）	显存增量 $\propto 1/G$
per-block (FP8)	$T \times C / B$ (B≈128)	高—比 per-group 更细	FA3 FP8 block quantization；TE `Float8BlockScaling`（FP32 scale，B=128 时额外 ~3.1%）	B=128 且 int8 scale 约 0.8%；FP32 scale 约 3.1%
sub-channel / MX	每 32 值共享 E8M0 scale	最高—接近 FP16 精度	MXFP8 / MXFP4（Blackwell B200，32-value block + 8-bit E8M0）	额外 ~3.1% 显存

注意 / Caution

FP8 block scaling ≠ MXFP8：TE Float8BlockScaling 用 128-element block + FP32 scale factor；MXFP8 用 32-element block + E8M0（8-bit）scale。两者共享 "block quantization" 思路，但 block 大小、scale dtype、硬件要求均不同。

选粒度 = 平衡精度 → 开销 → 硬件支持。per-tensor scaling 在 FP8 训练中通过动态 amax（DelayedScaling）可正常工作，但用于低 bit 激活量化和 outlier-heavy 张量时较脆弱；per-group（GPTQ group-128）是 INT4 权重量化的工业标准；per-block/sub-channel 是 FP8/FP4 的方向。

1.9 Speculative Decoding / 投机解码

核心思想： 用小型 draft model 并行预测 $k$ 个 token，再用 target model 一次前向验证。

接受-拒绝采样 / Accept-Reject：

对位置 $t$ ，若 target model 概率 $p(x_t) \geq$ draft model 概率 $q(x_t)$ → 接受
若 $p(x_t) < q(x_t)$ ，以概率 $p(x_t)/q(x_t)$ 接受，否则拒绝并从归一化残差分布 $\dfrac{\max(0,\,p(x) - q(x))}{\sum_x \max(0,\,p(x) - q(x))}$ 重新采样
保证输出分布与直接用 target model 采样完全一致（无损）

加速比 / Speedup： 取决于 draft model 与 target model 的 token 接受率。典型场景下可获得 $1.5\times$ – $2.5\times$ 加速。

1.9b Chunked Prefill / Chunked Prefill

LLM 推理两个阶段的 GPU 利用率截然不同：prefill 处理输入 prompt 是 compute-bound（GPU 高效），decode 逐 token 自回归是 memory-bandwidth-bound（GPU 利用率极低，单 token 成本可达 prefill 的 200×）。

SARATHI (Agrawal et al., Microsoft Research, arXiv:2308.16369) 的核心洞察：decode 的 arithmetic intensity 极低——在 decode batch 中混入一个 compute-heavy 的 prefill chunk，对 decode 延迟的增量很小（LLaMA-13B/A6000 实测：decode-only ~12.49ms/token → 混入 prefill chunk 后约 1.2ms/token），GPU 利用率则大幅提升。具体增量取决于模型规模、硬件和 chunk size。

两个核心技术：

技术	做法	效果
Chunked-Prefills	将一个大 prefill 请求拆成等计算量的 chunk，而非一次处理完	避免长 prefill 阻塞所有 decode
Decode-Maximal Batching	每批 = 1 个 prefill chunk + 填满剩余 slot 的 decode 请求	decode "piggyback" 在 prefill 的 GPU 算力上

性能收益：

模型 / 硬件	Decode 吞吐量	端到端吞吐量	Pipeline Bubble
LLaMA-13B / A6000	10×	1.33×	—
LLaMA-33B / A100	4.25×	1.25×	—
GPT-3 / 64 A100 (PP+TP)	—	1.91×	减少 6.29×

工程落地： vLLM 已合并 chunked prefill（PR #3884），通过 enable_chunked_prefill 开启，max_num_batched_tokens 控制 chunk 大小。TensorRT-LLM、DeepSpeed-MII 等主流框架均已支持。关键参数：chunk size 需匹配硬件 + workload——作者开源了 auto-tuner（自动选满足 TBT SLO 的最大 chunk size）。

提示 / Note

核心启示: SARATHI 没有发明新的 attention 算法——它只是重排了调度顺序（把 prefill 切块 + 与 decode 混批）。这 10× decode 吞吐提升来自认识到 decode 的 memory-bandwidth slack 可以"吸收"prefill 的 compute-heavy chunk 而几乎不增加延迟。一个好的调度算法比一个新 kernel 的收益可能更大。

1.10 模型设计通用框架 / 7-Step ML System Design Framework

步骤	英文	要点
1	Clarify	数据量、模型规模、QPS、延迟 SLA、显存预算、成功指标
2	Data	来源、清洗策略、标注方式（人工/弱监督/模型生成）、数据飞轮
3	Model	架构选择、参数量、Pre-train vs Fine-tune vs RAG、PEFT vs 全参
4	Training Infra	并行策略（DP/TP/PP/SP）、显存优化、batch size、LR schedule
5	Evaluation	离线 benchmark + 人工评估 + Safety eval
6	Serving	量化、dynamic batching、KV cache 管理、延迟 vs 吞吐
7	Monitoring	质量漂移（PPL、accuracy）、数据分布偏移、safety incidents

二、PyTorch 代码片段 / From-Scratch Snippets

以下为教学用途的最小实现，突出核心逻辑，省略生产级的错误处理和优化。

2.1 Scaled Dot-Product Attention

import torch
import torch.nn.functional as F
import math

def scaled_dot_product_attention(
    q: torch.Tensor,   # (batch, n_heads, seq_q, d_k)
    k: torch.Tensor,   # (batch, n_heads, seq_k, d_k)
    v: torch.Tensor,   # (batch, n_heads, seq_k, d_v)
    mask: torch.Tensor | None = None,  # (batch, 1, seq_q, seq_k) or broadcastable
) -> tuple[torch.Tensor, torch.Tensor]:   # returns (output, attn_weights)
    d_k = q.size(-1)
    scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(d_k)
    if mask is not None:
        scores = scores.masked_fill(mask == 0, float("-inf"))
    attn_weights = F.softmax(scores, dim=-1)
    return torch.matmul(attn_weights, v), attn_weights

2.2 Causal Self-Attention Layer

import torch
import torch.nn as nn
import math

class CausalSelfAttention(nn.Module):
    def __init__(self, d_model: int, n_heads: int):
        super().__init__()
        assert d_model % n_heads == 0
        self.n_heads = n_heads
        self.d_k = d_model // n_heads
        self.qkv_proj = nn.Linear(d_model, 3 * d_model, bias=False)
        self.out_proj = nn.Linear(d_model, d_model, bias=False)

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        B, T, C = x.shape
        qkv = self.qkv_proj(x).reshape(B, T, 3, self.n_heads, self.d_k)
        qkv = qkv.permute(2, 0, 3, 1, 4)  # (3, B, H, T, d_k)
        q, k, v = qkv[0], qkv[1], qkv[2]

        # Causal mask: lower triangular
        mask = torch.tril(torch.ones(T, T, device=x.device)).unsqueeze(0).unsqueeze(0)

        scores = (q @ k.transpose(-2, -1)) / math.sqrt(self.d_k)
        scores = scores.masked_fill(mask == 0, float("-inf"))
        attn = torch.softmax(scores, dim=-1)
        out = (attn @ v).transpose(1, 2).reshape(B, T, C)
        return self.out_proj(out)

2.3 LoRA Layer

36 行 / lines

import torch
import torch.nn as nn
import math

class LoRALinear(nn.Module):
    """Wraps a frozen nn.Linear and adds a trainable low-rank delta."""

    def __init__(self, base_linear: nn.Linear, rank: int = 16, alpha: float = 32):
        super().__init__()
        self.base = base_linear
        self.base.weight.requires_grad_(False)
        if self.base.bias is not None:
            self.base.bias.requires_grad_(False)

        in_features = base_linear.in_features
        out_features = base_linear.out_features

        self.lora_a = nn.Parameter(torch.empty(rank, in_features))
        self.lora_b = nn.Parameter(torch.zeros(out_features, rank))  # B init to 0
        nn.init.kaiming_uniform_(self.lora_a, a=math.sqrt(5))
        self.scaling = alpha / rank

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        base_out = self.base(x)
        lora_out = (x @ self.lora_a.T @ self.lora_b.T) * self.scaling
        return base_out + lora_out

    def merge(self) -> nn.Linear:
        """Return a new Linear with merged weights (for deployment)."""
        merged_weight = self.base.weight.data + (self.lora_b @ self.lora_a) * self.scaling
        new_linear = nn.Linear(self.base.in_features, self.base.out_features, bias=self.base.bias is not None)
        new_linear.weight.data.copy_(merged_weight)
        if self.base.bias is not None:
            new_linear.bias.data.copy_(self.base.bias.data)
        return new_linear

2.4 Grouped-Query Attention (GQA)

42 行 / lines

import torch
import torch.nn as nn
import math

class GroupedQueryAttention(nn.Module):
    def __init__(self, d_model: int, n_q_heads: int, n_kv_heads: int):
        super().__init__()
        assert n_q_heads % n_kv_heads == 0
        self.n_q_heads = n_q_heads
        self.n_kv_heads = n_kv_heads
        self.n_rep = n_q_heads // n_kv_heads  # repeat factor
        self.d_k = d_model // n_q_heads

        self.wq = nn.Linear(d_model, n_q_heads * self.d_k, bias=False)
        self.wk = nn.Linear(d_model, n_kv_heads * self.d_k, bias=False)
        self.wv = nn.Linear(d_model, n_kv_heads * self.d_k, bias=False)
        self.wo = nn.Linear(d_model, d_model, bias=False)

    @staticmethod
    def _repeat_kv(x: torch.Tensor, n_rep: int) -> torch.Tensor:
        """Repeat KV heads to match Q heads: (B, n_kv, T, d_k) -> (B, n_q, T, d_k)."""
        if n_rep == 1:
            return x
        B, N, T, D = x.shape
        return x[:, :, None, :, :].expand(B, N, n_rep, T, D).reshape(B, N * n_rep, T, D)

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        B, T, _ = x.shape
        q = self.wq(x).view(B, T, self.n_q_heads, self.d_k).transpose(1, 2)
        k = self.wk(x).view(B, T, self.n_kv_heads, self.d_k).transpose(1, 2)
        v = self.wv(x).view(B, T, self.n_kv_heads, self.d_k).transpose(1, 2)

        k = self._repeat_kv(k, self.n_rep)
        v = self._repeat_kv(v, self.n_rep)

        mask = torch.tril(torch.ones(T, T, device=x.device)).unsqueeze(0).unsqueeze(0)
        scores = (q @ k.transpose(-2, -1)) / math.sqrt(self.d_k)
        scores = scores.masked_fill(mask == 0, float("-inf"))
        attn = torch.softmax(scores, dim=-1)
        out = (attn @ v).transpose(1, 2).reshape(B, T, -1)
        return self.wo(out)

2.5 RoPE (Rotary Position Embedding)

import torch

def precompute_rope_freqs(dim: int, max_len: int = 4096, base: float = 10000.0):
    """Precompute sin/cos tables for RoPE."""
    freqs = 1.0 / (base ** (torch.arange(0, dim, 2).float() / dim))  # (dim/2,)
    t = torch.arange(max_len).float()           # (max_len,)
    freqs = torch.outer(t, freqs)                # (max_len, dim/2)
    return torch.cos(freqs), torch.sin(freqs)    # each (max_len, dim/2)

def apply_rope(x: torch.Tensor, cos: torch.Tensor, sin: torch.Tensor) -> torch.Tensor:
    """Apply RoPE to input tensor.
    x: (batch, n_heads, seq_len, d_k)
    cos, sin: (seq_len, d_k/2)
    """
    d_half = x.shape[-1] // 2
    x1 = x[..., :d_half]
    x2 = x[..., d_half:]
    cos = cos.unsqueeze(0).unsqueeze(0)  # broadcast
    sin = sin.unsqueeze(0).unsqueeze(0)
    out1 = x1 * cos - x2 * sin
    out2 = x2 * cos + x1 * sin
    return torch.cat([out1, out2], dim=-1)

2.6 DPO Loss

import torch
import torch.nn.functional as F

def dpo_loss(
    policy_logps_w: torch.Tensor,   # log pi_theta(y_w | x)
    policy_logps_l: torch.Tensor,   # log pi_theta(y_l | x)
    ref_logps_w: torch.Tensor,      # log pi_ref(y_w | x)
    ref_logps_l: torch.Tensor,      # log pi_ref(y_l | x)
    beta: float = 0.1,
) -> torch.Tensor:
    """Direct Preference Optimization loss."""
    log_ratio_w = policy_logps_w - ref_logps_w
    log_ratio_l = policy_logps_l - ref_logps_l
    logits = beta * (log_ratio_w - log_ratio_l)
    return -F.logsigmoid(logits).mean()

2.7 KV Cache Wrapper (Minimal)

import torch

class KVCache:
    """Minimal KV cache (batch=1) for autoregressive generation."""

    def __init__(self, max_len: int, n_heads: int, d_k: int, device: torch.device):
        self.max_len = max_len
        self.k = torch.zeros(1, n_heads, max_len, d_k, device=device)
        self.v = torch.zeros(1, n_heads, max_len, d_k, device=device)
        self.cur_len = 0

    def append(self, new_k: torch.Tensor, new_v: torch.Tensor):
        """Append new KV from one decoding step."""
        seq_len = new_k.shape[2]
        self.k[:, :, self.cur_len:self.cur_len + seq_len] = new_k
        self.v[:, :, self.cur_len:self.cur_len + seq_len] = new_v
        self.cur_len += seq_len

    def get(self):
        """Return the current cached KV (trimmed to cur_len)."""
        return self.k[:, :, :self.cur_len], self.v[:, :, :self.cur_len]

2.8 Symmetric INT8 Quantize / Dequantize

import torch

def symmetric_quantize_int8(weight: torch.Tensor):
    """Per-tensor symmetric INT8 quantization."""
    scale = weight.abs().max() / 127.0
    w_q = torch.round(weight / scale).clamp(-127, 127).to(torch.int8)  # symmetric: [-127,127] matches /127 scale
    return w_q, scale

def symmetric_dequantize_int8(w_q: torch.Tensor, scale: float) -> torch.Tensor:
    """Dequantize INT8 back to float."""
    return w_q.float() * scale

2.9 Tensor-Parallel Linear (Column / Row)

32 行 / lines

import torch
import torch.nn as nn

# Megatron 张量并行 Linear 的核心是一对共轭通信算子 f / g：
#   f：前向 identity，反向 all-reduce；  g：前向 all-reduce，反向 identity。
# 下面用单进程模拟 2-way 切分（all-reduce 退化为对分片求和 / all-gather 退化为 cat），
# 并验证 TP 结果与未切分 Linear 完全一致。Single-process simulation of 2-way TP.

def column_parallel(X, W, b, n_shards=2):
    """列并行：按 out_features 切 W=[W_1..W_n]，各卡本地算 X·W_iᵀ，输出沿特征维分片。
    Column-parallel: split W along output dim; no comm needed to get sharded output."""
    Ws, bs = torch.chunk(W, n_shards, dim=0), torch.chunk(b, n_shards, dim=0)
    outs = [X @ Wi.T + bi for Wi, bi in zip(Ws, bs)]   # 每张卡独立计算 / local matmul
    return torch.cat(outs, dim=-1)                      # 仅本地验证用拼接；fused MLP 中输出保持分片、不 gather

def row_parallel(X, W, b, n_shards=2):
    """行并行：输入 X 已沿特征维分片，按 in_features 切 W，各卡算部分积后 all-reduce 求和。
    Row-parallel: input is feature-sharded; partial products summed via all-reduce."""
    Xs, Ws = torch.chunk(X, n_shards, dim=-1), torch.chunk(W, n_shards, dim=1)
    partial = [Xi @ Wi.T for Xi, Wi in zip(Xs, Ws)]
    return sum(partial) + b                             # g 算子：all-reduce（此处 sum 模拟），bias 只加一次

# --- 验证：TP 等价于普通 Linear / TP equals a plain Linear ---
torch.manual_seed(0)
B, d_in, d_out = 4, 8, 6
X = torch.randn(B, d_in)
ref = nn.Linear(d_in, d_out)
W, b = ref.weight.data, ref.bias.data                  # W: (d_out, d_in), b: (d_out,)
Y_ref = ref(X)
print("column-parallel max err:", (column_parallel(X, W, b) - Y_ref).abs().max().item())  # ~0
print("row-parallel    max err:", (row_parallel(X, W, b) - Y_ref).abs().max().item())     # ~0

Megatron MLP 把 column-parallel → GeLU（本地）→ row-parallel 串联，整个块前向只需一次 all-reduce（反向一次），把通信摊薄到最少。

三、面试题 / Interview Questions

L1 — 基础 / Basic

Q1: Transformer 中 self-attention 的时间复杂度是多少？如何降低？

答 / Answer： 标准 self-attention 时间复杂度为 $O(n^2 d)$ （ $n$ 为序列长度， $d$ 为维度），因为需要计算 $n \times n$ 的注意力矩阵。降低方法包括：

FlashAttention： 不改变数学结果，通过 tiling 和 recomputation 减少 HBM 访问，实际墙钟时间降低
稀疏 Attention： Longformer/BigBird 使用局部窗口 + 全局 token，复杂度降至 $O(n \cdot w)$
Linear Attention： 用核函数近似 softmax，复杂度 $O(n d^2)$ ，但精度通常有损失

追问 / Follow-up： FlashAttention 为什么不算"近似"attention？它做了哪些底层优化？

FlashAttention 将 Q、K、V 分块（tiling）载入 SRAM，在 SRAM 中计算 softmax 的 online normalization（通过维护 running max 和 running sum），然后将结果写回 HBM。数学上与标准 attention 完全等价，只是减少了 HBM 读写次数。

Q2: 什么是 Layer Normalization？它和 Batch Normalization 有什么区别？

答 / Answer：

BatchNorm： 对同一特征维度，跨 batch 维度计算均值和方差。训练时需维护 running mean/var，推理时用固定统计量。对 batch size 敏感，不适合变长序列。
LayerNorm： 对同一样本，跨特征维度计算均值和方差（每个 token 独立归一化），不依赖 batch 统计。Transformer 中的标准选择。

$\text{LN}(x) = \gamma \odot \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} + \beta$

追问 / Follow-up： RMSNorm 相比 LayerNorm 有什么优势？

RMSNorm 去掉了 mean-centering 步骤，仅做 variance normalization： $\text{RMSNorm}(x) = \gamma \odot x / \sqrt{\text{mean}(x^2) + \epsilon}$ 。计算量略少，实践效果相近，被 LLaMA 系列采用。

Q3: 什么是梯度裁剪（gradient clipping）？为什么 LLM 训练中几乎必用？

答 / Answer： 梯度裁剪将梯度的范数限制在一个阈值以内： $\text{if } \|g\| > c: \quad g \leftarrow g \cdot \frac{c}{\|g\|}$ LLM 训练中，少数异常样本可能产生极大梯度（gradient spike），导致参数突变甚至 NaN。梯度裁剪（典型 $c = 1.0$ ）是防止训练崩溃的标准手段。

追问 / Follow-up： 如何判断 gradient clipping 的阈值设得是否合适？

观察训练日志中 clipping 的触发频率。偶尔触发（< 5% 的步数）是正常的；若频繁触发说明 learning rate 可能过大；若从未触发且训练稳定，阈值可能偏大。

Q4: 什么是 warmup 和 cosine decay？为什么 LLM 预训练常用这个 LR schedule？

答 / Answer：

Warmup： 训练初期线性增加 learning rate（通常前 1%–3% steps），因为初始时模型参数随机，梯度方向不稳定，大学习率容易发散。
Cosine decay： warmup 后 LR 按余弦曲线从峰值衰减到接近零： $\eta_t = \eta_{\min} + \frac{1}{2}(\eta_{\max} - \eta_{\min})(1 + \cos(\pi t / T))$

追问 / Follow-up： WSD（Warmup-Stable-Decay）schedule 和 cosine schedule 有什么区别？

WSD 在 warmup 后保持恒定 LR（stable phase），最后再快速 decay。优势是中间 checkpoint 质量较好，适合需要在训练中间取 checkpoint 做 downstream 评估的场景。

Q5: 解释 flash attention 的基本原理，为什么它能加速？

答 / Answer： FlashAttention 的核心是 IO-aware 算法设计：

将 Q、K、V 切成小块（block），每块足够小以放入 GPU SRAM（on-chip memory）
在 SRAM 中完成 softmax 和矩阵乘法
使用 online softmax（通过维护 row-wise max 和 sum 的 running statistics）避免需要全局信息才能计算 softmax
不需要将 $n \times n$ 的注意力矩阵写入 HBM（显存），从而减少 HBM 读写量

加速来源：标准 attention 需要将注意力矩阵写入/读出 HBM，HBM 带宽是瓶颈；FlashAttention 将计算集中在 SRAM，HBM 读写量从 $O(n^2)$ 降到 $O(n^2 d^2 / M)$ （ $M$ 为 SRAM 大小）。

追问 / Follow-up： FlashAttention 对训练和推理的收益分别有多大？

训练中主要节省反向传播时的 HBM 访问（正向不存注意力矩阵，反向需要时重新计算）；推理中主要在 prefill 阶段受益（长 prompt），decode 阶段（单 token）收益较小。

Q6: 什么是 PEFT（Parameter-Efficient Fine-Tuning）？列举至少三种方法并简述。

答 / Answer：

LoRA / QLoRA： 在权重矩阵旁插入低秩旁路（ $BA$ ），仅训练旁路参数。QLoRA 进一步将基础权重量化为 4-bit。
Prefix Tuning： 在每层 attention 的 key 和 value 前拼接可训练的"虚拟 token"向量。
Adapter： 在 Transformer 子层之间插入小型 MLP bottleneck（down-projection → 非线性 → up-projection），仅训练 adapter 参数。
Prompt Tuning： 在输入 embedding 前拼接少量可训练的 soft prompt 向量（仅在输入层）。

追问 / Follow-up： 这些方法的参数效率和表达能力之间有什么 trade-off？

参数越少越省显存，但表达能力上限越低。LoRA 因直接作用于权重矩阵，在参数量相近时通常表现优于 adapter 和 prefix tuning。极端场景（如仅有几十条数据）下，参数少反而能防止过拟合。

Q7: Continuous batching 和 static batching 有什么区别？

答 / Answer：

Static batching： 收集一批请求，等所有请求都生成完毕才释放 batch。如果一个请求很短而其他很长，短请求完成后 GPU 资源被浪费（padding 等待）。
Continuous batching（iteration-level scheduling）： 每生成一步（一个 token），就检查是否有请求完成，完成的请求立即被新请求替换。GPU 利用率显著提升。

追问 / Follow-up： PagedAttention 和 continuous batching 是配合使用的吗？

是的。Continuous batching 解决了"什么时候调度请求"的问题，PagedAttention 解决了"KV cache 如何分配显存"的问题——将 KV cache 分成固定大小的 page，按需分配，避免因请求长度不一导致的显存碎片。

L2 — 中级 / Intermediate

Q8: 解释 ZeRO 的三个阶段分别做了什么，各自的通信开销如何？

答 / Answer：

ZeRO-1： 将 optimizer states（AdamW 的 FP32 主权重副本 + $m$ + $v$ ，共 12 bytes/参数）分片到各卡。每卡只维护 $1/P$ 的 optimizer state，更新后 AllGather 参数。
ZeRO-2： 在 ZeRO-1 基础上，将梯度也分片。每卡只保存 $1/P$ 的梯度（其余 Reduce-Scatter 后丢弃）。
ZeRO-3： 参数也分片。前向和反向时，按需 AllGather 所需参数，用完释放。

追问 / Follow-up： 在什么情况下 ZeRO-2 比 ZeRO-3 更好？

当模型能 fit 到单卡的参数显存中（但 optimizer states 放不下）时，ZeRO-2 通信量更小。典型场景是用 gradient checkpointing + ZeRO-2 微调中等规模模型（如 7B–13B）。

Q9: PPO 在 RLHF 中的具体实现流程是什么？为什么需要 KL 惩罚？

答 / Answer： RLHF-PPO 每步流程：

采样一批 prompt，用当前 policy $\pi_\theta$ 生成 response
用 reward model 对每个 (prompt, response) 打分
用 reference policy $\pi_{\text{ref}}$ 计算 KL 惩罚
计算 advantage（通常用 GAE）
用 PPO clip 目标更新 policy（多轮 mini-batch 更新）

需要 KL 惩罚的原因： 没有 KL 约束，policy 会快速偏向 reward model 的 OOD（out-of-distribution）盲区——生成 reward model 评分高但人类实际不喜欢的回复（reward hacking）。KL 惩罚让 policy 不偏离 $\pi_{\text{ref}}$ （即 SFT 模型）太远。

追问 / Follow-up： Reward hacking 能给一个具体例子吗？

比如 reward model 偏好长回答（因为训练数据中好答案通常较长），policy 可能学到无论什么问题都生成很长的、充满重复内容的回答来获得高分，但人类评估者会觉得冗长无用。

Q10: 如何防止指令微调（instruction tuning）导致的灾难性遗忘？

答 / Answer： 常见方法：

Replay / 混合训练： 在 SFT 数据中混入一部分通用指令数据或预训练数据
LoRA / PEFT： 只更新少量参数，预训练知识保留在冻结的主权重中
正则化： EWC（Elastic Weight Consolidation）等方法对重要参数施加惩罚，防止大幅偏离
低学习率： 全参微调时用比预训练低 1–2 个数量级的 LR

追问 / Follow-up： 如何量化"灾难性遗忘"的程度？

在微调前后分别在通用 benchmark（如 MMLU、HellaSwag）和目标任务 benchmark 上评估。若通用 benchmark 性能下降超过几个百分点，说明存在显著遗忘。

Q11: GPTQ 和 AWQ 的核心思路有什么不同？

答 / Answer：

GPTQ（Optimal Brain Quantization 系列）： 逐层量化，利用二阶信息（Hessian 逆）最小化量化前后的层输出重建误差。按列顺序量化，每量化一列就更新剩余列的补偿。
AWQ（Activation-Aware Weight Quantization）： 核心观察是少数"显著通道"（salient channels，激活值大的通道）对输出质量至关重要。AWQ 对这些通道的权重进行保护（如使用 per-channel scaling 提升有效精度），而非均匀量化所有权重。

追问 / Follow-up： 量化到 INT4 时，为什么 smooth quant 对激活值很重要？

激活值中常有 outlier（异常大的值），导致量化范围被拉大，有效精度降低。SmoothQuant 通过将激活的 outlier "迁移"到权重中（数学上等价的 per-channel scaling），使激活分布更均匀，从而使权重和激活都能量化到较低位宽。

Q12: Sequence Parallelism 和 Tensor Parallelism 如何配合工作？

答 / Answer： 在 Megatron-LM 的设计中：

TP 切分线性层（attention 和 MLP 的权重矩阵）
SP（Sequence Parallelism）切分 非线性操作（LayerNorm、Dropout）的激活值——沿序列维度切分
连接点：TP 层结束时需要 AllReduce（或 ReduceScatter），SP 层结束时也需通信。Megatron-LM 将这两个通信融合（fuse），实际没有增加通信量。

好处：TP 的 AllReduce 后激活在每卡上是完整序列（冗余），SP 去掉这个冗余，每卡只保存 $1/P$ 的序列激活，显著降低激活内存。

追问 / Follow-up： SP 对梯度 checkpointing 有帮助吗？

有。SP 减少了每卡保存的激活量，如果不用 gradient checkpointing，激活显存从 $O(L \cdot n \cdot d)$ 降到 $O(L \cdot n/P \cdot d)$ 。即使用了 gradient checkpointing，recompute 时的临时显存也相应减少。

Q13: 解释 RLHF 中 reward model 的训练方法，以及如何评估 reward model 的质量。

答 / Answer：

训练： 使用 Bradley-Terry 偏好模型。给定 prompt $x$ 和一对 response $(y_w, y_l)$ （ $y_w$ 被标注为更好），reward model 的 loss 为 $-\log \sigma(r(x, y_w) - r(x, y_l))$ 。模型通常从 SFT 模型初始化，去掉语言模型 head，换上一个输出标量的 head。
评估指标：
- 偏好预测准确率： 在 held-out 偏好对上预测哪个更好的准确率
- Reward 分布区分度： chosen 和 rejected 的 reward 分布是否充分分离
- Reward hack 鲁棒性： 在 policy 生成的 OOD response 上，reward 是否仍能合理排序

追问 / Follow-up： 为什么 reward model 需要定期更新？

因为 policy 在 RL 训练中不断变化，生成的 response 分布会逐渐偏离 reward model 训练时的数据分布（即 SFT 模型的输出分布）。在分布外数据上，reward model 可能给出不准确的评分，导致 reward hacking。

Q14: vLLM 的 PagedAttention 解决了什么问题？具体机制是什么？

答 / Answer：

问题： 传统 KV cache 为每个请求预分配一块连续显存（按最大序列长度）。但实际生成长度不一，导致大量显存浪费（内部碎片）且无法在请求间共享（外部碎片）。
PagedAttention 机制： 借鉴操作系统的虚拟内存分页思想：
1. 将 KV cache 分成固定大小的 block（如每 block 存 16 个 token 的 KV）
2. 用 block table 记录每个请求的逻辑 block 到物理 block 的映射
3. 生成新 token 时动态分配新 block，请求结束后释放
4. 支持 copy-on-write：对 beam search 中共享同一 prefix 的多个 beam，KV block 可以共享

追问 / Follow-up： PagedAttention 对 latency 有负面影响吗？

block table 的地址间接寻址引入了少量开销（相对于连续内存直接访问），但在实际推理中这个开销非常小（通常 < 5%），因为 attention 计算本身是 compute-bound 或 memory-bound 的，寻址开销不是瓶颈。

Q15: 如何设计一个 LLM 的离线评估套件（eval harness）？需要考虑哪些方面？

答 / Answer：

任务抽象： 每个 task 定义 dataset、prompt template（few-shot 格式）、metric、output type（generation / loglikelihood）
评估模式：
- Likelihood-based（如 MMLU）：计算各选项 log-prob，选最大者
- Generation-based（如 GSM8K）：生成后用规则/code exec 判断
- LLM-as-judge（如 MT-Bench）：用更强的模型打分
可复现性： 固定 seed、记录 prompt template 和 few-shot 示例、temperature=0（或固定）
效率： likelihood 题适合大 batch；generation 题按长度排序减少 padding
防污染： 检测训练数据与 test set 的 n-gram 重叠

追问 / Follow-up： 为什么要区分 "knowledge" 和 "reasoning" 评估？

因为模型可能在 knowledge-heavy 任务（如 MMLU 中的事实题）上表现好，但在 reasoning-heavy 任务（如数学、代码）上表现差，反之亦然。分开评估有助于定位模型能力短板。

Q16: 如何为 LLM 微调选择合适的 LoRA rank？

答 / Answer： 需要考虑的因素：

任务复杂度： 简单的分类/抽取任务 r=4–16 通常足够；复杂的推理/生成任务可能需要 r=32–64
数据量： 数据少时用小 rank 防止过拟合；数据充足时可以增大 rank 提升容量
target modules： 仅对 q_proj, v_proj 应用 LoRA（参数最少）→ 对所有 linear 层应用（q/k/v/o + MLP 的 gate/up/down）参数更多但效果通常更好
常见做法： 从 r=16 开始，α=2r，在验证集上比较 r=8/16/32/64 的效果

追问 / Follow-up： LoRA 可以和 QLoRA 结合使用吗？4-bit 量化基础权重 + LoRA 低秩更新的精度损失大吗？

可以，QLoRA 就是这个思路。实践表明，4-bit NF4 量化基础权重 + LoRA 微调，在多数任务上与 FP16 全参微调的差距在可接受范围内（通常 1–3 个百分点内），但显存节省巨大。

Q-RLHF-A（L2）：为什么 naive co-located PPO 的 GPU 利用率低？Disaggregated 架构如何解决这个问题？

答 / Answer：

Naive co-located PPO 将 rollout 和 train 串行在同一批 GPU 上：

Rollout 阶段：actor 做自回归推理（memory-bound，吞吐受 HBM 带宽限制），trainer 空等。
Train 阶段：PPO 反向传播计算密集，rollout worker 空等。

两段交替，整体 GPU 利用率等于两段分别利用率的加权平均，远低于纯训练峰值。

Disaggregated 架构的解法：

独立的 rollout workers（vLLM/SGLang 引擎）持续生成 response，产出 rollout buffer。
独立的 train workers（ZeRO-3/FSDP）从 buffer 取数据，持续执行 PPO/GRPO 更新。
两组 worker 并发运行，权重以某一频率（通常每 iteration）同步。

这样 rollout 和 train 各自针对自身负载优化（推理引擎 vs. 训练框架），不再相互阻塞。

追问 1 / Follow-up 1： Disaggregated 架构下，rollout worker 和 train worker 需要多大的权重同步带宽？

以 7B 参数 BF16 为例，一次完整权重同步约 14 GB 数据。若每分钟同步一次，约 14 GB ÷ 60 s ≈ 0.23 GB/s，远低于 NVLink/RDMA 带宽上限（同步开销可忽略）。若用 LoRA-in-RL，只需同步 LoRA 参数（量级 ~100 MB），同步开销大幅降低。

追问 2 / Follow-up 2： Async rollout 引入的 staleness 对 PPO 有什么影响？如何缓解？

Staleness 导致 rollout 使用旧参数 $\pi_{\theta_{\text{old}}}$ 生成数据，形成 off-policy 偏差。PPO 的 importance ratio clip（ $\epsilon \approx 0.1\text{–}0.2$ ）对小幅 staleness 有容忍度，但 staleness 过大时梯度估计方差增大，训练不稳定。缓解方式：控制权重同步频率（不超过几个 mini-batch 更新），或使用更激进的 importance sampling 校正。

L3 — 深度 / Deep

Q17: Megatron-LM 的 Column-Parallel 和 Row-Parallel Linear 是如何减少 AllReduce 次数的？

答 / Answer：

考虑两层连续的线性变换 $Y = GELU(XA)B$ （MLP block）， $A \in \mathbb{R}^{h \times 4h}$ ， $B \in \mathbb{R}^{4h \times h}$ ：

Column-Parallel $A$ ： 将 $A$ 按列切为 $[A_1, A_2]$ ，每卡计算 $GELU(X A_i)$ ——独立完成，无需通信。GELU 是逐元素操作，天然可分。
Row-Parallel $B$ ： 将 $B$ 按行切为 $\begin{bmatrix} B_1 \\ B_2 \end{bmatrix}$ ，每卡计算 $Y_i = GELU(XA_i) B_i$ 。
最后 AllReduce： $Y = Y_1 + Y_2$ （一次 AllReduce）。

关键洞察：Column-Parallel 输出正好是 Row-Parallel 的输入，中间的非线性函数（GELU）是逐元素的，不需要通信。因此 整个 MLP block 只需一次 AllReduce（前向），反向时也只需一次。

若不做这个设计，每层都需 AllReduce，通信量翻倍。

追问 / Follow-up： Attention block 的 QKV 投影和 output 投影也能用同样的技巧吗？

是的。QKV 投影用 Column-Parallel（输出分给各 head，自然按列切分），output 投影用 Row-Parallel，然后 AllReduce。整个 attention block 也只需一次 AllReduce。

Q18: Speculative Decoding 为什么是无损的？推导接受概率。

答 / Answer：

设 target model 分布为 $p(x)$ ，draft model 分布为 $q(x)$ 。

接受-拒绝采样：

从 $q(x)$ 采样 token $x$
若 $p(x) \geq q(x)$ ：接受（概率 1）
若 $p(x) < q(x)$ ：以概率 $p(x)/q(x)$ 接受

接受 token 为 $x$ 的总概率：

从 $q$ 采样到 $x$ 且接受： $q(x) \cdot \min(1, p(x)/q(x)) = \min(p(x), q(x))$
从 $q$ 采样到 $x$ 且拒绝后重新采样到 $x$ ：更复杂但可推导

最终有效概率：

$P(\text{output}=x) = \min(p(x), q(x)) + \underbrace{\Big(1 - \sum_i \min(p(i), q(i))\Big)}_{P(\text{reject})} \cdot \frac{\max(0, p(x) - q(x))}{1 - \sum_i \min(p(i), q(i))}$

第二项 = 拒绝概率 $\times$ 归一化残差分布，拒绝概率恰好抵消分母得 $\max(0, p(x)-q(x))$ ；于是 $P(\text{output}=x) = \min(p,q) + \max(0,\,p-q) = p(x)$ ，精确等于 target 分布。

核心直觉：当 $p(x) > q(x)$ 时，draft model "欠采样"了 $x$ ，需要从 rejection 的剩余概率中补偿；当 $p(x) < q(x)$ 时，通过拒绝来"减掉"多余概率。

追问 / Follow-up： Speculative decoding 的效率瓶颈在哪里？

瓶颈在于 draft model 的接受率。如果 draft model 和 target model 分布差距大，接受率低，大部分 draft token 被拒绝，加速效果差。改善方法包括：用 medusa-style 多头预测、或选择与 target model 分布更接近的 draft model。

Q19: DPO 从 Bradley-Terry 偏好模型是如何推导出来的？

答 / Answer：

Step 1： Bradley-Terry 模型假设最优 policy $\pi^*$ 满足：

$p(y_w \succ y_l | x) = \sigma(r^*(x, y_w) - r^*(x, y_l))$

Step 2： 在 KL 约束下，最优 policy 的封闭解为：

$\pi^*(y|x) = \frac{1}{Z(x)} \pi_{\text{ref}}(y|x) \exp\!\left(\frac{r(x,y)}{\beta}\right)$

其中 $Z(x)$ 是配分函数。

Step 3： 从中解出 reward：

$r(x, y) = \beta \log \frac{\pi^*(y|x)}{\pi_{\text{ref}}(y|x)} + \beta \log Z(x)$

Step 4： 将 $r$ 代入 Bradley-Terry 模型， $Z(x)$ 在差值中抵消：

$p(y_w \succ y_l | x) = \sigma\!\left(\beta \log \frac{\pi^*(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi^*(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)$

Step 5： 将 $\pi^*$ 替换为可训练的 $\pi_\theta$ ，取负对数似然即得 DPO loss。

追问 / Follow-up： DPO 推导假设偏好数据来自最优策略，这个假设在实践中会带来什么问题？

实践中偏好数据通常来自 SFT 模型（非最优策略），这导致 DPO 隐式学习的 reward 可能不够准确。这也是 online DPO（iterative DPO，每轮用最新 policy 生成数据）效果通常优于 offline DPO 的原因。

Q20: 评估 LLM 时，benchmark 饱和（saturation）是什么问题？如何应对？

答 / Answer：

问题： 当主流模型在某个 benchmark（如 MMLU）上得分接近天花板（如 >90%），区分度下降。可能的原因包括：
- 训练数据污染（test set 数据被混入训练集）
- 任务本身难度不足（主要是知识检索，非深度推理）
- 评测格式被优化（模型针对 benchmark 的 prompt 格式做了优化）
应对方法：
- 使用更难的 benchmark（如 MMLU-Pro、GPQA、MATH）
- 使用动态生成的评测题目
- 关注人类评估（如 Chatbot Arena 的 Elo 排名）
- 检测和报告数据污染情况

追问 / Follow-up： HELM 和 lm-evaluation-harness 的设计哲学有什么不同？

HELM（Stanford）强调"全面性"——覆盖多维度（accuracy、calibration、robustness、fairness、efficiency），每个 scenario 都有详细的文档和标准化评测流程，但扩展新任务较重。lm-evaluation-harness（EleutherAI）强调"灵活性和社区贡献"——任务定义简洁（config-driven），社区可快速添加新任务，400+ 任务覆盖广泛，但标准化程度相对较低。

Q21: 解释 Disaggregated Serving（prefill/decode 分离）的动机和设计。

答 / Answer：

动机： Prefill（处理 prompt）和 Decode（逐 token 生成）的计算特征完全不同：

特征	Prefill	Decode
计算类型	Compute-bound（大矩阵乘法）	Memory-bound（小 batch，大量 KV cache 访问）
GPU 利用率	高（计算密集）	低（内存带宽瓶颈）
最优配置	高算力 GPU	高显存带宽

Disaggregated Serving 设计：

Prefill 节点：高算力配置，大 batch 处理 prompt → 生成 KV cache
Decode 节点：高带宽配置，接收 KV cache → 逐 token 生成
KV cache 通过高速网络（RDMA/NCCL）在节点间传输

收益： 两阶段可以独立扩缩容，避免 decode 阶段的 memory-bound 特性拖累 prefill 的 compute utilization。

追问 / Follow-up： KV cache 传输的带宽需求有多大？

对于一个 70B 模型、序列长度 4K、FP16 KV cache，每个请求的 KV cache 大约在几百 MB 量级。若 decode 节点需每秒处理数十个请求的 KV cache 接入，则需要数十 GB/s 的网络带宽，这在现代数据中心的 RDMA 网络下是可行的。

Q22: 如何在分布式训练中处理梯度检查点（gradient checkpointing）的显存-计算 trade-off？

答 / Answer：

原理： 正向传播时不保存中间激活值，仅保存部分"检查点"（通常每层边界保存一次）。反向传播时从最近的检查点重新计算所需的激活。
显存： 从 $O(L \cdot a)$ （ $a$ 为每层激活大小）降到 $O(\sqrt{L} \cdot a)$ 或 $O(L')$ （ $L'$ = 检查点数量）
计算： 额外约 33% 的正向计算（每个检查点段需重新前向一次）

实践选择：

显存充足时不用（节省时间）
显存不够但能承受 33% 训练变慢时开启
可选择性开启（如只对某些大层做 checkpoint）

追问 / Follow-up： Selective gradient checkpointing 如何选择哪些层做检查点？

通常选择激活值最大的层（如 attention 层的注意力矩阵是 $O(n^2)$ 的显存大户），而激活值较小的层（如 LayerNorm、embedding）不做 checkpoint，从而在显存节省和计算开销间取得更好的平衡。

Q23: 解释 PPO 中的 clipping 机制，以及在 RLHF 中为何可能需要调整。

答 / Answer：

PPO 的 clipped surrogate objective：

$L^{CLIP} = \mathbb{E}\left[\min\left(r_t(\theta) \hat{A}_t, \; \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t\right)\right]$

其中 $r_t(\theta) = \pi_\theta(a_t|s_t) / \pi_{\theta_{\text{old}}}(a_t|s_t)$ ， $\epsilon$ 通常为 0.1–0.2。

作用： 当 $r_t$ 偏离 1 太远时，clip 限制了目标函数的变化幅度，防止单步更新过大。

在 RLHF 中的特殊考虑：

标准 RL（游戏等）中 state-action 空间大， $r_t$ 偏离不多
在 RLHF 中，language model 的生成空间是指数级的，policy 可能快速变化
因此 $\epsilon$ 可能需要调小，或者增加 PPO 更新的 epoch 数来充分利用每批采样

追问 / Follow-up： PPO 中的 value function loss 和 policy loss 如何平衡？

通常用加权求和： $L = L^{CLIP} + c_1 L^{VF} - c_2 H(\pi)$ ，其中 $L^{VF}$ 是 value function 的 MSE loss， $H(\pi)$ 是 entropy bonus 防止过早坍缩。在 RLHF 中 $c_1$ 和 $c_2$ 的调优对训练稳定性很关键。

Q24: 如何设计一个能检测 benchmark 数据污染（contamination）的系统？

答 / Answer：

N-gram 重叠检测： 将 test set 的 n-gram（如 8-gram、13-gram）与训练数据做集合交集。若重叠率超过阈值，标记为可能被污染。
Membership inference： 检查模型对 test set 样本的困惑度是否异常低（与 held-out 数据相比），低困惑度可能暗示该样本曾出现在训练集中。
Canonical order test： 打乱选项顺序，若正确率大幅下降，可能模型记忆了特定位置的答案（暗示污染而非真正理解）。
Canary test： 在 test set 中插入独特的"金丝雀"句子，训练后检查模型能否完美复述。

追问 / Follow-up： 为什么 n-gram 重叠检测可能产生假阳性？

因为一些公共知识（如"太阳从东边升起"）在训练集和测试集中都会出现，n-gram 重叠不代表真正的"记忆"。需要区分"事实性公共知识"和"特定测试样本的逐字复制"。

Q-RLHF-B（L3）：设计一个支持 70B actor 的 RLHF 训练系统。描述 4 模型的显存拆解方案、rollout/train 拓扑，以及你在 LoRA-in-RL vs 全参数更新之间如何选择。

答 / Answer：

第一步：Clarify

70B actor（约 140 GB BF16 参数）+ critic（同量级或小一号）+ ref model + RM
4 模型 naive co-located 显存需求：参数 + optimizer states 约在 1 TB 量级（不可行，需分离）
目标：在 8–64 张 80G A100/H100 上跑起来，吞吐满足合理的训练周期

第二步：4 模型显存拆解（量级估算）

模型	参数（BF16）	梯度	优化器（FP32 AdamW）	部署策略
Actor（训练）	~140 GB	~140 GB	~560 GB	Train workers，ZeRO-3 分片
Critic（训练）	~140 GB（可用小模型）	~140 GB	~560 GB	同上，或独立 ZeRO 组
Ref model（冻结）	~140 GB	无	无	Rollout workers，推理模式
Reward model（冻结）	数 GB–~140 GB	无	无	Rollout workers

全参数训练时，actor + critic 的完整训练状态（参数 + 梯度 + 优化器）约 1.5–2 TB 量级，ZeRO-3 分片到 train workers 需数十张 80G GPU（具体取决于是否含 FP32 master copy、激活与框架 overhead）。
使用 LoRA-in-RL（rank=16–32）时，actor 可训练参数下降到总参数的 $\lesssim 1\%$ ，optimizer states 从 ~560 GB 降到数 GB 量级，大幅降低 train workers 显存需求。

第三步：拓扑设计

Rollout cluster（推理优化）          Train cluster（训练优化）
┌──────────────────────────┐         ┌─────────────────────────┐
│ vLLM / SGLang            │         │ ZeRO-3 / FSDP           │
│  - actor (FP16 weights)  │◄──权重──│  - actor (trainable)    │
│  - ref model (frozen)    │  同步   │  - critic (trainable)   │
│  - RM (frozen)           │         │                         │
│                          │──data──►│  rollout buffer         │
│  连续 rollout，输出       │         │  PPO / GRPO 更新         │
│  (prompt, resp, reward,  │         │                         │
│   log_prob, value)       │         │                         │
└──────────────────────────┘         └─────────────────────────┘

rollout 与 train 并发（异步）或交替（同步），权重每 iteration 同步一次。
Ref model 和 RM 只需推理，放 rollout 侧节省 train 侧显存。

第四步：LoRA-in-RL vs 全参数更新的选择

考量	倾向 LoRA-in-RL	倾向全参更新
显存预算	严格（少卡）	充裕（多卡）
策略需要改变的幅度	小（对话风格对齐）	大（复杂推理能力提升）
训练稳定性	更稳定（小秩约束）	需更仔细调 $\beta$ , clip
参考	OpenRLHF LoRA 模式	veRL / Megatron-LM 全参

⚠️ 以上显存数字为数量级估算（基于参数量 × bytes/参数的公式推算），实际值因激活、KV cache、框架 overhead 而有较大差异，面试中请说明"估算"。

追问 / Follow-up： 在 disaggregated 架构中，rollout 和 train 资源比例如何决定？

取决于 rollout throughput 与 train throughput 的比值。若 rollout 是瓶颈（response 很长、batch 很大），增加 rollout worker 数；若 train 是瓶颈（critic 计算量大、PPO mini-batch 多），增加 train worker 数。实践中先 profile 两侧的 GPU-hours / iteration，按比例分配，再根据实际队列 utilization 调整。

Q25: 综合设计题：为一个日活千万的 AI 客服系统设计完整的 LLM 系统，从数据到部署。

答 / Answer（高层概要）：

1. Clarify：

日活千万 → QPS 估计约 100–1000（考虑每个用户日均 1–3 轮对话）
延迟 SLA：P95 < 2s（首 token），P99 < 5s
需要领域适配（客服话术、产品知识）

2. Data：

历史客服对话日志 → 清洗脱敏 → 构建 SFT 数据
定期从线上 bad case（低评分、转人工）中采样 → 人工标注 → 回流训练
RAG：将产品文档、FAQ 构建为向量知识库

3. Model：

Base model：选 7B–13B 量级（平衡效果和推理成本）
SFT（LoRA）在客服数据上微调
RAG 检索增强：用户 query → 检索相关文档 → 拼入 prompt context

4. Serving：

量化：INT8 或 INT4（GPTQ/AWQ）→ 降低单卡推理成本
vLLM / TensorRT-LLM 部署，continuous batching + PagedAttention
多副本 + 负载均衡，按流量自动扩缩容

5. Monitoring：

线上指标：转人工率、用户满意度评分、平均对话轮次
质量漂移：定期在标准测试集上跑 eval，监控分数变化
Safety：对输出做敏感词和有害内容过滤

追问 / Follow-up： 这个系统中，RAG 和微调各解决什么问题？它们可以互相替代吗？

微调解决"风格和格式"——让模型以客服的语气和流程回答；RAG 解决"知识和事实"——提供最新的产品信息和公司政策。它们互补而非替代：只微调会"幻觉"产品细节；只 RAG 会让模型语气像通用助手而非专业客服。理想方案是两者结合。

附录：关键术语对照表 / Appendix: Key Term Glossary

中文	English	缩写
因果语言模型	Causal Language Model	CLM
低秩适配	Low-Rank Adaptation	LoRA
参数高效微调	Parameter-Efficient Fine-Tuning	PEFT
人类反馈强化学习	Reinforcement Learning from Human Feedback	RLHF
直接偏好优化	Direct Preference Optimization	DPO
奖励模型	Reward Model	RM
数据并行	Data Parallelism	DP
张量并行	Tensor Parallelism	TP
流水线并行	Pipeline Parallelism	PP
序列并行	Sequence Parallelism	SP
零冗余优化器	Zero Redundancy Optimizer	ZeRO
完全分片数据并行	Fully Sharded Data Parallel	FSDP
键值缓存	Key-Value Cache	KV Cache
训练后量化	Post-Training Quantization	PTQ
基于激活感知的权重量化	Activation-Aware Weight Quantization	AWQ
投机解码	Speculative Decoding	—
分页注意力	PagedAttention	—
检索增强生成	Retrieval-Augmented Generation	RAG
指令微调	Instruction Tuning / SFT	SFT
灾难性遗忘	Catastrophic Forgetting	—
知识蒸馏	Knowledge Distillation	KD
领域自适应预训练	Domain-Adaptive Pretraining	DAP

维度	GQA	MLA
压缩对象	head 维度（减少 KV head 数）	feature 维度（低秩投影）
压缩性质	离散的、结构化的（head 分组）	连续的、灵活的（可学习子空间）
cache 内容	真实 K, V 值（只是 head 少了）	压缩后的 latent vector（需解压）
多样性保持	直接保留独立 head	依赖低秩子空间的表达能力

§A 核心论文时间线 / Key Papers Timeline

2018-11 · GPipe — Huang et al., NeurIPS 2019. arXiv:1811.06965 — 流水线并行的奠基工作：把层切成 stage 分布到多设备，再把 mini-batch 拆成 micro-batch 注入流水线以摊薄 bubble，并用重计算换激活显存，使超大模型可跨设备训练。
2019-09 · Megatron-LM — Shoeybi et al., arXiv preprint. arXiv:1909.08053 — 层内张量并行:把 attention 与 MLP 的权重矩阵按列/按行切分到多卡,前向 $f$ 、反向 $g$ 各插一次 all-reduce,无需改动模型结构即可扩到十亿级参数。
2019-10 · ZeRO — Rajbhandari et al., SC 2020. arXiv:1910.02054 — 把数据并行下冗余的优化器状态/梯度/参数按 rank 分片(Stage 1/2/3),将单卡 $16\Phi$ 显存占用降到约 $16\Phi/N$ ,在不引入张量并行通信代价的前提下扩展可训练规模。
2022-05 · Reducing Activation Recomputation — Korthikanti et al., MLSys 2023. arXiv:2205.05198 — 序列并行 + 选择性重计算:沿序列维切分 LayerNorm/Dropout 等逐元素算子的激活,只对最省/最贵的算子重算,把激活显存压到约 1/5,与张量并行正交叠加。
2022-05 · FlashAttention — Dao et al., NeurIPS 2022. arXiv:2205.14135 — IO 感知的精确注意力:用分块(tiling)+ online softmax 把 $QK^\top$ 中间矩阵留在 SRAM、不落 HBM,把注意力从显存带宽瓶颈解放出来,显存随序列长度线性而非二次增长。
2022-09 · FP8 Formats for Deep Learning — Micikevicius et al., arXiv preprint. arXiv:2209.05433 — 提出深度学习 8-bit 浮点的两种编码:E4M3(范围 ±448,精度优先,前向)与 E5M2(范围 ±57344,动态范围优先,梯度),为 H100 时代的 FP8 训练/推理定标。
2022-10 · GPTQ — Frantar et al., ICLR 2023. arXiv:2210.17323 — 基于 OBS(最优脑外科)二阶近似的一次性后训练权重量化:逐列量化并用 Hessian 逆补偿剩余权重的误差,把 175B 模型压到 3–4 bit 而几乎不损精度。
2022-11 · SmoothQuant — Xiao et al., ICML 2023. arXiv:2211.10438 — W8A8 量化:激活存在难量化的离群通道,按通道把量化难度从激活"迁移"到权重( $X\to X/s$ 、 $W\to sW$ ),使激活与权重都能用 INT8,无需混合精度。
2022-11 · Speculative Decoding — Leviathan et al., ICML 2023. arXiv:2211.17192 — 用小 draft 模型一次提议多 token、大 target 模型并行验证,配合精心设计的接受-拒绝采样,保证输出分布与 target 单独解码严格一致(无损加速)。
2023-06 · AWQ — Lin et al., MLSys 2024. arXiv:2306.00978 — 激活感知的权重量化:观察到极少数"显著"权重通道贡献主要误差,用激活幅度指导逐通道缩放以保护这些通道,4-bit 权重量化下保住精度且对硬件友好。
2023-09 · PagedAttention / vLLM — Kwon et al., SOSP 2023. arXiv:2309.06180 — 借鉴操作系统虚拟内存分页管理 KV cache:把 KV 切成非连续的块按需分配,消除碎片与预留浪费,支持前缀共享,使服务吞吐大幅提升。
2024-02 · KIVI — Liu et al., ICML 2024. arXiv:2402.02750 — 面向 KV cache 的非对称 2-bit 量化:key 沿通道维、value 沿 token 维分别量化(契合各自离群分布),在长上下文推理中把峰值显存（含模型权重）降低约 2.6×（KV 本身 16-bit→2-bit、理论压缩 8×）而精度近无损。
2023-07 · FlashAttention-2 — Dao, ICLR 2024. arXiv:2307.08691 — 重写 FA1 的 CUDA 实现，通过减少非矩阵乘 FLOPs、改进 warp 级并行分配、提升 occupancy，在 A100 上端到端 2–3× 加速训练/推理；被 vLLM/HF/PyTorch SDPA 集成。
2023-08 · SARATHI (Chunked Prefill) — Agrawal et al., Microsoft Research, preprint. arXiv:2308.16369 — 将单个 prefill 切割成 chunk 与 decode batch 交替执行，让 compute-bound prefill 和 memory-bound decode 共享 GPU，消除 decode-only 的空泡，首 token 延迟不劣化。
2023-12 · SGLang (RadixAttention) — Zheng et al., NeurIPS 2024. arXiv:2312.07104 — 用基数树组织 KV cache 实现任意粒度前缀零计算复用，配合缓存感知调度，对比 vLLM 吞吐最高 6.4×；后续 HiCache 扩展为 GPU/CPU/分布式三级缓存。
2024-01 · DistServe — Zhong et al., OSDI 2024. arXiv:2401.09670 — 首次正式论证 prefill/decode 解耦到不同 GPU：独立配置并行策略、KV cache 通过 NVLINK 迁移，最大请求速率达 vLLM 的 2.0–5.7×。
2024-07 · FlashAttention-3 — Shah et al., NeurIPS 2024. arXiv:2407.08608 — 针对 H100 从硬件-软件协同设计：异步 warp 调度 + 低精度 FP8 + block quantization，H100 上达 1.3 PFLOPs/s (~35% FP16 理论峰值、FA2 的 2–3×)。
2024-07 · Mooncake — Qin et al., Moonshot AI / Kimi, preprint. arXiv:2407.00079 — 将 prefill/decode 解耦工程化为生产系统，引入以 KV cache 为中心的架构：GPU/CPU/SSD 共享池 + RDMA 高速传输，Kimi 万级并发下 SLO 内处理约 75% 更多请求；Transfer Engine 已集成入 vLLM。
2024-08 · Marlin — Frantar et al., IST-DASLab, preprint. arXiv:2408.11743 — 面向 GPTQ INT4 权重的极致优化 FP16×INT4 GEMM 内核：通过代数重排让所有 SM 同时忙碌，batch 1–16 延迟近平坦，集成 vLLM 最高 2.8× vs FP16；Sparse-Marlin 扩展支持 2:4 稀疏。
2024-11 · MoNTA — preprint. arXiv:2411.00662 — 面向 MoE 专家并行的网络拓扑感知并行策略择优：All-to-All 通信 8× 加速、端到端 13% 延迟改善。
2025-03 · Speculative MoE — preprint. arXiv:2503.04398 — 推测式 token-expert 路由预判减少 MoE 推理的 all-to-all 通信，吞吐 1.58–6.54× vs DeepSpeed-MoE。

一、概念与公式推导 / Concepts & Key Formulas

1.1 因果语言模型 / Causal Language Modeling (CLM)

1.2 Softmax 与 Attention / Softmax & Attention

1.3 Position Encoding / 位置编码

1.4 LoRA — 低秩适配 / Low-Rank Adaptation

1.5 RLHF 与 DPO / Reinforcement Learning from Human Feedback

1.5b RLHF 分布式架构 / Distributed RLHF Architecture

Naive Co-located PPO 的 GPU 利用率问题

Disaggregated Rollout + Train 拓扑

4 模型显存拆解 + LoRA-in-RL 如何省显存

Async vs Sync Rollout 的 Staleness

参考实现：OpenRLHF vs veRL

吞吐量估算：Rollout vs Train GPU-hours 比例

1.6 分布式训练 — 并行策略 / Distributed Training Parallelism

Data Parallelism (DP) / 数据并行

ZeRO（Zero Redundancy Optimizer）/ 零冗余优化

Tensor Parallelism (TP) / 张量并行

Pipeline Parallelism (PP) / 流水线并行

Sequence Parallelism (SP) / 序列并行

1.6b 解耦服务 — DistServe 与 Mooncake / Disaggregated Serving

1.6c 专家并行 (EP) 与 All-to-All / Expert Parallelism & All-to-All

1.6d FSDP2 vs ZeRO — 参数分片策略对比 / FSDP2 vs ZeRO

1.7 KV Cache 显存分析 / KV Cache Memory Analysis

1.7b FlashAttention — 从 FA2 到 FA3 / FlashAttention: FA2 → FA3

1.7c RadixAttention — 前缀感知 KV Cache 复用 / RadixAttention & Prefix-Aware KV Cache Reuse

1.8 量化基础 / Quantization Fundamentals

1.8b FP8 训练与 Transformer Engine / FP8 Training & Transformer Engine

1.8c Marlin INT4 内核 / Marlin INT4 Kernel

1.8d 量化粒度对比 / Quantization Granularity Comparison

1.9 Speculative Decoding / 投机解码

1.9b Chunked Prefill / Chunked Prefill

1.10 模型设计通用框架 / 7-Step ML System Design Framework

二、PyTorch 代码片段 / From-Scratch Snippets

2.1 Scaled Dot-Product Attention

2.2 Causal Self-Attention Layer

2.3 LoRA Layer

2.4 Grouped-Query Attention (GQA)

2.5 RoPE (Rotary Position Embedding)

2.6 DPO Loss

2.7 KV Cache Wrapper (Minimal)

2.8 Symmetric INT8 Quantize / Dequantize

2.9 Tensor-Parallel Linear (Column / Row)

三、面试题 / Interview Questions

L1 — 基础 / Basic

L2 — 中级 / Intermediate

L3 — 深度 / Deep

附录：关键术语对照表 / Appendix: Key Term Glossary

更多 L3 深挖 / Extended L3

§A 核心论文时间线 / Key Papers Timeline