Post-Training Playbook

37 篇 · LLM 后训练面试复习 · 公式/代码静态渲染(零外部 CDN,国内直连)· 输入关键词过滤

📍 📍 学习路径 / Roadmap建议从这里开始 · 按主题顺序刷 cheatsheet + drill

Cheatsheets 题解 16

Coding & ML 实现面试速查手册持续 / 终身 Post-training / Continual & Lifelong(只收生产验证方法)后训练数据流水线 (Data Pipeline & Curation) 速查手册评测与 LLM-as-judge / Evaluation & Judges LLM Architecture 公开速查手册 LLM Post-Training 全栈速查手册长程 / 自进化 Agent:生产现状 vs 前沿(面试向)机器学习数学与统计速查手册 / Math & Statistics for ML Cheat Sheet ML / DL Fundamentals 公开速查手册 ML / LLM 系统设计速查表在线 / 迭代 DPO (Online & Iterative DPO) 速查手册 PEFT 参数高效微调速查手册推理-RL 前沿 / Reasoning-RL Frontier 奖励模型 (Reward Modeling) 与评估速查手册安全对齐 (Safety Alignment) 速查手册测试时扩展 (Test-Time Scaling) 速查手册

Drills 手撕 20

AdamW 从零实现学习练习 / AdamW from Scratch Study Drill Drill: Attention from scratch Softmax + Cross-Entropy + Label Smoothing 从零实现学习笔记 DoRA 从零实现 · Weight-Decomposed LoRA (per-output-row)DPO 偏好优化损失函数 — 从零实现学习演练 Drill: GAE (Generalized Advantage Estimation)GQA/MQA 从零实现学习练习 GRPO 从零开始演练 / From-Scratch GRPO Drill From-Scratch Autoregressive Decoding with KV Cache LoRA 前向与权重合并 · 从零实现学习钻 PPO Clipped Surrogate Objective 学习演练 Drill: Reward Margin / Bradley-Terry Loss Drill: RLOO (REINFORCE Leave-One-Out)RMSNorm 从零实现学习练习 / From-Scratch RMSNorm Study Drill Rotary Position Embedding (RoPE) 从零实现学习演练从头实现温度 / top-k / top-p (nucleus) 采样学习演练 README Drill: Sequence Packing from scratch Drill: SFT loss masking from scratch SimPO 偏好优化损失 — 从零实现学习演练 SwiGLU Feed-Forward Block — 从零实现研究练习

AI 辅助整理的学习笔记,WIP,欢迎 issue/PR 纠错。由 node build.js 生成(marked + KaTeX + highlight.js 构建时渲染)。