Cheatsheet · 题解

📍 学习路径 / Roadmap

本手册是 post-training-playbook 的姊妹篇,聚焦后训练在 agent 上的延伸。建议先过完后训练主线(SFT→DPO→GRPO、reward modeling、PEFT)再来。 每个主题:先读 cheatsheet 理解 → 做对应 drill 手撕 → 用页内 L1/L2/L3 自测。

注意 / Caution

学习笔记,非作者研究成果;详见 README 诚信声明。

总览 / Tracks

# 主题 / Track Cheatsheet 题解 手撕 / Drill 状态
0 前置 / Prereq 见姊妹仓库 post-training-playbook PPO · GRPO · RLVR · RM · PEFT
1 Agent Foundations 题解 react-tool-call-loop
2 Agent Evaluation 题解 —(规划 benchmark-harness-audit)
3 Agentic & Long-horizon RL 题解 turn-credit-assignment
4 Agentic RL Infrastructure 题解
5 Continual & Lifelong Learning 题解 ewc-replay
6 Self-improving LLMs 题解 self-refine-loop
7 Agent Safety & Alignment 题解

0 · 前置 / Prereq

1 · Agent Foundations

2 · Agent Evaluation

3 · Agentic & Long-horizon RL

4 · Agentic RL Infrastructure

5 · Continual & Lifelong Learning

6 · Self-improving LLMs

7 · Agent Safety & Alignment


复习法:每题复习后标 ✅ 熟练 / ⚠️ 模糊 / ❌ 不会;之后只重刷 ⚠️/❌。