Cheatsheets 题解 16
Coding & ML 实现面试速查手册持续 / 终身 Post-training / Continual & Lifelong(只收生产验证方法)后训练数据流水线 (Data Pipeline & Curation) 速查手册评测与 LLM-as-judge / Evaluation & JudgesLLM Architecture 公开速查手册LLM Post-Training 全栈速查手册长程 / 自进化 Agent:生产现状 vs 前沿(面试向)机器学习数学与统计速查手册 / Math & Statistics for ML Cheat SheetML / DL Fundamentals 公开速查手册ML / LLM 系统设计速查表在线 / 迭代 DPO (Online & Iterative DPO) 速查手册PEFT 参数高效微调 速查手册推理-RL 前沿 / Reasoning-RL Frontier奖励模型 (Reward Modeling) 与评估 速查手册安全对齐 (Safety Alignment) 速查手册测试时扩展 (Test-Time Scaling) 速查手册
Drills 手撕 20
AdamW 从零实现学习练习 / AdamW from Scratch Study DrillDrill: Attention from scratchSoftmax + Cross-Entropy + Label Smoothing 从零实现学习笔记DoRA 从零实现 · Weight-Decomposed LoRA (per-output-row)DPO 偏好优化损失函数 — 从零实现学习演练Drill: GAE (Generalized Advantage Estimation)GQA/MQA 从零实现学习练习GRPO 从零开始演练 / From-Scratch GRPO DrillFrom-Scratch Autoregressive Decoding with KV CacheLoRA 前向与权重合并 · 从零实现学习钻PPO Clipped Surrogate Objective 学习演练Drill: Reward Margin / Bradley-Terry LossDrill: RLOO (REINFORCE Leave-One-Out)RMSNorm 从零实现学习练习 / From-Scratch RMSNorm Study DrillRotary Position Embedding (RoPE) 从零实现学习演练从头实现温度 / top-k / top-p (nucleus) 采样学习演练 READMEDrill: Sequence Packing from scratchDrill: SFT loss masking from scratchSimPO 偏好优化损失 — 从零实现学习演练SwiGLU Feed-Forward Block — 从零实现研究练习