Cheatsheet · 题解

长程 / 自进化 Agent:生产现状 vs 前沿(面试向)

long-horizon(长程) = 多步、长流程、需持续自主执行的任务;self-evolving(自进化) = 让 agent 用自生成数据 / 自我反馈不断变强。 ⚠️ 本页严格分栏:【生产】= 已发布产品 / 官方工程指南;【前沿】= 论文 / 技术报告,未成工业标准。面试别把前沿当生产标准答。 诚信声明:本页"面试考点"是据公开论文 / JD 推断的高频问题簇,非可查证的真实原题;不放未经核实的 benchmark 数字。深度前沿(自进化全自动化等)不在本 playbook 范围,只给信号。

1. 【生产】长程 agentic 现在长什么样(已发布产品)

国际两家已把"长程 agentic"做进产品 —— 聊"agent 落地"时的硬通货:

2. 【生产】长程 agent 的工程支柱(官方指南口径,面试高频)

Anthropic《Building Effective Agents》(2024-12-19)2Anthropic agent 工程经典:workflow vs agent、ACI、停止条件、每步环境 ground truth。Anthropic 2024 ↗ ≈ 这一行的工程"圣经":

Claude Agent SDK3长程 agent 循环 gather→act→verify→repeat + 上下文管理(compaction / 文件当记忆 / subagent)。Anthropic ↗ 的核心循环(可直接背):

gather context → take action → verify work → repeat

3. 【前沿】长程 / agentic 的训练范式(论文口径,未成工业标准)

注意 / Caution

以下是研究口径,非某产品的生产部署声明。面试可讲"我跟踪到 X 方向",别说"这是工业标准"。

3.1 稀疏 / 长程奖励 + 难度带设计(高频系统设计题)

长程任务奖励稀疏(常只有最终成败)。反复出现的工程原则:有效 RL 信号只在中间难度带,要显式防止训练数据退化到两端。

Self-Play SWE-RL6同一 LLM 注入并修 bug 的自对弈 RL;难度带分段奖励(本页只取奖励设计)。Wei 2025 ↗:同一 LLM 既注入 bug 又修 bug,用测试套件当奖励。bug 注入奖励是分段函数(ss = 修复者解出该 bug 的比例,即 solve rate):

rinject={α,s{0,1}1(1+α)s,0<s<1,α=0.8r_{\text{inject}} = \begin{cases} -\alpha, & s \in \{0, 1\} \\ 1-(1+\alpha)\,s, & 0 < s < 1 \end{cases}, \quad \alpha = 0.8

对"太难(没人解出,s=0s{=}0)"和"太易(全解出,s=1s{=}1)"都给负分,只奖中间难度。(本页只取奖励设计;其性能数字未经核实,不引用。)

MiMo7小米已发布模型的 RL 配方:去 KL loss、Clip-Higher、动态采样过滤 pass-rate 0/1。Xiaomi 2025 ↗(小米已发布模型的 RL 配方):动态采样过滤 pass-rate=0/1=0/1 的 prompt,并维护 10% 简单题池防后期策略更新不稳定。

两者动机一致 = 难度自适应课程:把信号集中到模型"够得着但还没掌握"的题上。

3.2 Web / agent RL 的三大挑战(WebRL 框架)

答"为什么 web/long-horizon agent 难训"的标准结构:① 训练任务稀缺;② 反馈信号稀疏;③ 策略分布漂移8web agent 训练三大挑战:任务稀缺 / 稀疏反馈 / 策略漂移(本页只取此框架)。Qi 2024 ↗ (WebRL 核心是"失败轨迹 → 自进化课程";本页只取其三大挑战框架,不展开该机制。)

3.3 与现有页的接点

GRPO 改进(Clip-Higher、去 KL loss)源自字节 DAPO9字节的 GRPO 改进:Clip-Higher、去 KL loss。ByteDance 2025 ↗、被 MiMo 采用 —— 详见 reasoning-rl-frontier,本页不重复。

4. 【前沿·最不成熟】自进化 / self-evolving(最需谨慎)

注意 / Caution

这块绝大多数是研究,生产证据弱。面试别声称工业标准,更别报未核实数字。

5. 面试考点 / Stratified follow-ups

据公开论文 / JD 推断的高频簇,非真实原题

L1 基础

L2 进阶

L3 深挖

参考文献 / References

点上标 [N] 跳到此处、点 返回原文;宽屏时摘要(gist)直接浮现在右页边。

  1. Anthropic — Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku(2024-10-22). anthropic.com
  2. Anthropic — Building Effective Agents(2024-12-19). anthropic.com
  3. Anthropic — Building agents with the Claude Agent SDK. claude.com
  4. OpenAI — Introducing Operator / Computer-Using Agent (CUA)(2025-01). openai.com
  5. OpenAI — Introducing ChatGPT agent(2025-07-17). openai.com
  6. Wei et al.(Meta / FAIR) — Toward Training Superintelligent Software Agents through Self-Play SWE-RL. arXiv:2512.18552 — 本页只取奖励设计,不含未核实性能数字.
  7. Xiaomi LLM-Core — MiMo Technical Report. arXiv:2505.07608.
  8. Qi et al. — WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum RL. arXiv:2411.02337 — 本页只取三大挑战框架,不展开其自进化课程机制.
  9. ByteDance Seed — DAPO. arXiv:2503.14476.