Skip to content

学习路线图

从零到一,14 天构建生产级 Agent 系统 🚀

这不是一份"建议你看看"的书单。这是一张作战地图——每一步都告诉你学什么、练什么、卡在哪里、怎么突破。跟着走,14 天后你能独立设计并交付一个生产级多 Agent 系统。


🗺️ 全局路线图

总计:14 天,约 25 小时核心学习 + 实践


🚦 三种学习路径

不同目标,不同节奏。选最适合你的那条路:

路径节奏适合谁读完你将能…
快速入门2-3 天,每天 2h刚接触 Agent 的开发者和同事聊 Agent 不再一脸懵,能判断一个项目要不要用 Agent
📚 系统学习2-3 周,每天 2-3h要构建生产级系统的工程师独立设计、实现、部署一个完整的多 Agent 系统
🔥 前沿热点1-2 天,每天 3h有基础想了解趋势的开发者掌握 Harness Engineering、多 Agent 模式、Skill 机制的最新实践

🧱 前置技能树

不是所有东西都需要从零学。这张图告诉你"学 X 之前必须先掌握什么":

💡 关键依赖:多 Agent 不是单 Agent 的简单叠加。学阶段四之前,你必须同时搞懂上下文工程(阶段二)和单 Agent 构建(阶段三)——否则你设计出来的多 Agent 系统一定会在上下文管理上翻车。


🔵 阶段一:认知重塑(1 天)

一句话目标:把脑子里"AI 就是聊天机器人"的旧认知砸碎,建立全新的 Agent 工程世界观。

📖 学习内容

序号章节核心问题⏱️
1Harness Engineering 核心原则为什么 AI 时代的工程师要从"写代码"变成"设计环境"?2h
2Agent 基础:本质与 ReActAgent 不是更会聊天的 ChatBot——它到底是什么?1h

🎯 你会获得什么

  • 能解释为什么 Agent 的瓶颈不是模型能力,而是"它能看见什么"
  • 能判断你的业务场景是否适合用 Agent,而不是硬套
  • 能说清Harness Engineering 和传统软件工程的本质区别

✅ 阶段一检验清单

  • [ ] 能用自己的话解释"Agent 不是笨而是瞎"——并举出一个具体例子
  • [ ] 能说出 Harness 的三个核心原则
  • [ ] 能画出 Agent 与传统自动化系统的区别图
  • [ ] 能分析你的项目是否适合引入 Agent

⚠️ 常见卡点 & 突破方法

🚧 卡点🔓 怎么突破
"感觉 Harness 就是把 Prompt 写好点?"去读 Harness 核心原则 的前三节。重点不是 Prompt,是整个运行环境的设计——工具、文件系统、权限模型全都是 Harness 的一部分。
"Agent 和 RPA 有什么区别?"RPA 是固定流程的机械执行;Agent 能自主规划使用工具从错误中恢复。想象一下:RPA 像流水线机器人,Agent 像能自己找路的快递员。

🟣 阶段二:上下文工程(2 天)

一句话目标:掌握 Agent 系统的核心瓶颈——上下文窗口——并学会三大解法:卸载、缩减、隔离。

📖 学习内容

序号章节核心问题⏱️
1上下文工程全景上下文窗口为什么是 Agent 的"致命弱点"?3h
2上下文失效模式(第 7 节)Agent 什么时候会"失忆"?怎么防?1h
3Menlo 实战经验(第 12-15 节)Anthropic 自己是怎么做上下文工程的?2h

🎯 你会获得什么

  • 能诊断你的 Agent 任务中的上下文瓶颈在哪里
  • 能设计一套上下文管理策略(哪些该放上下文、哪些该卸载到文件)
  • 能计算KV 缓存命中率,并理解它对成本和延迟的影响
  • 能实现"文件系统即上下文"的基本方案

✅ 阶段二检验清单

  • [ ] 能画出你的 Agent 任务的上下文使用图(哪些 token 来自哪里)
  • [ ] 能解释卸载、缩减、隔离分别在什么场景下用
  • [ ] 知道 KV 缓存命中率为什么重要,并能估算你系统的命中率
  • [ ] 能设计一个知识库的目录结构,让 Agent 能高效检索

⚠️ 常见卡点 & 突破方法

🚧 卡点🔓 怎么突破
"上下文工程听起来太抽象了"想象你在考试——上下文窗口就是你桌上能摊开的纸。卸载是把不用的笔记放抽屉(文件系统),缩减是把长段落缩成关键词,隔离是不同科目用不同的纸。
"不知道自己的 Agent 有多少上下文浪费"在 Agent 框架里打开 Trace,看每次调用的 token 消耗。找那些重复出现的 system prompt 片段不必要的工具返回值——这些就是浪费。

🟢 阶段三:单 Agent 构建(2 天)

一句话目标:你能独立构建一个可靠的单 Agent 系统——它能使用工具、管理记忆、在没有人类干预的情况下自主完成任务。

📖 学习内容

序号章节核心问题⏱️
1Agent 基础ReAct 循环是怎么驱动 Agent 运行的?2h
2工具调用与设计(Harness 第 15-17 节)什么是"Seeing Like an Agent"的工具设计?2h
3记忆架构(Agent 书第 08 章)短期记忆 vs 长期记忆怎么设计?1h
4Planning 与 Reflection(Agent 书第 10-11 章)Agent 怎么"想"、怎么"反思"?2h

🎯 你会获得什么

  • 能实现一个基于 ReAct 循环的 Agent,包含工具调用和错误恢复
  • 能设计面向 Agent 的工具接口(不是面向人类的 API 换个壳)
  • 能构建分层记忆系统(上下文内记忆 + 会话记忆 + 持久记忆)
  • 能加入基础的 Planning 和 Reflection 循环,让 Agent 能规划和自查

✅ 阶段三检验清单

  • [ ] 你的 Agent 能在没有人工干预的情况下连续完成 3+ 步任务
  • [ ] 工具描述是面向 Agent 优化的(清晰、无歧义、包含使用场景)
  • [ ] Agent 有循环探测机制(不会无限调用同一个工具)
  • [ ] 你理解了 Planning 和 Reflection 分别解决什么问题

⚠️ 常见卡点 & 突破方法

🚧 卡点🔓 怎么突破
"工具调用总是失败或结果不对"问题几乎总在工具描述上。你写给人看的 API 文档,Agent 不一定能理解。试试这样写:"当你需要查询用户的订单历史时,调用此工具。传入 user_id,返回最近 10 条订单。" ——用场景驱动,不是参数驱动。
"Agent 陷入死循环不断调用同一工具"循环探测:记录最近 N 次工具调用,如果相同工具+相同参数连续出现,强制中断并让 Agent 反思。这是生产环境的必备机制。

🟠 阶段四:多 Agent 协作(3 天)

一句话目标:你能判断什么时候该拆分 Agent、怎么划分边界、选哪种 Workflow 模式——然后把它搭起来。

📖 学习内容

序号章节核心问题⏱️
1多 Agent 架构全景什么时候单 Agent 不够用?3h
2六种 Workflow 模式(同上)编排/路由/并行/反思/协调者/评估器,怎么选?2h
3Prompt 实战解析(多 Agent 第 11-13 节)真实系统的 Prompt 长什么样?2h
4架构选型决策(第 25 节)单 Agent → Workflow → 多 Agent 的演进路线1h

🎯 你会获得什么

  • 能用四问框架判断一个场景是否需要多 Agent
  • 能设计 Agent 之间的上下文边界(不按职能,按上下文)
  • 能搭出至少两种 Workflow 模式(如:路由 + 并行)
  • 能解释为什么"简单的多 Agent 方案不如复杂的单 Agent"

✅ 阶段四检验清单

  • [ ] 能用四问框架分析你的业务场景是否需要多 Agent
  • [ ] Agent 边界是按上下文容量划分的,不是按功能模块
  • [ ] 能画出你的多 Agent 系统的通信拓扑图
  • [ ] 能解释六种 Workflow 模式各自的适用场景
  • [ ] 有一个从单 Agent 演进到多 Agent 的清晰路径

⚠️ 常见卡点 & 突破方法

🚧 卡点🔓 怎么突破
"一上来就想把所有东西都拆成 Agent"这是最常见的错误。记住黄金法则:先做单 Agent,性能不够再拆。只有当你发现单 Agent 的上下文装不下所有任务信息时,才考虑拆分。
"不知道 Agent 之间怎么通信"两种基本模式:(1) 共享状态:通过文件/数据库传递信息;(2) 消息传递:Agent A 的输出直接作为 Agent B 的输入。从简单的开始,别一上来就搞复杂的消息队列。

🩷 阶段五:能力与质量(2 天)

一句话目标:让你的 Agent 不只是"能跑",而是"靠谱"——有 Skill 封装、有评估体系、有质量飞轮。

📖 学习内容

序号章节核心问题⏱️
1Skill 工程Skill 和 Tool 到底有什么区别?2h
2Agent 评估体系怎么知道你的 Agent 做得对不对?3h
3九步评估路线图(第 06 节)从零搭建评估体系的完整流程2h

🎯 你会获得什么

  • 能设计 Skill 体系:把重复使用的流程知识封装成可复用的 Skill
  • 能构建自动化评估:用代码评分器跑 Pass@k 测试
  • 能实施纵深防御:输入验证 → 过程检查 → 输出评估三层质量门
  • 能运用 Anthropic 九步路线图,从零搭建一个评估体系

✅ 阶段五检验清单

  • [ ] 你有至少一个 Skill 的完整定义(触发条件 + 执行流程 + 输出格式)
  • [ ] 你有自动化评估脚本(不是手动看输出)
  • [ ] 你知道 Pass@k 和 Pass^k 分别衡量什么
  • [ ] 你理解为什么"没有评估 = 随机数生成器"

⚠️ 常见卡点 & 突破方法

🚧 卡点🔓 怎么突破
"评估体系听起来工作量巨大"不用一步到位。先从一个关键场景的 5 个测试用例开始。能跑通 → 再扩展到 20 个 → 再覆盖边界情况。关键是今天就开始,而不是"等准备好了再做"。
"分不清 Skill 和 Tool"简单类比:Tool 是一把扳手(执行单个动作),Skill 是一套维修流程(什么情况用什么工具、先做什么后做什么)。Skill 封装的是过程知识,Tool 封装的是能力入口

🩵 阶段六:生产落地(3 天)

一句话目标:把 Agent 系统从"本地能跑"推到"线上稳定跑"——可观测、安全、省钱、抗故障。

📖 学习内容

序号章节核心问题⏱️
1生产实践生产环境和开发环境有什么本质区别?2h
2可观测性(Agent 书第 22 章)你的 Agent 在生产环境到底在干嘛?2h
3安全执行(Agent 书第 25 章)Agent 有工具执行权限,怎么防它闯祸?1h
4Token 预算控制(第 23 章)一次调用花 $0.10 还是 $1.00,区别在哪?1h
5分层模型策略(第 30 章)什么任务用大模型、什么任务用小模型?1h

🎯 你会获得什么

  • 能搭建完整的 Trace 系统:每次 Agent 调用都能回溯
  • 能实现断点续传:Agent 挂了能从断点恢复,不重头来
  • 能设计安全沙箱:工具执行隔离、权限最小化
  • 能实施成本控制:Token 预算、分层模型调度、缓存策略

✅ 阶段六检验清单

  • [ ] 你的 Agent 系统有完整的 Trace(能看到每一步的输入输出)
  • [ ] 有异常恢复机制(Agent 失败不会导致整个流程报废)
  • [ ] Token 预算有硬性限制(不会因为 Agent 陷入循环而爆炸式消耗)
  • [ ] 关键操作有审计日志

⚠️ 常见卡点 & 突破方法

🚧 卡点🔓 怎么突破
"不知道从哪里开始加可观测性"最小方案:在 Agent 的每个 ReAct 循环里,把工具名 + 参数 + 返回值 + 耗时写入一个日志文件。有了这个,90% 的调试问题都能定位。然后再考虑接 Trace 平台。
"担心 Agent 的安全问题"三板斧:(1) 沙箱隔离——工具执行在容器里;(2) 权限白名单——只允许预定义的操作;(3) 人类审批——关键操作(发邮件、写数据库)必须人工确认。

🎓 毕业标准

完成全部六个阶段后,你不只是"学完了"——你是能做事的 Agent 工程师

你应该能独立完成这些具体任务:

🏗️ 系统设计

  • 设计一个包含 5 个 Agent 的代码审查系统(输入:PR diff → 输出:结构化审查报告)
  • 为一个客服系统设计多 Agent 架构(路由 Agent + 专业知识 Agent + 工单 Agent)
  • 画出一个 Agent 系统的完整架构图(上下文边界、通信拓扑、工具清单)

🛠️ 工程实现

  • 从零搭建一个 Agent 评估框架(测试用例 + 自动评分 + Pass@k 报告)
  • 实现一个上下文管理系统(自动卸载 + 压缩 + 隔离)
  • 构建一个 Skill 库(5+ 可复用的 Skill,带触发条件和执行规范)

📊 运维能力

  • 搭建 Agent 系统的可观测性看板(Trace + Metrics + 告警)
  • 设计 Token 预算控制方案(按用户/按任务/按时间窗口的限制策略)
  • 制定 Agent 系统的安全策略(沙箱 + 权限 + 审计)

💡 架构决策

  • 用四问框架判断一个新场景是否需要多 Agent
  • 在单 Agent、Workflow、多 Agent 之间做出合理的架构选型
  • 设计从单 Agent 到多 Agent 的渐进式演进路线

📊 学习节奏参考表

阶段天数核心时长最佳学习方式
🔵 认知重塑1 天3h读 + 画 Agent 架构草图
🟣 上下文工程2 天6h读 + 分析你现有项目的上下文使用
🟢 单 Agent 构建2 天7h读 + 动手写一个最小 Agent
🟠 多 Agent 协作3 天8h读 + 设计一个多 Agent 系统架构图
🩷 能力与质量2 天7h读 + 搭建评估框架
🩵 生产落地3 天7h读 + 部署到测试环境

🧭 一页速查

我是谁?                  走哪条路?
─────────────            ─────────────────
刚接触 Agent         →   ⚡ 快速入门(2-3天)
要构建生产系统       →   📚 系统学习(2-3周)
有基础想追趋势       →   🔥 前沿热点(1-2天)

学完能干嘛?
─────────────
✅ 设计多 Agent 架构
✅ 搭建评估体系
✅ 部署到生产环境
✅ 控制成本和风险

最后更新:2026-03-22 · 路线图版本 v2.0

基于 CC BY-SA 4.0 协议发布