从零构建
本章是 Hermes Engineering 系列第 6 模块的第 4 章。
怎么从零开始搭建评估体系?九步路线图 + 工具选型。
九步路线图
💡 图解: 评估不是一次性工作——建基线、迭代改、持续跑、再扩展——改进循环永不停止。
第一步:定义评估目标
问自己:我要评估什么?是 Agent 的整体能力还是某个具体维度?
明确目标后再决定评估的深度和广度。不要试图一步到位覆盖所有维度——从最重要的开始。
第二步:收集评估数据
从生产环境收集真实的输入输出对。包括成功的和失败的案例。数据质量比数量更重要——100 个高质量用例胜过 1000 个低质量用例。
注意隐私:收集数据时需要脱敏处理。注意版权:确保你有权使用这些数据做评估。
第三步:定义评分标准
每个评估维度需要明确的评分标准。好的标准是客观可衡量的。
差的标准:
- 回答质量好
好的标准:
- 回答包含正确的 API 调用格式
- 回答引用了至少 3 个来源
- 回答没有超过 500 字
- 回答包含代码示例第四步:构建评分器
根据评分标准选择评分器类型:
| 标准类型 | 评分器 | 示例 |
|---|---|---|
| 格式/语法 | 代码 | JSON 格式是否正确 |
| 功能正确 | 代码 | 测试是否通过 |
| 语义正确 | 模型 | 回答是否准确 |
| 质量/风格 | 模型 | 报告是否有洞察 |
第五步:建立基线
运行评估建立基线分数。这是改进的起点。没有基线就无法衡量改进。
记录当前的 Pass@k、Pass^k、平均分、分布情况。
第六步:迭代改进
根据评估结果改进 Agent——可能是 Prompt 调整、工具改进、架构优化。每次改进后重新评估,比较分数变化。
关键:每次只改一个变量。同时改多个无法知道哪个改动产生了效果。
第七步:持续运行
评估不是一次性工作。持续运行评估检测退化。每次代码变更、Prompt 更新、模型升级后都运行评估。
自动化:将评估集成到 CI/CD 流程。每次 PR 合并前自动运行评估。
第八步:分析和报告
评估结果要可视化。趋势比绝对值更重要——分数是在上升还是下降?
建立评估仪表板:按维度展示分数、按时间展示趋势、按失败模式分类。
第九步:扩展覆盖
随着 Agent 能力增长,评估范围也要扩展。新的功能需要新的评估用例。新的失败模式需要加入评估集。
保持评估数据集的活力——定期审查、更新、淘汰过时用例。
评估工具选型
Harbor
开源评估框架。支持自定义评分器、批量评估、结果可视化。适合有工程能力的团队自己搭建评估系统。
Promptfoo
专注于 Prompt 评估。快速对比不同 Prompt 版本的效果。支持多种 LLM 后端。适合 Prompt 迭代优化。
Braintrust
商业化评估平台。提供评估管理、结果分析、版本对比等功能。适合需要开箱即用方案的团队。
LangSmith
LangChain 生态的评估工具。与 LangChain 深度集成。支持 Trace 分析和评估。适合使用 LangChain 的团队。
选型建议
| 需求 | 推荐 |
|---|---|
| 完全自主控制 | Harbor |
| 快速 Prompt 对比 | Promptfoo |
| 开箱即用 | Braintrust |
| LangChain 生态 | LangSmith |
大多数团队从 Promptfoo 开始——快速、简单、够用。需要更复杂的评估流程时再升级到 Harbor 或 Braintrust。
常见错误
评估数据集太小:10 个用例不能代表真实场景。至少需要 50-100 个有代表性的用例。
只评估成功案例:失败案例同样重要——甚至更重要。知道 Agent 在哪里失败比知道它在哪里成功更有价值。
评分标准太主观:"回答质量好"无法自动化评估。用客观可衡量的标准。
评估后不行动:评估的目的是改进。如果评估发现问题但不修复,评估就是浪费。
过度评估:不是所有输出都需要深度评估。80% 的评估用代码评分器自动化完成。
本章要点
- 九步路线图:定义目标 → 收集数据 → 定义标准 → 构建评分器 → 建立基线 → 迭代改进 → 持续运行 → 分析报告 → 扩展覆盖
- 工具选型:Harbor(自主)、Promptfoo(快速对比)、Braintrust(开箱即用)、LangSmith(LangChain 生态)
- 常见错误:数据集太小、只评成功、标准主观、评估后不行动
上一章: 四类评估与纵深防御
模块总结
Agent 评估系列全部完结,共 4 章:
| 章节 | 主题 | 核心概念 |
|---|---|---|
| 1 | 为什么需要评估 | Pass@k / Pass^k、随机性衡量 |
| 2 | 评分器体系 | 代码/模型/人类三角闭环 |
| 3 | 四类评估与纵深防御 | 瑞士奶酪模型、四层防御 |
| 4 | 从零构建 | 九步路线图、工具选型 |