Skip to content

从零构建

本章是 Hermes Engineering 系列第 6 模块的第 4 章。

怎么从零开始搭建评估体系?九步路线图 + 工具选型。


九步路线图

💡 图解: 评估不是一次性工作——建基线、迭代改、持续跑、再扩展——改进循环永不停止。

第一步:定义评估目标

问自己:我要评估什么?是 Agent 的整体能力还是某个具体维度?

明确目标后再决定评估的深度和广度。不要试图一步到位覆盖所有维度——从最重要的开始。

第二步:收集评估数据

从生产环境收集真实的输入输出对。包括成功的和失败的案例。数据质量比数量更重要——100 个高质量用例胜过 1000 个低质量用例。

注意隐私:收集数据时需要脱敏处理。注意版权:确保你有权使用这些数据做评估。

第三步:定义评分标准

每个评估维度需要明确的评分标准。好的标准是客观可衡量的。

差的标准:
- 回答质量好

好的标准:
- 回答包含正确的 API 调用格式
- 回答引用了至少 3 个来源
- 回答没有超过 500 字
- 回答包含代码示例

第四步:构建评分器

根据评分标准选择评分器类型:

标准类型评分器示例
格式/语法代码JSON 格式是否正确
功能正确代码测试是否通过
语义正确模型回答是否准确
质量/风格模型报告是否有洞察

第五步:建立基线

运行评估建立基线分数。这是改进的起点。没有基线就无法衡量改进。

记录当前的 Pass@k、Pass^k、平均分、分布情况。

第六步:迭代改进

根据评估结果改进 Agent——可能是 Prompt 调整、工具改进、架构优化。每次改进后重新评估,比较分数变化。

关键:每次只改一个变量。同时改多个无法知道哪个改动产生了效果。

第七步:持续运行

评估不是一次性工作。持续运行评估检测退化。每次代码变更、Prompt 更新、模型升级后都运行评估。

自动化:将评估集成到 CI/CD 流程。每次 PR 合并前自动运行评估。

第八步:分析和报告

评估结果要可视化。趋势比绝对值更重要——分数是在上升还是下降?

建立评估仪表板:按维度展示分数、按时间展示趋势、按失败模式分类。

第九步:扩展覆盖

随着 Agent 能力增长,评估范围也要扩展。新的功能需要新的评估用例。新的失败模式需要加入评估集。

保持评估数据集的活力——定期审查、更新、淘汰过时用例。


评估工具选型

Harbor

开源评估框架。支持自定义评分器、批量评估、结果可视化。适合有工程能力的团队自己搭建评估系统。

Promptfoo

专注于 Prompt 评估。快速对比不同 Prompt 版本的效果。支持多种 LLM 后端。适合 Prompt 迭代优化。

Braintrust

商业化评估平台。提供评估管理、结果分析、版本对比等功能。适合需要开箱即用方案的团队。

LangSmith

LangChain 生态的评估工具。与 LangChain 深度集成。支持 Trace 分析和评估。适合使用 LangChain 的团队。

选型建议

需求推荐
完全自主控制Harbor
快速 Prompt 对比Promptfoo
开箱即用Braintrust
LangChain 生态LangSmith

大多数团队从 Promptfoo 开始——快速、简单、够用。需要更复杂的评估流程时再升级到 Harbor 或 Braintrust。


常见错误

评估数据集太小:10 个用例不能代表真实场景。至少需要 50-100 个有代表性的用例。

只评估成功案例:失败案例同样重要——甚至更重要。知道 Agent 在哪里失败比知道它在哪里成功更有价值。

评分标准太主观:"回答质量好"无法自动化评估。用客观可衡量的标准。

评估后不行动:评估的目的是改进。如果评估发现问题但不修复,评估就是浪费。

过度评估:不是所有输出都需要深度评估。80% 的评估用代码评分器自动化完成。


本章要点

  • 九步路线图:定义目标 → 收集数据 → 定义标准 → 构建评分器 → 建立基线 → 迭代改进 → 持续运行 → 分析报告 → 扩展覆盖
  • 工具选型:Harbor(自主)、Promptfoo(快速对比)、Braintrust(开箱即用)、LangSmith(LangChain 生态)
  • 常见错误:数据集太小、只评成功、标准主观、评估后不行动

上一章: 四类评估与纵深防御


模块总结

Agent 评估系列全部完结,共 4 章:

章节主题核心概念
1为什么需要评估Pass@k / Pass^k、随机性衡量
2评分器体系代码/模型/人类三角闭环
3四类评估与纵深防御瑞士奶酪模型、四层防御
4从零构建九步路线图、工具选型

← 返回首页 | 下一模块: 生产实践 →

基于 CC BY-SA 4.0 协议发布