Agent 评估速查
快速查阅评估方法和选择标准。按章节顺序阅读。
🎯 四类 Agent 评估策略
| Agent 类型 | 核心挑战 | 推荐评估策略 | 推荐评分器 |
|---|---|---|---|
| Coding Agent | 代码可运行 + 通过测试 + 不破坏现有功能 | Fail-to-Pass + Pass-to-Pass 双测试 | 代码评分器为主 |
| 对话 Agent | 有帮助 + 无害 + 诚实 + 不胡说 | 人类偏好 + 模型评分 + 安全红线 | 模型 + 人类混合 |
| Research Agent | 事实准确 + 来源可靠 + 不遗漏关键信息 | 引用验证 + 事实检查 | 代码 + 模型 |
| Computer Agent | UI 操作正确 + 流程完整 + 异常处理 | DOM 断点 + 截图对比 | 代码评分器 |
📐 评分器选择指南
三类评分器详细对比
| 评分器 | 速度 | 成本 | 精度 | 一致性 | 适用场景 |
|---|---|---|---|---|---|
| 代码 | ⚡ 极快 | 低 | 高(明确标准) | 完全一致 | 测试通过、格式检查、API 响应验证 |
| 模型 | 快 | 中 | 中高 | 中等 | 语言质量、相关性、事实性、意图匹配 |
| 人类 | 慢 | 高 | 最高 | 因人而异 | 复杂判断、安全审查、主观评价 |
代码评分器六大方法
| 方法 | 说明 | 典型应用 |
|---|---|---|
| 正则提取 | 从回答中提取关键信息 | 提取 order_id=\d{10} |
| 二元测试 | Pass/Fail 判断 | 编译通过、测试通过 |
| 静态分析 | Linter/TypeChecker/安全扫描 | 代码风格、类型安全、漏洞检测 |
| 结果验证 | 直接查数据库/文件系统确认状态 | 文件是否真的删除了 |
| 工具调用验证 | 检查工具选择和参数是否正确 | 应该用 get_weather 不是 search |
| 格式验证 | JSON Schema、Markdown 结构 | 输出格式是否符合预期 |
模型评分器五大方法
| 方法 | 说明 | 典型应用 |
|---|---|---|
| 语义相似度 | 计算两个文本的语义距离 | 摘要是否覆盖了关键点 |
| 事实性检查 | 验证陈述是否有依据 | 回答是否基于提供的上下文 |
| 意图匹配 | 检查是否完成了用户的意图 | 用户要的是对比,Agent 给的是列表 |
| 安全性检查 | 是否包含有害/不当内容 | 安全红线检测 |
| 结构完整性 | 检查输出是否结构完整 | 报告是否包含所有必要章节 |
🔐 纵深防御体系(瑞士奶酪模型)
💡 瑞士奶酪模型:每层评估都有漏洞("洞"),多层叠加后,漏洞重叠的概率大幅降低。单一评估方法永远有盲区,纵深防御才是唯一可靠的做法。
各层评估方式速查
| 层 | 方式 | 检测什么 | 速度 | 成本 |
|---|---|---|---|---|
| L1 代码 | 正则、测试、静态分析 | 格式、语法、基本逻辑 | ⚡ | $ |
| L2 模型 | LLM-as-Judge | 语义、意图、相关性 | 快 | $$ |
| L3 规则 | 业务规则引擎 | 合规、安全、业务约束 | 快 | $ |
| L4 人类 | 抽样人工审核 | 复杂判断、主观评价 | 慢 | $$$ |
📊 Pass@k vs Pass^k 概率统计
| 指标 | 公式 | 衡量什么 | 什么时候用 |
|---|---|---|---|
| Pass@k | k 次尝试中至少成功 1 次 | 能力上限(最佳表现) | 探索性任务、创意生成、研究 |
| Pass^k | 连续 k 次都成功 | 稳定性下限(可靠性) | 生产环境、关键路径、CI/CD |
选哪个?
- 想知道 Agent 能做什么 → Pass@k(衡量潜力)
- 想知道 Agent 可靠吗 → Pass^k(衡量稳定性)
- 两者都需要 → 同时报告(Pass@3=95%, Pass^3=72% 说明:能做但不稳定)
🗺️ 九步路线图(Anthropic 官方)
| 阶段 | 步骤 | 产出 | 预计时间 |
|---|---|---|---|
| 发现 | 1. 梳理 Agent 核心能力 | 能力清单 | 1周 |
| 2. 确定评估维度 | 评估框架 | ||
| 3. 定义评分标准 | 评分器设计 | ||
| 构建 | 4. 收集评估数据 | 测试数据集 | 2-3周 |
| 5. 实现评分器 | 评估管道 | ||
| 6. 搭建自动化管道 | CI 集成 | ||
| 迭代 | 7. 运行首次评估 | 基准线报告 | 持续 |
| 8. 分析结果找问题 | 改进方向 | ||
| 9. 优化 Agent 后重跑 | 改进曲线 |
工具选型速查
| 工具 | 优势 | 适用场景 |
|---|---|---|
| Harbor | 开源、轻量 | 小团队、快速启动 |
| Promptfoo | Prompt 评估专注 | Prompt 工程团队 |
| Braintrust | SaaS、可视化好 | 中大型团队 |
| LangSmith | 与 LangChain 集成 | LangChain 用户 |
| 自建 | 完全定制 | 特殊需求、大规模 |