Skip to content

Agent 评估速查

快速查阅评估方法和选择标准。按章节顺序阅读。


🎯 四类 Agent 评估策略

Agent 类型核心挑战推荐评估策略推荐评分器
Coding Agent代码可运行 + 通过测试 + 不破坏现有功能Fail-to-Pass + Pass-to-Pass 双测试代码评分器为主
对话 Agent有帮助 + 无害 + 诚实 + 不胡说人类偏好 + 模型评分 + 安全红线模型 + 人类混合
Research Agent事实准确 + 来源可靠 + 不遗漏关键信息引用验证 + 事实检查代码 + 模型
Computer AgentUI 操作正确 + 流程完整 + 异常处理DOM 断点 + 截图对比代码评分器

📐 评分器选择指南

三类评分器详细对比

评分器速度成本精度一致性适用场景
代码⚡ 极快高(明确标准)完全一致测试通过、格式检查、API 响应验证
模型中高中等语言质量、相关性、事实性、意图匹配
人类最高因人而异复杂判断、安全审查、主观评价

代码评分器六大方法

方法说明典型应用
正则提取从回答中提取关键信息提取 order_id=\d{10}
二元测试Pass/Fail 判断编译通过、测试通过
静态分析Linter/TypeChecker/安全扫描代码风格、类型安全、漏洞检测
结果验证直接查数据库/文件系统确认状态文件是否真的删除了
工具调用验证检查工具选择和参数是否正确应该用 get_weather 不是 search
格式验证JSON Schema、Markdown 结构输出格式是否符合预期

模型评分器五大方法

方法说明典型应用
语义相似度计算两个文本的语义距离摘要是否覆盖了关键点
事实性检查验证陈述是否有依据回答是否基于提供的上下文
意图匹配检查是否完成了用户的意图用户要的是对比,Agent 给的是列表
安全性检查是否包含有害/不当内容安全红线检测
结构完整性检查输出是否结构完整报告是否包含所有必要章节

🔐 纵深防御体系(瑞士奶酪模型)

💡 瑞士奶酪模型:每层评估都有漏洞("洞"),多层叠加后,漏洞重叠的概率大幅降低。单一评估方法永远有盲区,纵深防御才是唯一可靠的做法。

各层评估方式速查

方式检测什么速度成本
L1 代码正则、测试、静态分析格式、语法、基本逻辑$
L2 模型LLM-as-Judge语义、意图、相关性$$
L3 规则业务规则引擎合规、安全、业务约束$
L4 人类抽样人工审核复杂判断、主观评价$$$

📊 Pass@k vs Pass^k 概率统计

指标公式衡量什么什么时候用
Pass@kk 次尝试中至少成功 1 次能力上限(最佳表现)探索性任务、创意生成、研究
Pass^k连续 k 次都成功稳定性下限(可靠性)生产环境、关键路径、CI/CD

选哪个?

  • 想知道 Agent 能做什么 → Pass@k(衡量潜力)
  • 想知道 Agent 可靠吗 → Pass^k(衡量稳定性)
  • 两者都需要 → 同时报告(Pass@3=95%, Pass^3=72% 说明:能做但不稳定)

🗺️ 九步路线图(Anthropic 官方)

阶段步骤产出预计时间
发现1. 梳理 Agent 核心能力能力清单1周
2. 确定评估维度评估框架
3. 定义评分标准评分器设计
构建4. 收集评估数据测试数据集2-3周
5. 实现评分器评估管道
6. 搭建自动化管道CI 集成
迭代7. 运行首次评估基准线报告持续
8. 分析结果找问题改进方向
9. 优化 Agent 后重跑改进曲线

工具选型速查

工具优势适用场景
Harbor开源、轻量小团队、快速启动
PromptfooPrompt 评估专注Prompt 工程团队
BraintrustSaaS、可视化好中大型团队
LangSmith与 LangChain 集成LangChain 用户
自建完全定制特殊需求、大规模

基于 CC BY-SA 4.0 协议发布