Skip to content

Agent评估

Agent 不是自动贩卖机——需要全新的评估方法来衡量概率性输出。

章节列表

  1. 为什么需要评估 — Pass@k / Pass^k、评估三元组、四个层次
  2. 评分器体系 — 代码/模型/人类评分器、评估金字塔
  3. 四类评估与纵深防御 — 瑞士奶酪模型、纵深防御
  4. 从零构建 — 九步路线图、工具选型

基于 CC BY-SA 4.0 协议发布