Skip to content
Hermes Engineering
Search
K
Main Navigation
教程
路线图
知识图谱
博客
外观
菜单
返回顶部
页面导航
Agent评估
Agent 不是自动贩卖机——需要全新的评估方法来衡量概率性输出。
章节列表
为什么需要评估
— Pass@k / Pass^k、评估三元组、四个层次
评分器体系
— 代码/模型/人类评分器、评估金字塔
四类评估与纵深防御
— 瑞士奶酪模型、纵深防御
从零构建
— 九步路线图、工具选型