Skip to content

Harness 工程速查

快速查阅决策框架和选择标准。按问题查找解决方案。


一、Harness 工程师的三件事速查

Harness 工程师的核心职责不是写代码,而是设计让 Agent 能高效运行的环境

支柱核心问题关键指标
状态可读性Agent 能"看见"系统状态吗?Agent 是否能自主工作 6 小时以上
知识可发现Agent 能"找到"需要的知识吗?新 Agent 接手后能否在 10 分钟内理解项目
强制执行规则能被"自动执行"吗?规则是否写进了代码而非停留在文档

二、状态可读性:可见性层次速查

层次含义实现方式判断标准
可见Agent 能看见 UI 和系统状态Chrome DevTools 协议、DOM 快照Agent 能读取到当前页面/系统状态
可解析状态数据能被 Agent 理解LogQL、PromQL 查询接口Agent 能从原始数据中提取有意义的信息
可验证Agent 能自主判断对错闭环反馈:写代码 → 验证 → 修复Agent 能通过测试确认自己的操作是否正确

投资回报:当 Agent 有了完整的感知能力,它可以自主工作 6 小时以上(通常是在人类睡觉的时候),完全不需要人类介入。


三、知识可发现:知识组织速查

核心原则

不在仓库里的知识,对 Agent 来说就是不存在。

知识目录结构参考

dox/
├── design/          # 设计文档,带验证状态
├── beliefs/         # 核心信念
├── plans/           # 执行计划(进行中/已完成)
├── tech-debt/       # 技术债务追踪
├── specs/           # 产品规格
└── health/          # 质量评分

关键实践

实践错误做法正确做法
知识组织把所有规则塞进一个巨大的 agents.md用 100 行的 agents.md目录,指向具体文档
知识更新写一次就不管了建立持续更新机制,文档带验证状态
知识可搜索知识散落在 Slack/邮件里把知识结构化地放在 Agent 能访问的文件系统中

四、强制执行:把建议变成法律

维度文档规则(建议)代码规则(法律)
执行方式Agent 可能忽略Linter 强制报错
覆盖面单次任务所有 Agent 的所有任务
更新成本高(但收益更大)
杠杆效应瞬间在所有任务中生效

三层执行策略

策略做什么例子
刚性分层代码只能向前依赖,绝不能回头架构层约束
Providers 模式所有公共能力必须通过统一入口进入API 网关
Linter 即 Prompt不仅报错,还自带修复指令ESLint + 自动修复

五、工具设计速查

Tool 光谱:Framework vs Harness vs 纯代码

纯代码 ←————————————————→ Framework ←————————————————→ Harness
(最左)                      (中间)                      (最右)
类型特征适合谁比喻
纯代码灵活性最大,所有麻烦自己扛底层系统开发者自己造车
Framework封装组件,系统设计自己决定喜欢搭系统的工程师宜家买家具
Harness完整系统,给油就走追求速度的团队原厂精调跑车

工具设计核心原则

工具的有效性取决于模型能不能稳定正确地使用它。

Seeing Like an Agent:工具评估信号

信号健康状态问题信号
调用频率适中,任务需要时自然调用很低(模型不知道什么时候用)或过度(模型过度依赖)
调用时机正确的场景调用总是在错误的时机调用
输出质量调用后输出质量提升调用后质量反而下降

工具设计 Checklist

  • [ ] 工具意图是否单一?(一个工具不要承载两种互斥意图)
  • [ ] 工具名称是否清晰?(模型能从名称推断用途)
  • [ ] 工具参数是否有明确约束?(类型、范围、必填/选填)
  • [ ] 工具返回值是否结构化?(方便模型解析)
  • [ ] 错误信息是否友好?(模型能理解为什么失败)
  • [ ] 是否避免了格式约定?(不要把关键交互建立在 Prompt 格式上)

六、成本与效率速查

成本结构反转

维度传统世界Agent 世界
修正成本很贵很便宜(自动化修复几秒钟)
等待成本很便宜最贵(1000 件产品全在等)

实践转变

做法理由
最小化阻塞门控等待是 Agent 世界最贵的成本
PR 保持短生命周期高频小步快跑
绝不让 Flaky Test 无限期阻塞一个 flaky test 会拖垮整个流水线

七、什么时候该做什么?决策流程图


八、Build to Delete:为废弃而构建

原则说明
松散耦合Harness 架构必须像乐高积木一样松散
随时可弃允许随时撕掉昨天才写好的"聪明控制逻辑"
新模型击穿过度设计的控制流会被新模型直接击穿

Harness 即 Dataset

Harness 的真正价值:捕获模型漂移(Model Drift)的数据

  • 当模型在超长任务中(第 100 步)开始"缺氧"、忘记规则时
  • Harness 像飞机黑匣子一样记录断点数据
  • 这些崩溃轨迹是最稀缺的数据金矿
  • 谁的 Harness 拦截到更多崩溃轨迹,谁就能训练出更好的模型

基于 CC BY-SA 4.0 协议发布