Skip to content

生产实践速查

快速查阅生产化决策标准。按章节顺序阅读。


📡 可观测性三层体系

💡 核心洞察:Trace 是最值钱的数据——它既是调试工具(发现问题),也是评估数据源(衡量质量),还是优化依据(找到瓶颈)。没有 Trace 的 Agent 系统就像没有日志的服务器,出了问题只能猜。

Trace 采样策略

策略做法适用场景
全量采集记录每次请求的完整 Trace开发环境、关键路径
按错误采样错误 100% 记录,成功 10% 记录生产环境(推荐)
按延迟采样慢请求 100%,快请求 1%性能优化阶段
按用户采样特定用户/租户全量问题复现

🔒 权限分级速查

级别典型操作审批要求风险等级
L1 (只读)查询数据库、读文件、搜索🟢
L2 (写-可逆)创建文件、提交代码、发邮件记录日志🟡
L3 (写-半可逆)修改配置、推送代码、重启服务记录 + 告警🟠
L4 (写-不可逆)删除数据、发布生产、修改权限人工审批🔴

💡 安全原则:默认 L1,按需升级。永远不要给 Agent L4 权限而无人工审批。Agent 可能会撒谎说"已完成",实际没有——所以 L3+ 的操作需要独立验证。


💰 Token 预算控制

三级预算体系

层级控制对象典型上限超限后果
单次调用每个 API 请求≤ 4K output tokens强制截断输出
单任务一次 Agent 运行≤ 50K total tokens告警 + 降级
Workflow整个流程≤ 200K total tokens中断 Workflow

分层模型策略

任务类型推荐模型成本对比
意图分类、路由分发小模型基准 $
常规工具调用、格式化中模型$ × 3
复杂推理、多步规划大模型$ × 15-30

💡 关键技巧:80% 的 Agent 调用是"简单任务"(分类、路由、格式化),用小模型完成这些可以节省 80% 的成本。


🔄 可靠性四层保障

机制解决什么问题典型实现
断点续传任务中断后恢复(不从头开始)Checkpoint 到数据库/文件
异步架构削峰填谷、避免阻塞任务队列(SQS/Celery/BullMQ)
幂等性重复执行不重复计费请求 ID + 幂等检查
优雅降级模型失败时保证基本可用降级到小模型 / 返回缓存结果

🏗️ 生产部署架构参考

关键架构决策

决策点选项推荐
任务调度同步 vs 异步异步队列(可恢复、可扩展)
模型调用单池 vs 多池多池(按模型类型分池,互不影响)
存储内存 vs 数据库数据库(持久化 + 多实例共享)
日志文件 vs 专用栈专用栈(ELK/Loki + Grafana)

🚨 生产告警速查

指标阈值建议告警级别
API 成功率< 95%🔴 P1
响应延迟 P95> 30s🟠 P2
Token 消耗突增> 2× 平均🟡 P3
单任务超时率> 10%🟠 P2
模型调用失败率> 5%🔴 P1

基于 CC BY-SA 4.0 协议发布