生产实践速查

快速查阅生产化决策标准。按章节顺序阅读。

📡 可观测性三层体系

💡 核心洞察：Trace 是最值钱的数据——它既是调试工具（发现问题），也是评估数据源（衡量质量），还是优化依据（找到瓶颈）。没有 Trace 的 Agent 系统就像没有日志的服务器，出了问题只能猜。

Trace 采样策略

策略	做法	适用场景
全量采集	记录每次请求的完整 Trace	开发环境、关键路径
按错误采样	错误 100% 记录，成功 10% 记录	生产环境（推荐）
按延迟采样	慢请求 100%，快请求 1%	性能优化阶段
按用户采样	特定用户/租户全量	问题复现

🔒 权限分级速查

级别	典型操作	审批要求	风险等级
L1 (只读)	查询数据库、读文件、搜索	无	🟢
L2 (写-可逆)	创建文件、提交代码、发邮件	记录日志	🟡
L3 (写-半可逆)	修改配置、推送代码、重启服务	记录 + 告警	🟠
L4 (写-不可逆)	删除数据、发布生产、修改权限	人工审批	🔴

💡 安全原则：默认 L1，按需升级。永远不要给 Agent L4 权限而无人工审批。Agent 可能会撒谎说"已完成"，实际没有——所以 L3+ 的操作需要独立验证。

💰 Token 预算控制

三级预算体系

层级	控制对象	典型上限	超限后果
单次调用	每个 API 请求	≤ 4K output tokens	强制截断输出
单任务	一次 Agent 运行	≤ 50K total tokens	告警 + 降级
Workflow	整个流程	≤ 200K total tokens	中断 Workflow

分层模型策略

任务类型	推荐模型	成本对比
意图分类、路由分发	小模型	基准 $
常规工具调用、格式化	中模型	$ × 3
复杂推理、多步规划	大模型	$ × 15-30

💡 关键技巧：80% 的 Agent 调用是"简单任务"（分类、路由、格式化），用小模型完成这些可以节省 80% 的成本。

🔄 可靠性四层保障

机制	解决什么问题	典型实现
断点续传	任务中断后恢复（不从头开始）	Checkpoint 到数据库/文件
异步架构	削峰填谷、避免阻塞	任务队列（SQS/Celery/BullMQ）
幂等性	重复执行不重复计费	请求 ID + 幂等检查
优雅降级	模型失败时保证基本可用	降级到小模型 / 返回缓存结果

🏗️ 生产部署架构参考

关键架构决策

决策点	选项	推荐
任务调度	同步 vs 异步	异步队列（可恢复、可扩展）
模型调用	单池 vs 多池	多池（按模型类型分池，互不影响）
存储	内存 vs 数据库	数据库（持久化 + 多实例共享）
日志	文件 vs 专用栈	专用栈（ELK/Loki + Grafana）

🚨 生产告警速查

指标	阈值建议	告警级别
API 成功率	< 95%	🔴 P1
响应延迟 P95	> 30s	🟠 P2
Token 消耗突增	> 2× 平均	🟡 P3
单任务超时率	> 10%	🟠 P2
模型调用失败率	> 5%	🔴 P1