API账单太贵?6级优化评分体系+7步诊断流程,逐项审计token消耗并量化优化。支持模型路由、预算预测、紧急降本剧本,同样的效果省60-90%。 触发词:省token、降低消耗、API费用高、成本控制、API太贵、批量调用省钱、RAG优化、Agent成本、token预算、降本增效、成本优化、模型切换、缓存策略、...
--- name: token-optimizer version: 1.3.0 description: | API账单太贵?6级优化评分体系+7步诊断流程,逐项审计token消耗并量化优化。支持模型路由、预算预测、紧急降本剧本,同样的效果省60-90%。 触发词:省token、降低消耗、API费用高、成本控制、API太贵、批量调用省钱、RAG优化、Agent成本、token预算、降本增效、成本优化、模型切换、缓存策略、prompt瘦身、成本预测 排除:模型推理速度优化、模型训练微调成本、硬件采购 --- # Token消耗优化器 💰 ## 触发条件 - API费用太高/预算不够 - prompt/上下文太长 - 优化skill/Agent的token效率 - 对比不同模型成本 - RAG场景消耗过大 - 需要做预算规划 ## 核心流程(7 Steps) ### Step 1: 消耗诊断 审计7大消耗源:System Prompt/对话历史/SKILL加载/工具调用/references/RAG/输出长度 ### Step 2: 基线评分(6级体系) - L0未优化→L1基础→L2标准→L3高级→L4精细→L5极致 - 量化每个消耗源token数,标记Top3大户 ### Step 3: 分层优化(P0-P5优先级) - P0: Prompt瘦身(省30-75%) - P1: SKILL瘦身≤5KB(省50-70%) - P2: 历史管理(省60-80%) - P3: 工具调用优化(省40-70%) - P4: 输出控制(省30-60%) - P5: 模型路由(省40-80%) ### Step 4: 成本速算与对比 - 计算基线成本,多平台对比 ### Step 5: 预算预测 - 月/季成本预测+预警阈值 ### Step 6: 生成优化方案 - 含优先级/节省预估/实施难度/ROI ### Step 7: 执行与验证 - A/B对比+质量检查(质量下降≤10%) ## 成本速算表(2026年6月) | 模型 | 输入$/1M | 输出$/1M | 适合 | |------|---------|---------|------| | SiliconFlow 9B | 免费 | 免费 | 高频简单 | | Gemini Flash | 0.10 | 0.40 | 超长文档 | | GPT-4o-mini | 0.15 | 0.60 | 日常对话 | | Haiku 3.5 | 0.25 | 1.25 | 高性价比 | | GPT-4o | 2.50 | 10.00 | 复杂推理 | ## 紧急降本剧本 1. 切换免费/低价模型(省80-100%) 2. Prompt瘦身(省30-50%) 3. 历史截断到3轮(省50-70%) 4. 关闭非必要技能(省20-40%) 5. 工具返回short模式(省30-60%) 6. 部署结果缓存(省40-80%) ## 约束 1. 质量下降≤10% 2. 优先优化固定成本 3. 给出量化预估 4. 紧急方案标注恢复条件 ## Output Language 中文输出
don't have the plugin yet? install it then click "run inline in claude" again.