蓝标场景下不同任务类型 → 推荐模型的实战路由策略,用于在主 session、子 agent、cron 任务里**节省 token 成本 + 加快执行速度**。覆盖 6 大任务类型(长文档/中文生成/编程 Agent/对话/分析/超低成本子任务),每条都给具体模型别名 + 真实失败案例 + 成本对比。触发:选模型...
--- name: bluefocus-model-routing version: 0.1.0 description: 蓝标场景下不同任务类型 → 推荐模型的实战路由策略,用于在主 session、子 agent、cron 任务里**节省 token 成本 + 加快执行速度**。覆盖 6 大任务类型(长文档/中文生成/编程 Agent/对话/分析/超低成本子任务),每条都给具体模型别名 + 真实失败案例 + 成本对比。触发:选模型 / 用什么模型 / model 选择 / 子 agent 模型 / cron 模型 / 哪个模型便宜 / 节省 token / 加速执行 / 路由策略 / 模型成本。**适用对象**:所有蓝标龙虾(业务侧、产研侧、cron 自动化)。在执行任何"会调用 LLM"的任务前先读这份 skill,再决定用哪个模型;不要无脑用主 session 默认模型把成本翻 10 倍。NOT for:不需要选模型的纯工具调用任务、单次轻量回复(用默认就行)。 --- # 蓝标龙虾模型路由策略 执行任务前先停 5 秒想一下:**这个任务用默认模型,是不是在浪费钱?** ## 决策树(30 秒看完) ``` 任务来了 │ ├─ 是不是纯工具调用 / 一句话回复? ─→ 用主 session 默认(不用挑) │ ├─ 要写 / 改代码 / 调试 bug? ─→ gpt5.5 │ ├─ 要处理长文档 (>50K tokens) / 中文长文生成? ─→ v4pro │ ├─ 子 agent 跑写文件 / 整理 / 摘要轻量任务? ─→ v4flash │ ├─ 要深度分析 / 复杂推理 / 战略规划? ─→ v4pro 或 opus(看预算) │ └─ 默认对话 / 日常流程 ─→ sonnet(主 session 默认) ``` ## 完整路由表 | 任务类型 | 推荐模型 | 别名 | 为什么 | |---|---|---|---| | 长文档处理、中文内容生成、成本敏感任务 | `openai-compat/DeepSeek-V4-Pro` | `v4pro` | 1M 上下文,中文最强,成本是 gpt5.5 的 1/100 | | 轻量快速任务、初稿、摘要、子 agent 写文件 | `openai-compat/DeepSeek-V4-Flash` | `v4flash` | 速度快,成本极低 | | Agent 执行、编程、复杂工具调用 | `openai-compat/gpt-5.5` | `gpt5.5` | Terminal-Bench 82.7%,编程 / Agent benchmark 最强 | | 实时对话、日常流程任务、主 session 默认 | `anthropic/claude-sonnet-4-6` | `sonnet` | 响应快、成本居中,日常情境最平衡 | | 复杂推理、深度分析、需要最强 Claude 时 | `anthropic/claude-opus-4-6-v1` | `opus` | 分析质量最高,成本也最高;**Agent 任务用 gpt5.5 更强** | | 子 agent 超低成本兜底 | `openai-fallback/DeepSeek-V3.2` | — | 极低成本,能跑就行的场景 | ## 子 agent 选模型原则 子 agent 是省钱重灾区——主 session 用 opus,子 agent 也跟着 opus,10 倍浪费。 | 子 agent 任务 | 推荐 | 反例 | |---|---|---| | 写文件 / 整理内容 | `v4flash` | 用 opus 写一篇日报 → 浪费 | | 编程 / 调试 | `gpt5.5` | 用 opus 写代码 → benchmark 都不如 gpt5.5 | | 分析 / 规划 | `v4pro` | 用 opus 分析长文档 → 上下文不够还更贵 | | 多平台数据抓取 / 长流程 | `v4pro`(1800s timeout) | 用 gpt5.5 → rate limit 会挨 | | 轻量任务(<1 分钟) | `v4flash` | 用 sonnet → 没必要 | ## Cron 任务选模型原则 cron 的成本会**重复计费**——每天 5 次 × 30 天 = 150 次,模型贵 10 倍 → 月成本贵 10 倍。 | Cron 类型 | 推荐 | 备注 | |---|---|---| | 每日早报 / 内容简报 | `v4pro` | 1M 上下文吃多平台数据 + 中文输出 | | 状态监控 / 用量告警 | `v4flash` 或 systemEvent 直接跑脚本 | 不需要 LLM 时别用 LLM | | 每日总结 / harness 自动 PR | `v4flash` | 走分类 + 脱敏,不需要强模型 | | 高频心跳触发 | 跳过 LLM,用脚本判断 | 心跳走脚本,触发条件满足再用 LLM | ## 真实失败案例 ### 案例 1:宁德海外早报第一次 rate limit(2026-05-12) - **错误**:cron 用 `gpt-5.5`,3.5 分钟挨 rate limit - **原因**:多平台抓取 + 长文生成两件事都给 gpt5.5 干,触发 token / RPM 限流 - **修复**:换 `v4pro` + timeout 1800s,12.5 分钟跑完 - **教训**:长流程多平台任务首选 v4pro,不是 gpt5.5 ### 案例 2:子 agent 全用 opus(早期) - **错误**:所有子 agent 都默认用 claude-opus - **后果**:成本 10x 浪费在不需要的地方(写文件、整理日志这种 v4flash 一秒搞定的事) - **修复**:建立分类决策——写文件 → v4flash / 编程 → gpt5.5 / 分析 → v4pro / 默认 → sonnet ### 案例 3:超时压太短(2026-05-12 海外早报第三次) - **错误**:怕花钱把 cron timeout 压到 600s - **后果**:模型还没干完就被砍,brief 不落盘直接当聊天回复发出去 - **修复**:多平台抓取任务 timeout ≥ 1800s,配合 v4pro 价格不会爆 - **教训**:timeout 不要为了省成本而压短,v4pro 跑 30 分钟也比 gpt5.5 跑 5 分钟便宜 ### 案例 4:cron 错误告警把群炸了 - **错误**:cron failureAlert 默认 `announce` 到任务投递的同一个群 - **后果**:连续失败 → 群里疯狂报错刷屏 - **修复**:failureAlert 路径改私聊 webchat / DM,不要和投递目标共用 ## 主 session 模型何时切换 主 session 默认 `sonnet`(日常对话最平衡),但碰到下面情境**主动切**: | 情境 | 切到 | 怎么切 | |---|---|---| | 长文档审阅 / 长上下文回顾 | `v4pro` | `/model v4pro` | | 复杂代码 / 大段重构 | `gpt5.5` | `/model gpt5.5` | | 战略规划 / 客户分析 | `opus` | `/model opus`(注意贵) | | 切回日常 | `default` | `/model default` | 切完干完事**记得切回默认**,否则 opus 一直挂着烧钱。 ## 选错模型的成本/速度损失估算 以处理一份 30K tokens 文档生成 5K tokens 报告为例: | 选择 | 输入成本 | 输出成本 | 总价 | 速度 | |---|---|---|---|---| | ✅ v4pro(最优) | $0.008 | $0.001 | $0.01 | 30s | | ⚠️ sonnet(一般) | $0.09 | $0.075 | $0.17 | 25s | | ❌ opus(浪费) | $0.45 | $0.375 | $0.83 | 35s | | ❌❌ gpt5.5(最差) | $0.075 | $0.15 | $0.23 | rate limit 风险 | **v4pro vs opus**:80 倍差距。一个月 100 次这种任务 → 省 $82。整个团队全跑 → 省 $几千/月。 ## 红线 - ❌ **不要无脑跟主 session 默认** —— 子 agent 单独挑模型 - ❌ **不要为省成本压超时** —— 反而失败重跑更贵 - ❌ **opus / gpt5.5 不是越贵越好** —— Agent 任务 gpt5.5 > opus,长文中文 v4pro > opus - ❌ **cron 任务别忘 timeout 配套** —— 模型选了便宜的,timeout 也要给够 - ✅ **任务前先停一下** —— 看决策树 30 秒,比改 prompt 重跑省事 ## 配套使用 - **catl-harness-pr** —— 这份策略沉淀进 harness 仓的入口 - **任何子 agent 任务** —— 在 `sessions_spawn` 的 `model` 参数里指定别名 - **任何 cron 任务** —— 在 cron payload 的 `model` 参数里指定别名 ## CHANGELOG ### v0.1.0 (2026-05-25) - 初始发布 - 6 类任务路由表 + 4 个真实失败案例 - 子 agent / cron / 主 session 三场景细分 - 成本对比示例
don't have the plugin yet? install it then click "run inline in claude" again.