实时分析任务类型并基于多维评分推荐最优国产大模型，自动执行并跟踪Token消耗与预算。

SKILL.md

大模型Token用量及效果实时决策 v2.0

输入 prompt，自动推荐最优模型并直接执行
比价 + 评估 + ROI + TokenPlan换算
多维加权评分 | 上下文自动决策 | 故障转移 | 预算追踪

用法：加 `/token决策`，或说"推荐模型/最便宜/性价比"自动触发

开发者：乙春

自动触发：当用户说"推荐模型/最便宜/性价比/质量高/用哪个好/划算/对比"时，自动调用。

## 核心能力

1. 任务分类 → 8类（写作/编程/翻译/分析/知识问答/总结摘要/数学推理/闲聊）
   - 关键词匹配 + 置信度评估（≥3高/1-2中/0未知 fallback）
   - 未知 prompt 自动语义 fallback 分类
2. 多维加权评分 → 每类任务 5-6 个维度独立权重
   - 编程重 efficiency(30%)，写作重 conciseness(30%)，数学重 accuracy(50%)
3. 模型对比 → 9款国产模型实测数据，质量+成本+延迟
4. 上下文自动决策 → 长文本(>2000字符)自动推荐大窗口模型
5. 故障转移 → API调用失败自动切换备选模型（最多2次）
6. 省钱计算 → 比次优方案省了多少一目了然
7. 计费透明 → Token Plan 积分消耗换算
8. 预算追踪 → 今日累计消耗显示
9. 聚类进化 → cluster.py 自动发现新关键词并更新分类规则
10. 直接执行 → 推荐即调用模型 API，返回结果

## 版本改进 (v1.0 → v2.0)

| 改进项 | 说明 |
|--------|------|
| 智能分类 | 关键词 + 置信度 + fallback，不再一律兜底"闲聊" |
| 多维评分 | 8类任务 × 5-6维独立权重，替代单一 overall 公式 |
| 上下文决策 | 长文本自动切换大窗口模型，不再仅 ⚠️ 提示 |
| 故障转移 | API失败自动回退备选模型，最多3次尝试 |
| Token估算 | tiktoken 准确编码，替代 char×1.5 粗糙估算 |
| 预算追踪 | 每次推荐显示今日消耗 |
| 累计报表 | stats.py 新增今日/本周/累计节省统计 |
| 自动进化 | cluster.py --update 自动更新关键词 |

## 输出示例

```
=======================================================
  大模型Token用量及效果实时决策 v2.0
  开发：乙春 | 数据驱动 · 多维评分 · 智能路由
=======================================================
  任务识别: 写作 | 模式: 均衡

  🎯 推荐: deepseek-v3.2 (🏆 综合最优)
     加权质量: 93.5/100 | 预估: 1250token | ¥0.000462

  📊 备选模型（同一任务实测数据）
  模型                    质量     成本¥     延迟     评价
  -------------------------------------------------------
  deepseek-v3.2          93.5    0.000462    3531ms 🏆推荐
  deepseek-v4-flash      92.0    0.000839       0ms 长窗
  hy3-preview            89.0    0.000000       0ms 免费

  💰 比 deepseek-v4-flash 省 ¥0.000377
  🪙 Token Plan 消耗估算:
     基础token: 1250 × 计费系数1.3 = 1625 积分
     参考: Token Plan 40元/月约可调用 246 次此类任务

  📊 今日消耗 ¥0.001234
=======================================================
```

## 依赖
- Python 3.x + openai + python-dotenv + tiktoken
- `benchmark.db` (9 模型 × 8 类实测)
- `.env` (API Key，仅执行时需要)

## 数据来源
- 9 款国产大模型实测 benchmark
- Deepseek-V4-Pro 在线 8 维评分（accuracy/completeness/format_score/creativity/readability/conciseness/relevance/efficiency）
- tiktoken o200k_base 编码器（GPT-4o 通用编码）

## 文件结构
```
token-decision/
  SKILL.md        # 本文件
  token_eval.py   # 主程序：分类+评分+推荐+执行+预算
  cluster.py      # 聚类分析+关键词自动更新
  stats.py        # 使用统计面板（含累计节省）
  benchmark.db    # 9模型×8类实测数据库
  .env            # API Keys（不纳入版本管理）
```

Token Decision

SKILL.md

related skills