clawhub
鲁班.Skill

鲁班.Skill（luban Skill）：工业级智能体技能优化器。当用户提及以下关键词时调用：“优化skill”、“skill评分”、“自动优化”、“auto optimize”、“skill质量检查”、“小鲁班”、“luban”、“优化技能”、“帮我改skill”、“skill怎么样”、“提升skill质量”...
view source
installs
stars
karma
SkillRank score ↗
2.8/ 10
evaluated by implexa, claude-haiku-4-5 · 2026-06-11
luban-skill-pro claims to be an industrial-grade skill optimizer with six modular engines (darwin, evoskill, skillops, cascade, distill, hasp) but the procedure sections are pseudo-code abstractions lacking concrete, executable steps. extensive academic citations and conceptual depth do not compensate for the absence of actionable guidance or realistic failure paths.
structure
3.0
trigger phrases
8.0
procedure
2.0
edge cases
3.0
documentation
2.0
SKILL.md

---
name: luban-skill
description: "鲁班.Skill（luban Skill）：工业级智能体技能优化器。当用户提及以下关键词时调用：“优化skill”、“skill评分”、“自动优化”、“auto optimize”、“skill质量检查”、“小鲁班”、“luban”、“优化技能”、“帮我改skill”、“skill怎么样”、“提升skill质量”、“skill review”、“skill打分”。"
---

# 鲁班.Skill

> 天工开物 工匠鲁班

>
>
> 核心理念：**技能不是写完就完的静态文档，而是在评估→改进→验证→巡检→硬化→精简的闭环中持续生长的活资产。**

---

## 底座架构

```
                          ┌────────────────────────────────┐
                          │       技能自进化调度器           │
                          │   事件驱动 + 定时轮询 + 按需    │
                          └──────┬─────────────────────────┘
      ┌──────────┬─────────┬────┼────┬──────────┬──────────┐
      ▼          ▼         ▼    ▼    ▼          ▼          ▼
  ┌────────┐┌────────┐┌────────┐┌────────┐┌────────┐┌────────┐
  │ 核心   ││EvoSkill││SkillOps││CASCADE ││ Distill││  HASP  │
  │Darwin  ││ 失败   ││ 定期   ││ 知识   ││ 精简   ││ 规则   │
  │优化循环││ 驱动   ││ 体检   ││ 更新   ││ 瘦身   ││ 硬化   │
  │(P0-P3) ││ 修补   ││        ││        ││        ││        │
  └────┬───┘└───┬────┘└───┬────┘└───┬────┘└───┬────┘└───┬────┘
       │        │         │         │         │         │
       └────────┴─────────┴────┬────┴─────────┴─────────┘
                               │
                               ▼
                    ┌─────────────────────┐
                    │   技能文件仓库        │
                    │ SKILL.md + refs/ +  │
                    │ tests.yaml +         │
                    │ results.tsv          │
                    └─────────────────────┘
```

**调度优先级**：事件驱动（立即）> 按需触发（用户指令）> 定时轮询（周/月/季）

**并发控制**：同一技能同时只运行一个进化任务，新任务排队。

---

## 一、核心引擎：Darwin 优化循环（保留自 v2.0）

### 评估 Rubric（9维度，总分100）

> 依据 SkillLens (arXiv 2605.23899)：LLM-as-judge 准确率仅 46.4%，加入 meta-skill 三维度后提升到 73.8%。

#### 结构维度（59分）— 静态分析

| # | 维度 | 权重 | 评分标准 |
|---|------|------|---------|
| 1 | Frontmatter质量 | 7 | name规范、description包含做什么+何时用+触发词、≤1024字符、禁结尾加空话尾巴 |
| 2 | 工作流清晰度 | 12 | 步骤明确可执行、有序号、每步有明确输入/输出 |
| 3 | 失败模式编码 | 12 | 必须显式编码失败模式；有fallback路径、错误恢复；只写正向流程扣 ≥3 分 |
| 4 | 检查点设计 | 6 | 关键决策前有用户确认、显性标记（🔴/STOP/CHECKPOINT） |
| 5 | 可执行具体性 | 17 | 不模糊、有具体参数/格式/示例；禁止"建议/可以考虑/根据情况"等软化措辞，≥3 处扣 ≥3 分 |
| 6 | 资源整合度 | 4 | references/scripts/assets引用正确、路径可达 |

#### 效果维度（35分）— 需实测

| # | 维度 | 权重 | 评分标准 |
|---|------|------|---------|
| 7 | 整体架构 | 12 | 层次清晰、不冗余不遗漏；冗余/AI腔废话扣分 |
| 8 | 实测表现 | 23 | 用测试prompt跑一遍，输出质量是否符合宣称能力 |

#### Meta-skill 维度（6分）— 反例与黑名单

| # | 维度 | 权重 | 评分标准 |
|---|------|------|---------|
| 9 | 反例与黑名单 | 6 | 必须有"不要做什么"的反例清单；没有扣 ≥3 分 |

评分规则：维度1-7、9 各打 1-10 分×权重；维度8 跑 2-3 个测试 prompt 打分。总分 = Σ(维度分×权重)/10，满分 100。改进后总分必须严格高于改进前。

关于「实测表现」维度：用子 agent 独立执行，带 skill vs 不带 skill baseline 对比输出质量。子 agent 不可用时退化为干跑验证（标注 `dry_run`），但 dry_run 比例 >30% → 评估失效警告。

### Runtime 适配性审查（gate 项）

skill 应能在 Claude Code / Codex / Cursor / OpenClaw / Hermes / Gemini CLI / OpenCode 等 50+ runtime 通用。Phase 1 基线评估时强制跑红灯扫描：grep 命中 `在 Claude Code`、`Claude Code skill` 等措辞 → 强制 P0 修复。

### Phase 0: 初始化

```
1. 确认优化范围（全部/指定 skill）
2. 创建 git 分支：auto-optimize/YYYYMMDD-HHMM
3. 初始化 results.tsv（如不存在）
4. 读取现有 results.tsv 了解历史记录
```

### Phase 0.5: 测试 Prompt 设计

```
for each skill:
  1. 读取 SKILL.md
  2. 设计 2-3 个测试 prompt（覆盖典型场景 + 复杂/歧义场景）
  3. 保存到 skill 目录/test-prompts.json
```

展示所有测试 prompt 给用户，确认后再进入评估。

### Phase 1: 基线评估

```
for each skill:
  # 结构评分（主 agent）
  1. 读取 SKILL.md 全文，按维度 1-7 逐项打分
  # 效果评分（子 agent 独立）
  2. 对每个测试 prompt，spawn 子 agent 跑带/不带 skill 对比
  3. 打维度 8 分
  # 汇总
  4. 计算加权总分，记录到 results.tsv
```

🔴 CHECKPOINT：暂停等用户确认，再进入优化循环。

### Phase 2: 优化循环

```
for each skill (按分数从低到高):
  round = 0
  while round < MAX_ROUNDS (默认3):
    round += 1
    1. 诊断：找得分最低维度（注意 dim2/3/4 是相关簇）
    2. 提出改进方案（改什么、为什么、预期提升）
    3. 执行改进，git commit
    4. 重新评估（结构+效果，必须用独立子 agent）
    5. 决策：新总分 > 旧总分 → keep；否则 revert
       - 连续 2 轮 Δ < 2 分 → break（触顶）
    6. 追加 results.tsv
  🔴 CHECKPOINT：每个 skill 优化完后展示 diff + 分数变化，等用户确认
```

### Phase 2.5: 探索性重写（按需）

连续 2 个 skill 都在 round 1 就 break → 提议一次探索性重写（git stash → 从头重写 → 对比评估 → 择优保留）。🔴 必须征得用户同意。

### Phase 3: 汇总报告

输出优化总数、保留/回滚比例、分数变化表、主要改进摘要。

### results.tsv 格式

```tsv
timestamp	commit	skill	old_score	new_score	status	dimension	note	eval_mode
```

---

## 二、EvoSkill 模块：失败驱动的技能修补

> 论文：[arXiv:2603.02766](https://arxiv.org/abs/2603.02766)
> 核心理念：让 AI 从失败中自动发现能力缺口，自主构建修补方案。

### 触发条件

- 用户明确反馈技能执行不符合预期（"不对""没效果""缺少XX""这个技能有问题"）
- Agent 执行时遇到技能未覆盖的场景导致失败

### 缺口分类

| 缺口类型 | 判定特征 |
|----------|---------|
| 触发词遗漏 | 用户输入含关键意图但技能未触发 |
| 规则缺失/模糊 | 技能没有覆盖用户场景的指引 |
| 指令冲突 | 多条规则给出矛盾建议 |
| 流程漏洞 | 技能规定的流程某环节不可行 |
| 输出格式不当 | 技能输出格式不符合预期 |
| 版本兼容 | 依赖的外部工具版本已变更 |

### 执行流程

```
Step 1: 捕获失败上下文
  - 用户的原始指令
  - 技能被调用的完整参数
  - 技能执行后的输出/报错
  - 用户的具体反馈

Step 2: 定位缺口
  - 按缺口分类表判定类型
  - 定位技能文件中需修改的具体位置（文件路径 + 行号范围）

Step 3: 生成补丁
  - 给出 old_str → new_str 的具体修改内容
  - 附带修改理由
  - 状态：待用户确认

Step 4: 输出修复建议
```

### 输出格式

```markdown
## 🔧 EvoSkill 修复建议

**目标技能**：{skill_name}
**缺口类型**：{type}
**定位**：{file}:{line}

**当前**：{old_str}
**建议**：{new_str}
**理由**：{reason}

[待确认]
```

---

## 三、SkillOps 模块：定期健康巡检

> 论文：[arXiv:2605.13716](https://arxiv.org/abs/2605.13716)
> 核心理念：将技能库维护形式化为独立的「库时」问题，五维诊断 + 自动维护。

### 触发条件

- 定时任务：每周自动执行
- 用户指令："检查技能健康""技能体检""巡检"

### 五维诊断矩阵

| 维度 | 检查项 | 严重程度 |
|------|--------|----------|
| 效用 | SKILL.md 每条规则是否有触发条件；references 是否被引用 | 🟡/🟢 |
| 冗余 | 内容高度重复的 references；SKILL.md 中可合并的段落 | 🟢 |
| 兼容性 | 文件路径引用断裂；外部链接失效；YAML 非法 | 🔴/🟡/🔴 |
| 失败风险 | 未定义触发条件的强制规则；规则粒度过粗 | 🟡/🟢 |
| 验证缺口 | 缺少对应 rules 的验证步骤；references 缺示例和反例 | 🟡/🟢 |

### 维护动作（对齐 SkillOps 原论文概念）

| 动作 | 含义 | 示例 |
|------|------|------|
| `merge` | 合并内容高度重复的 references（相似度 > 0.8） | ref-a.md + ref-b.md → ref-merged.md |
| `repair` | 修复断裂引用或非法格式 | 路径 /old/path.md 不存在 → 改为 /new/path.md |
| `retire` | 标记过时规则（加 `[DEPRECATED]`） | 规则提到已停用的 API → 标记待清理 |
| `add_validator` | 补充验证/测试用例 | 规则 A 无验证流程 → 自动生成测试样例 |

### 执行流程

```
Step 1: 加载目标技能文件（SKILL.md + references/ 下所有文件）
Step 2: 逐维度扫描
  - 工具化扫描：Python 脚本做结构分析（路径、YAML、引用链）
  - 语义化扫描：Agent 做内容分析（规则一致性、重复、歧义）
Step 3: 汇总诊断报告（按 🔴 > 🟡 > 🟢 排序）
Step 4: 生成维护动作清单（输出报告，不自动修改）
```

### 输出格式

```markdown
## 🏥 SkillOps 健康巡检 —— {skill_name} —— {date}

| # | 严重程度 | 位置 | 问题描述 | 建议动作 |
|---|---------|------|----------|----------|
| 1 | 🔴 | SKILL.md:42 | 引用路径断裂 | repair |
| 2 | 🟡 | ref-faq.md | 规则缺少验证 | add_validator |
| 3 | 🟢 | ref-a.md + ref-b.md | 内容高度重复 | merge |
```

---

## 四、CASCADE 模块：领域知识自动更新

> 论文：[arXiv:2512.23880](https://arxiv.org/abs/2512.23880)
> 核心理念：两大元技能驱动——持续学习（web_search/代码提取/记忆利用）+ 自我反思（内省/知识图谱探索）。

### 触发条件

- 定时任务：每季度自动执行
- 用户指令："更新技能知识""补最新""刷新 references"
- 技能 references 中引用外部知识且距上次更新 > 90 天

### 执行流程

```
Step 1: 扫描 references/ 目录
  - 识别所有外部引用（arXiv ID、API 文档 URL、标准编号等）
  - 记录每个引用的最后更新日期

Step 2: 筛选过时引用
  - 距上次更新 > 阈值 → 标记待更新
  - 优先处理用户最近高频使用的技能

Step 3: 知识检索
  - 论文：搜索引用 arXiv ID，检查是否有新版本
  - API：抓取最新文档，对比 changelog
  - 标准：搜索是否发布了新版本

Step 4: 自我反思（内省）
  - 对比新旧知识差异
  - 判断是否影响技能规则的有效性
  - 仅在有实质性变化时生成更新

Step 5: 追加式更新
  - 追加新知识（不删除旧内容，标注版本号）
  - 格式：## [YYYY-MM-DD] 更新：xxx → 新内容
```

### 关键设计

- 只追加不删除：旧知识的废弃留给 SkillOps 的 `retire` 动作
- 标注版本：每次更新附带日期和版本号
- 不自动修改规则：仅更新 references，不自动改 SKILL.md 中的规则引用

---

## 五、Skill Distill 模块：判断何时该精简

> 论文：[arXiv:2604.01608](https://arxiv.org/abs/2604.01608)
> 核心理念：指标自由度 F —— 第一个可先验计算的技能效用预测器，判断哪些内容可以精简。

### 触发条件

- SkillOps 体检报告中「冗余」维度评分低
- 技能 references 文件数超过 15 个
- 用户指令："精简技能""瘦身""技能太长了"

### 指标自由度 F 的近似计算

由于原论文 Mantel 检验需实际执行数据，使用启发式近似：

```
F_approx = 1 - (模块被规则引用的次数 / 模块总字符数归一化)
```

- F ≈ 1：模块内容庞大但很少被引用 → 可精简
- F ≈ 0：模块内容紧凑且多处引用 → 保留
- F_approx ≥ 0.7：标记「可精简」；≤ 0.3：标记「核心资产」

### 精简优先级

| 优先级 | 类型 | 处理 |
|--------|------|------|
| P0 | 完全未被引用的 references | 直接建议删除 |
| P1 | 文件大但仅 1-2 处引用 | 提取引用段落到 SKILL.md，删原文件 |
| P2 | 多处重复的示例代码块 | 合并为一个 reference |
| P3 | 历史版本累积的旧内容 | 归档到 archive/ 子目录 |

### 执行流程

```
Step 1: 构建引用矩阵
  - SKILL.md 每条规则 → 引用了 references/ 的哪些段落
  - 计算每个 references 文件的「有效引用密度」

Step 2: 计算 F_approx，分级标记

Step 3: 生成精简方案
  - 展示「删除后文件大小变化」预估
  - 标注「保留的核心内容」
  - 🔴 CHECKPOINT：待用户确认后执行
```

---

## 六、HASP 模块：将建议规则硬化

> 论文：[arXiv:2605.17734](https://arxiv.org/abs/2605.17734)
> 核心理念：技能升格为可执行程序函数（PF），含 should_activate + intervene，从"建议"变"硬纠正"。

### 触发条件

- 同一规则在同一场景下连续 2 次以上被忽略
- 用户指令："规则硬化""硬一点""这个规则总被忽略"

### 硬化层级

#### 层级 1：Should → Must（措辞强化）

```
原文：建议在生成 SKILL.md 时控制文件大小在 30KB 以内

硬化后：强制约束：SKILL.md 文件大小不得超过 30KB。
超限时，必须将详细内容拆分到 references/，SKILL.md 仅保留导航链接。
```

#### 层级 2：Should → PF（可执行程序函数）

在 SKILL.md frontmatter 中追加硬规则元数据：

```yaml
hard_rules:
  - id: rule_001
    should_activate: "SKILL.md 文件大小 > 30KB"
    intervene:
      type: "block_and_restructure"
      action: "禁止继续在 SKILL.md 追加内容，将超出部分写入新 reference 文件"
    severity: "critical"
    last_violated: "2026-06-10"
    violation_count: 3
```

### 执行流程

```
Step 1: 执行日志分析
  - 对比 SKILL.md 关键规则 vs 实际执行行为
  - 识别「规则被忽略」的实例

Step 2: 分级处理
  忽略 1 次 → 暂不处理
  忽略 2 次 → 生成措辞强化建议（层级 1）
  忽略 ≥3 次 → 生成 PF 硬化建议（层级 2）

Step 3: 硬化规则注入
  - 定义 should_activate 条件 + intervene 动作
  - 🔴 CHECKPOINT：待用户确认后执行
```

### 硬化适用性

| 规则类型 | 适合硬化 | 原因 |
|----------|---------|------|
| 输出格式约束 | ✅ | 可精确检测和修正 |
| 文件大小限制 | ✅ | 可精确检测 |
| 必须包含的章节/字段 | ✅ | 结构化检查 |
| 语义风格约束 | ❌ | 难以精确检测 |
| 创造性建议 | ❌ | 无法形式化 |

---

## 七、MUSE-Autoskill 模块：修改后自动回归测试

> 论文：[arXiv:2605.27366](https://arxiv.org/abs/2605.27366)
> 核心理念：双驱动评估（单元测试 + 运行反馈），自动触发修补和重测，首次实证跨智能体技能迁移。

### 触发条件

- 任何对技能文件（SKILL.md 或 references/）的编辑操作完成后
- 自动触发，无需用户指令

### 测试用例生成维度

| 维度 | 生成方法 | 示例 |
|------|----------|------|
| 触发词识别 | 从 SKILL.md 提取所有触发词，逐一构造输入 | 输入"小鲁班" → 预期触发 |
| 输出格式 | 提取格式约束，构造验收条件 | 输出必须包含 YAML frontmatter |
| 关键规则遵守 | 提取"必须"/"禁止"语句，构造边界测试 | 输入超限请求 → 预期拒绝 |
| 流程完整性 | 按技能 Step 列表逐项模拟 | Step 3 依赖 Step 2 的输出 → 断链测试 |
| references 可达性 | 遍历所有文件路径引用 | 逐条检查文件是否存在 |
| 反例测试 | 构造明确不在范围内的输入 | "帮我写操作系统" → 预期不触发 |

### 执行流程

```
Step 1: 修改前快照
  - 保存修改前完整文件 hash
  - 自动生成 5-10 条测试用例（基于 6 维度）

Step 2: 执行修改

Step 3: 回归测试
  - 逐条运行测试用例
  - 逐条检查修改后的技能行为

Step 4: 结果判定
  全部通过 → 「回归测试通过，无退化」
  部分失败 → 列出失败项 + 偏差 + 建议回滚
  全部失败 → 强制建议回滚

Step 5: 测试用例沉淀
  - 通过的用例追加到 tests.yaml
  - 形成持续增长的回归测试集
```

### tests.yaml 格式

```yaml
skill: {skill_name}
generated_at: {date}
tests:
  - id: trigger_001
    dimension: "触发词识别"
    input: "{test_input}"
    expected: "{expected_behavior}"
    status: pass | fail
    last_run: {date}
    
  - id: format_001
    dimension: "输出格式"
    condition: "{constraint}"
    check: "{check_method}"
    status: pass | fail
    last_run: {date}
```

---

## 八、调度器：触发策略

```
事件驱动（立即响应）
  ├── P0: 用户明确反馈技能错误         → EvoSkill
  ├── P0: 技能编辑操作完成              → MUSE 回归测试
  ├── P1: 同一规则连续忽略 3 次         → HASP 层级 2
  └── P2: 同一规则连续忽略 2 次         → HASP 层级 1

按需触发（用户指令）
  ├── "优化skill"/"技能打分"            → Darwin 核心引擎
  ├── "检查技能健康"/"体检"            → SkillOps
  ├── "更新技能知识"/"补最新"          → CASCADE
  ├── "精简技能"/"瘦身"               → Skill Distill
  └── "规则硬化"/"硬一点"             → HASP

定时驱动（周期扫描）
  ├── 每周：SkillOps 健康巡检
  ├── 每月：Skill Distill 精简检查（仅当冗余评分低时）
  └── 每季度：CASCADE 知识更新检查（仅当有外部引用时）
```

### 并发控制与冲突仲裁

| 场景 | 仲裁规则 |
|------|----------|
| 任何模块 vs 用户正在手动编辑 | 用户优先，模块排队 |
| SkillOps 巡检 vs 用户正在编辑 | 巡检只读执行，仅输出报告 |
| Skill Distill vs HASP 同时触发 | HASP 优先（质量保障），精简让步 |
| MUSE 回归测试运行中 | 锁定技能文件，其他模块等待 |
| 同一技能多个任务排队 | FIFO 顺序执行 |

---

## 九、异常与边界条件

| 场景 | 处理动作 |
|------|----------|
| 不在 git 仓库 | 询问用户：`git init` 或回退到文件备份 `.bak.YYYYMMDD-HHMM` |
| results.tsv 缺失 | 新建并写表头 |
| results.tsv 损坏 | 备份为 `.bak` 后重建 |
| 分支已存在 | 分支名加 `-2`/`-3`；第 3 次失败切回现有分支询问 |
| `git revert` 失败 | 先 `git stash` 重试；仍失败从上一个 commit 读 SKILL.md 手动恢复 |
| MAX_ROUNDS 触顶 | 展示最弱维度问用户「加 1 轮 / Phase 2.5 / 收工」 |
| 优化后超 150% 体积 | 拒绝提交，进精简流程 |
| test-prompts.json 已存在 | 默认复用，问用户「复用/重写/追加」 |
| SKILL.md 找不到 | 该 skill 终止，status=error，继续下一个 |
| dry_run 比例 > 30% | 评估失效警告，强制至少 1 个 full_test |
| 多个模块同时触发 | 按优先级排队，EvoSkill > MUSE > HASP > SkillOps > CASCADE > Distill |

**原则**：异常先告知用户，再按规则处理；绝不静默跳过。

---

## 十、反例黑名单（本底座自己优化时不做的事）

| # | 反模式 | 替代做法 |
|---|--------|----------|
| 1 | 同 context 自评自改 | 必须 spawn 独立子 agent 评分 |
| 2 | `git reset --hard` 当回滚 | 用 `git revert HEAD` 保留追溯链 |
| 3 | 为凑分增冗余 | 触顶信号（连续 2 轮 Δ<2）→ break |
| 4 | 跳过 test-prompts 直接评分 | Phase 0.5 强制设计 2-3 prompts |
| 5 | 轮内改多个维度 | 每轮 1 个维度 |
| 6 | dry_run 比例 > 30% | 强制至少 1 个 full_test |
| 7 | 静默跳过异常 | 异常表 fallback 必须先告知 |
| 8 | 忽视维度相关性单独优化 | 看相关簇短板再决定 |

---

## 十一、约束规则

1. **不改变技能核心功能和用途** — 优化"怎么写"，不改"做什么"
2. **不引入新依赖** — 不添加原本没有的 scripts 或 references
3. **每轮只改一个维度** — 避免多变量无法归因
4. **保持文件大小合理** — 优化后 ≤ 原大小 150%
5. **可回滚** — 所有改动在 git 分支上，用 `git revert` 而非 `reset --hard`
6. **评分独立性** — 效果维度必须用子 agent 或干跑验证
7. **Runtime 中立** — 技能必须能在任何 skills-compatible runtime 运行
8. **人在回路** — 所有修改操作必须经用户确认（只读扫描除外）
9. **追加优于覆盖** — CASCADE 知识更新只追加不删除旧内容

---

## 十二、使用方式

| 指令 | 触发模块 |
|------|----------|
| "优化所有 skills" | Darwin 核心引擎（全量） |
| "优化 {skill_name}" | Darwin 核心引擎（单个） |
| "评估所有 skills 质量" | Phase 0.5-1（仅评估不改） |
| "检查技能健康" | SkillOps 巡检 |
| "这个技能有问题 / 不对" | EvoSkill 失败修补 |
| "更新技能知识" | CASCADE 知识更新 |
| "精简技能 / 瘦身" | Skill Distill |
| "规则硬化 / 硬一点" | HASP 规则硬化 |
| "看看优化历史" | 读取 results.tsv |

---

## 十三、资源文件速查

| 路径 | 用途 |
|------|------|
| `results.tsv` | 历次优化日志（9 列含 eval_mode） |
| `{skill目录}/test-prompts.json` | 每个 skill 的测试 prompt |
| `{skill目录}/tests.yaml` | MUSE 回归测试用例（持续沉淀） |

---

## 学术依据

- **EvoSkill** (arXiv [2603.02766](https://arxiv.org/abs/2603.02766))：失败驱动的技能缺口发现与自动修补
- **SkillOps** (arXiv [2605.13716](https://arxiv.org/abs/2605.13716))：技能库运维框架，五维健康诊断
- **CASCADE** (arXiv [2512.23880](https://arxiv.org/abs/2512.23880))：持续学习 + 自我反思驱动的技能进化
- **Skill Distill** (arXiv [2604.01608](https://arxiv.org/abs/2604.01608))：指标自由度 F 驱动的精简决策
- **HASP** (arXiv [2605.17734](https://arxiv.org/abs/2605.17734))：技能升格为可执行程序函数
- **MUSE-Autoskill** (arXiv [2605.27366](https://arxiv.org/abs/2605.27366))：全生命周期管理 + 回归测试
- **SkillLens** (arXiv [2605.23899](https://arxiv.org/abs/2605.23899))：9 维 rubric 实证来源
- **SkillOpt** (arXiv [2605.23904](https://arxiv.org/abs/2605.23904))：validation-gated edits 形式化框架
- **autoresearch**：Karpathy 自主实验循环（v1.0 原始灵感）

---

> "Train your Skills like you train your models."
> — 技能自进化底座，站在 Darwin + 六篇论文的肩膀上。
related skills

semantically similar in the cross-vendor index
clawhub
84% match
SKILL.md 优化工具
按照《Skills MD 标准书写格式》对现有 SKILL.md 进行结构化优化，提升描述质量、章节组织、内容简洁度和格式规范性。当用户需要优化、改进或标准化 SKILL.md 文件时使用。触发词：优化SKILL.md、改进skill、标准化skill格式、skill格式检查、skill优化。
don't have the plugin yet? install it then click "run inline in claude" again.