clawhubby @mwangxiang
AI Auto Dev

AI全自动化编程,Claude Code作为项目经理指挥Builder自动完成编程任务(需求对齐→指令生成→自动执行→验收→文档归档暂存)
view source
installs
stars
karma
SkillRank score ↗
3.8/ 10
evaluated by implexa, claude-haiku-4-5 · 2026-06-11
ai-auto-dev describes a claude code + builder agent pattern for automated software project completion, with recent additions for resumable execution and dependency graph analysis, but the core workflow from requirements through delivery remains vaguely specified for reproduction.
structure
4.0
trigger phrases
2.0
procedure
4.0
edge cases
3.0
documentation
4.0
SKILL.md

---
name: ai-auto-dev
description: "AI全自动化编程,Claude Code作为项目经理指挥Builder自动完成编程任务(需求对齐→指令生成→自动执行→验收→文档归档暂存)"
---

# AI 全自动化编程 (ai-auto-dev) v2.2

Claude Code 作为项目经理，Builder 作为执行者的全自动化编程流程。

> **v2.2 更新**（2026-02-22）：新增中断恢复机制（FlowPilot 启发）、依赖图自动分析（替代手动 [P] 标记）

---

## 前置条件

选择一个 Builder（AI 编程执行工具），推荐以下任一：

| Builder | 安装 | 执行命令 |
|---------|------|---------|
| Codex CLI | `npm i -g @openai/codex` | `codex exec --skip-git-repo-check "$(cat spec.md)"` |
| Claude Code | 已内置 | 直接在对话中执行 |
| Aider | `pip install aider-chat` | `aider --message "$(cat spec.md)"` |

**关键要求**：Builder 必须有完整文件系统访问权限，能执行 npx/node/tsc 等命令。

以 Codex 为例，`~/.codex/config.toml` 需配置：
```toml
ask_for_approval = "never"
sandbox_mode = "danger-full-access"
```

> ⚠️ **重要**：必须使用完整访问权限模式，受限模式会阻止 npx/node/tsc 等命令，导致三重纠错无法执行，Token 浪费 60%。

---

## 工作流程

### 第零步：会话暖场（每次必做）

**目的**：建立 Claude Code 会话信任，避免后续 Bash 后台任务需要确认

**操作**：
```bash
echo "Warmup at $(date '+%Y-%m-%d %H:%M:%S')" && sleep 2 && echo "Ready"
```

**要求**：
- 每次调用 `/ai-auto-dev` 都必须先执行暖场
- 使用 `run_in_background: true` 参数
- 等待完成通知（约 2-3 秒）
- 完成后进入第一步

**原理**：
- Claude Code 的会话信任机制存储在内存中
- 重启电脑后会清除，需要重新建立
- 首次后台任务需要确认，后续任务无需确认
- 暖场任务快速完成（<5 秒），建立信任后一整天无需确认

---

### 第一步：需求对齐

1. 用户提出需求
2. Claude Code 与用户反复讨论，直到完全理解
3. Claude Code **复述需求**给用户确认，必须包含：
   - **要做什么**：功能描述
   - **技术栈和约束**：语言、框架、依赖
   - **目录结构**：文件放在哪里
   - **交付物清单**：具体的文件名列表
   - **测试要求**：需要什么样的测试
4. 用户确认后才进入下一步
5. **禁止跳过此步**：需求不清就开始执行 = 浪费 Token

---

### 第二步：生成 Spec MD

**使用新模板**（v2.0 核心改进）：

1. 复制 `specs/SPEC-TEMPLATE.md` 为 `specs/TASK-{id}-{name}.md`
2. 参考 `specs/SPEC-TEMPLATE-GUIDE.md` 填写
3. Spec 必须包含以下 5 个核心改进：

#### 改进 1：NEEDS CLARIFICATION 机制
- 最多 3 个问题（优先级：范围 > 安全/隐私 > 用户体验 > 技术细节）
- 其他不确定的地方用假设替代，记录在 `## Assumptions` 章节
- 格式：`[假设: 具体内容]`
- **价值**：减少执行时的犹豫，消除"猜测-验证"循环

#### 改进 2：User Stories 结构
```markdown
### US1: 功能名称 (Priority: P1)
作为[角色]，我需要[功能]，以便[价值]。

**Acceptance Scenarios:**
- **Given** [前置条件]，**When** [操作]，**Then** [预期结果]

**Test Criteria:**
- [ ] {具体可测试的标准}
```

#### 改进 3：[P][US] 标记
- `[P]` = 可与其他 [P] 步骤并行执行
- `[US1][US2]` = 关联到对应用户故事
- 格式：`### Step 1: 创建模块 [P] [US1]`

#### 改进 4：Self-Check Requirements（三重纠错）
Spec 中必须包含此章节，Builder 执行后强制运行：

```markdown
## Self-Check Requirements (MANDATORY)

### Check 1: Static Analysis
```bash
npx tsc --noEmit --strict --skipLibCheck
```

### Check 2: Test Execution
```bash
npm test  # 或 jest / vitest --run
```

### Check 3: Build Verification
```bash
npm run build
```

### Check 4: Generate self-check-report.md
创建 {output-dir}/self-check-report.md，包含：
- Static Analysis: PASS/FAIL + 错误数
- Tests: PASS/FAIL + 通过/失败数
- Build: PASS/FAIL
- Files Created: 列表
- Issues Found: 列表
- Overall: PASS/FAIL

### Check 5: Reflection（如果失败）
如果任何检查失败：
1. 分析失败原因
2. 生成修复建议
3. 报告给 PM
```

#### 改进 5：Verification Checklist
```markdown
## Verification Checklist

### Code Quality
- [ ] TypeScript 编译无错误
- [ ] 所有测试通过
- [ ] 无 console.log 残留

### Functional Requirements (US1)
- [ ] {US1 的具体需求}

### Functional Requirements (US2)
- [ ] {US2 的具体需求}

### Edge Cases
- [ ] 空输入处理
- [ ] 边界值处理

### Security & Performance
- [ ] 无安全漏洞
- [ ] 无性能瓶颈
```

**任务拆解原则**：
- 每个任务 3-5 个相关函数
- 单个文件不超过 200 行
- 任务间无依赖
- 使用英文编写 Spec（Builder 对英文理解更精确）

**展示 Spec 给用户确认后进入第三步。**

---

### 第三步：执行

#### 3a. 中断恢复检测（v2.2 新增，每次进入第三步前必做）

**目的**：如果上次会话中途中断（compact、崩溃、关窗口），自动从断点续接。

**状态文件**：`{项目目录}/.codex-progress.json`

```json
{
  "session_id": "2026-02-22-001",
  "tasks": [
    {"id": "001", "spec": "specs/TASK-001.md", "status": "done", "token": 125000},
    {"id": "002", "spec": "specs/TASK-002.md", "status": "active", "token": 0},
    {"id": "003", "spec": "specs/TASK-003.md", "status": "pending", "token": 0}
  ],
  "updated_at": "2026-02-22 10:30:00"
}
```

**检测逻辑**（PM 在第三步开始前执行）：

```bash
# 检查是否有未完成的进度文件
if [ -f ".codex-progress.json" ]; then
  echo "检测到中断的任务进度："
  cat .codex-progress.json
fi
```

**恢复规则**：
1. 状态为 `done` 的任务：跳过，不重复执行
2. 状态为 `active` 的任务：重置为 `pending`，重新执行（active 表示执行中被中断，结果不可信）
3. 状态为 `pending` 的任务：正常执行
4. 状态为 `failed` 的任务：分析原因后决定重试或跳过

**更新时机**：
- 每个任务**启动前**：设为 `active`，写入文件
- 每个任务**完成后**：设为 `done`，记录 token，写入文件
- 每个任务**失败后**：设为 `failed`，记录错误，写入文件
- 全部完成后：删除进度文件

**PM 更新进度的命令**：
```bash
# 用 Python 更新进度文件（比 jq 可靠）
python3 -c "
import json
with open('.codex-progress.json', 'r') as f: data = json.load(f)
for t in data['tasks']:
    if t['id'] == '${TASK_ID}': t['status'] = '${NEW_STATUS}'
data['updated_at'] = '$(date '+%Y-%m-%d %H:%M:%S')'
with open('.codex-progress.json', 'w') as f: json.dump(data, f, indent=2)
"
```

#### 3b. 依赖图自动分析（v2.2 新增，替代手动 [P] 标记）

**目的**：PM 不再手动标记 `[P]`，而是自动分析任务间依赖关系，生成并行分组。

**分析规则**（PM 在生成所有 Spec 后执行）：

1. **提取每个任务的文件目标**：从 Spec 中提取 `Files to Create/Modify` 列表
2. **构建依赖图**：如果任务 B 要修改的文件是任务 A 要创建的文件，则 B 依赖 A
3. **拓扑排序**：按依赖关系分层，同层任务可并行
4. **输出分组**：

```
依赖分析结果：
  Layer 1 (并行): TASK-001, TASK-003, TASK-005  ← 无依赖，同时启动
  Layer 2 (并行): TASK-002, TASK-004            ← 依赖 Layer 1 的输出
  Layer 3 (串行): TASK-006                      ← 集成任务，依赖全部
```

**PM 执行依赖分析的命令**：
```bash
# 从所有 Spec 中提取文件目标，分析依赖
for spec in specs/TASK-*.md; do
  TASK_ID=$(basename "$spec" .md | sed 's/TASK-//')
  # 提取 Files to Create/Modify 章节中的文件路径
  FILES=$(grep -A 20 "Files to Create\|Files to Modify" "$spec" | grep '^\s*-\s*`' | sed 's/.*`\(.*\)`.*/\1/')
  echo "TASK-$TASK_ID: $FILES"
done
```

**与分层引爆模型的关系**：
- 旧方式：PM 手动标记 `[P]` → 分组 → 分层引爆
- 新方式：PM 自动分析依赖 → 自动分层 → 分层引爆
- 分层引爆模型（A→B→C）不变，只是分组不再需要人工判断

---

#### 3c. 执行任务

1. 创建工作目录（如有必要）
2. 将 Spec MD 传递给 Builder：
```bash
builder exec --skip-git-repo-check "$(cat specs/TASK-{id}-{name}.md)" > logs/task-{id}.log 2>&1 &
```
3. 根据任务数量选择执行模式
4. **启动主动监控**：自动检测任务完成，无需等待明确信号
5. 任务完成后自动进入第四步验收

**分层引爆模型（A→B→C）**：

```
A1（主引线）：暖场 + 任务分组
  ↓ 串联触发（快速，<5秒）
B1 ── B2 ── B3（二级引线，各组并行启动）
↓      ↓      ↓
C1    C2    C3（组内任务，并行执行）
```

- **A1**：第零步暖场完成后，将所有任务按依赖关系分组
- **B层**：每组作为独立批次，各组同时启动（`execute_batch` 并行调用）
- **C层**：每组内任务全部并行执行（`builder exec ... &`）

**分组原则**：
- 同组任务：操作不同文件、无依赖 → 可完全并行（C层）
- 跨组依赖：B1 组完成后才启动 B2 组 → 串联
- 组内上限：每组最多 15 个任务

**并发规则（15 并发标准）**：
- **标准配置**：每批 15 个任务并行执行
- **核心原则**：一次串流不超过 15 个
- **执行模式**：真·并行（所有任务同时启动）
- **性能保证**：~30 秒/15 任务，100% 成功率，无 API 限流

**并行执行前提条件**：
1. 会话信任已建立（第零步暖场完成）
2. 任务间无依赖（每个任务可独立完成）
3. 资源不冲突（不同任务操作不同文件）
4. 并发数量控制（最多 15 个任务同时执行）

**执行脚本模板**：
```bash
# 15并发真·并行模式
BATCH_SIZE=15
TOTAL_TASKS=<任务总数>
BATCH_COUNT=$(( (TOTAL_TASKS + BATCH_SIZE - 1) / BATCH_SIZE ))

mkdir -p logs

execute_batch() {
    local BATCH_ID=$1
    local START_TASK=$2
    local END_TASK=$3

    echo "[批次${BATCH_ID}] 启动任务 ${START_TASK}-${END_TASK}"

    for i in $(seq $START_TASK $END_TASK); do
        TASK_NUM=$(printf '%03d' $i)
        builder exec --skip-git-repo-check "$(cat specs/TASK-${TASK_NUM}.md)" \
            > "logs/task-${TASK_NUM}.log" 2>&1 &
    done

    wait
    echo "[批次${BATCH_ID}] 完成"
}

TASK_ID=1
for batch in $(seq 1 $BATCH_COUNT); do
    START_TASK=$TASK_ID
    END_TASK=$((TASK_ID + BATCH_SIZE - 1))
    if [ $END_TASK -gt $TOTAL_TASKS ]; then
        END_TASK=$TOTAL_TASKS
    fi
    execute_batch $batch $START_TASK $END_TASK &
    TASK_ID=$((END_TASK + 1))
done

wait
```

**扩展策略**：
- 任务数 ≤ 15：单批次执行（最快）
- 任务数 16-50：分批执行，每批 15 个（推荐）
- 任务数 > 50：分批执行，每批 15 个（稳定）

**主动监控机制**：

```bash
monitor_codex_execution() {
    local LOG_FILE=$1
    local TARGET_FILE=$2
    local STABLE_COUNT=0
    local LAST_SIZE=0

    while true; do
        if [ -f "$LOG_FILE" ]; then
            CURRENT_SIZE=$(stat -f%z "$LOG_FILE" 2>/dev/null || stat -c%s "$LOG_FILE" 2>/dev/null)

            if [ "$CURRENT_SIZE" -eq "$LAST_SIZE" ]; then
                STABLE_COUNT=$((STABLE_COUNT + 1))
                if [ $STABLE_COUNT -ge 4 ]; then
                    echo "✅ 日志稳定，任务可能已完成"
                    if [ -f "$TARGET_FILE" ]; then
                        FILE_TIME=$(stat -f%m "$TARGET_FILE" 2>/dev/null || stat -c%Y "$TARGET_FILE" 2>/dev/null)
                        CURRENT_TIME=$(date +%s)
                        TIME_DIFF=$((CURRENT_TIME - FILE_TIME))
                        if [ $TIME_DIFF -lt 300 ]; then
                            echo "✅ 目标文件已更新，触发验证"
                            return 0
                        fi
                    fi
                fi
            else
                STABLE_COUNT=0
                LAST_SIZE=$CURRENT_SIZE
            fi
        fi
        sleep 30
    done
}
```

**监控策略**：
- 检查频率：每 2 分钟（经验证为最优频率）
- 监控成本：约占总 Token 的 0.9%（极低，不是优化重点）
- 监控目的：发现"卡死"或"完全无法执行"，不是催促进度

---

### 第四步：自动验收（三重纠错）

Builder 完成后，Claude Code **自动**执行以下检查（无需用户确认）：

#### 第一层：读取 Builder 的 Self-Check Report

```bash
cat {output-dir}/self-check-report.md
```

报告包含：
- Static Analysis: PASS/FAIL + 错误数
- Test Results: PASS/FAIL + 通过/失败数
- Build Results: PASS/FAIL
- Files Created/Modified: 列表
- Issues Found: 列表
- Overall Assessment: PASS/FAIL

#### 第二层：PM 验证（如果 Self-Check 通过）

1. **文件完整性**（必须实际验证，不能只看日志）
   - 检查所有预期文件是否生成：`ls -lh [目标路径]`
   - 检查空文件：`find [目标路径] -name "*.ts" -size 0`
   - 统计代码行数：`wc -l [目标路径]/*.ts`
   - ⚠️ **必须用 ls 实际确认文件存在，不能只看 Builder 输出**

2. **代码质量**（抽查）
   - 读取 1-2 个关键文件，检查：类型注解、文档字符串、错误处理

3. **Verification Checklist 验证**
   - 根据 Spec 中的 Verification Checklist，逐项验证
   - 重点检查 Functional Requirements 和 Edge Cases

#### 第三层：反思机制（如果 Self-Check 失败）

1. **分析失败原因**
   - 读取 self-check-report.md 中的 Issues Found
   - 分类：语法错误、类型错误、测试失败、构建失败、权限问题

2. **生成修复建议**
   - Spec 不清晰 → 修改 Spec，重新执行
   - Builder 理解错误 → 调整 Spec 描述，重新执行
   - 环境问题（权限/依赖）→ 修复环境，重新执行

3. **决策**
   - 自动修复（简单问题）
   - 报告给 Boss（需要需求澄清）
   - 重新执行（Spec 已修改）

#### PM-Builder 信任原则

**继续信任 Builder 的标志**：
- Builder 还在尝试不同方案（输出中可以看到不同的思考和尝试）
- Token 使用量稳定增长（说明 Builder 在工作，不是卡死）
- 错误类型在变化（说明 Builder 在调整策略）
- 执行时间在合理范围内（简单任务 <5 分钟，复杂任务 <30 分钟）

**需要介入的标志**：
- Builder 陷入循环报错（相同错误重复出现 3 次以上）
- Builder 完全卡死（超过 5 分钟无任何输出）
- Token 使用量异常增长（单任务超过 500 万 tokens）
- 执行时间明显异常（简单任务超过 30 分钟）

**介入方式**：
1. 先检查 Builder 的最新输出，确认是否真的需要介入
2. 如果确认需要介入，停止任务并分析原因
3. 修改 Spec 或指令，重新执行
4. 记录踩坑经验，更新记忆库

#### 难度分级标准（A1）

| 级别 | 预期时间 | 预期 Token | 介入次数 | 典型场景 |
|------|---------|-----------|---------|---------|
| 简单 | ≤5 分钟 | ≤500K | 0 | 单文件修改、配置调整、小功能 |
| 复杂 | ≤30 分钟 | ≤5M | 0-1 | 多文件功能、重构、新模块 |

**超阈值判定**：实际值 > 2× 预期值 → 标记异常，写入实验日志，分析原因。

#### 死循环 vs 正常思考（A2）

| 状态 | 判断依据 |
|------|---------|
| 正常思考 | 输出内容在变化 OR 错误类型在变化 OR Token 稳定增长 |
| 死循环 | 相同错误 ≥3 次 AND Token 持续增长但无新进展 |
| 完全卡死 | 超过 5 分钟无任何输出 |

**数学条件**：`相同错误出现次数 ≥ 3` → 立即介入，不等待。

#### 生成最终验收报告（内联显示，不要只给文件链接）

```
## 验收报告

### 执行统计
**时间消耗：**
- 实际执行时间：X 分钟
- 总墙上时钟时间：Y 分钟
- 串行预估时间：Z 小时（如适用）
- 效率提升：N%（如适用）

**Token 消耗：**
- Spec 生成（PM）：XXK tokens
- Builder 执行（Builder）：XXM tokens
- PM 验证：XXK tokens
- **总计：X.XM tokens**

**成本效益：**
- 人工开发预估：X-Y 天
- 自动化完成：Z 分钟

### Builder Self-Check 结果
- Static Analysis: ✅ PASS / ❌ FAIL (X errors)
- Test Results: ✅ PASS / ❌ FAIL (X/Y passed)
- Build Results: ✅ PASS / ❌ FAIL
- Overall: ✅ PASS / ❌ FAIL

### PM 验证结果
- 文件完整性: ✅ / ❌
- 代码质量: ✅ / ❌
- Verification Checklist: X/Y 项通过

### 文件清单
| 文件 | 大小 | 行数 | 状态 |
|------|------|------|------|

### 判定：✅ 通过 / ❌ 不通过
- 不通过原因（如有）
- 修复建议（如有）
```

---

### 第五步：文档归档暂存

1. 在工作目录下创建 `_archive_staging.md` 暂存文件
2. **不写入**正式文档（思维蒸馏、学习研究日志、记忆库等）
3. 暂存文件包含本次工作中所有值得记录的内容

**暂存文件格式**：
```markdown
# 文档归档暂存

> 创建日期：YYYY-MM-DD
> 项目：[项目名称]
> 任务：[任务描述]
> 状态：待用户审阅

---

## 蒸馏内容
[本次工作中值得提炼的方法论、认知、经验]

---

## 日志内容
[本次工作的完整记录，按学习研究日志的会话格式编写]

---

## 踩坑记录
[遇到的问题和解决方案]

---

## 记忆库更新建议
[如有新的操作习惯或规则需要记录]
```

---

### 第五步半：文档更新和 GitHub 同步（自动执行）

**在第六步交付前，自动完成以下工作**：

1. **更新项目文档**
   - 更新 README.md（功能介绍、版本号）
   - 更新 CHANGELOG.md（新增版本记录）
   - 更新 API 配置指南或其他相关文档

2. **调用 dev-log skill**
   - 传入版本号参数（如 `v0.9.4`）
   - dev-log 自动完成：分析代码修改、生成 commit message、提交代码、打版本标签、推送到 GitHub

3. **验证同步结果**
   - 确认 commit 成功
   - 确认标签已创建
   - 确认推送到远程仓库

**注意**：此步骤在第五步之后、第六步之前自动执行，无需用户确认。如果 GitHub 同步失败，记录错误但继续交付流程。

---

### 第六步：向用户交付

同时交付三样东西（**全部内联显示在对话中，不要只给文件链接**）：

1. **验收报告**（第四步生成的）
   - 通过/不通过判定
   - 文件清单和测试结果
   - 问题清单（如有）

2. **归档暂存文件**（第五步生成的）
   - 展示内容供用户审阅
   - 说明每部分建议写入哪个正式文档

3. **GitHub 同步结果**（第五步半完成的）
   - Commit ID 和链接
   - 版本标签
   - GitHub Release 链接

4. 用户审阅后决定：
   - 确认收纳 → 调用 `/distill` 或手动写入正式文档
   - 需要修改 → 修改后再收纳
   - 不收纳 → 暂存文件保留在工作目录备查

---

## Token 消耗统计方法

### 从 Builder 日志提取 Token 数据

```bash
# 提取单个任务的 Token 消耗
extract_tokens() {
    local LOG_FILE=$1
    grep "Usage:" "$LOG_FILE" | tail -1 | \
        sed -E 's/.*input=([0-9]+) output=([0-9]+) total=([0-9]+).*/\1 \2 \3/'
}

# 统计所有任务的 Token 消耗
total_input=0; total_output=0; total_tokens=0

for log in logs/task-*.log; do
    read input output total <<< $(extract_tokens "$log")
    total_input=$((total_input + input))
    total_output=$((total_output + output))
    total_tokens=$((total_tokens + total))
done

echo "Total Input: ${total_input}"
echo "Total Output: ${total_output}"
echo "Total Tokens: ${total_tokens}"
```

### Token 消耗异常分析

| 现象 | 原因 | 修复 |
|------|------|------|
| 单任务 >500K tokens | 权限不足，陷入探测循环 | 改为 danger-full-access |
| 单任务 >500K tokens | Spec 不清晰，反复猜测 | 补充 Assumptions，明确需求 |
| PM Token 过高 | 读取了不必要的文件 | 遵守"PM 不读代码"原则 |
| 总 Token 超预期 | 重复执行失败任务 | 先修复 Spec 再重新执行 |

---

## 核心规则

1. **每次必须暖场**：第零步不可跳过，每次调用都要执行暖场
2. **需求不清不动手**：第一步必须完成，复述确认后才进入第二步
3. **必须使用新 Spec 模板**：第二步必须使用 `specs/SPEC-TEMPLATE.md`，包含 5 个核心改进
4. **Spec 必须自包含**：Builder 无需额外信息即可完成全部工作
5. **三重纠错强制执行**：Builder 必须运行 Self-Check Requirements，生成 self-check-report.md
6. **全程自动化**：从第一步确认到第六步交付，PM 自动完成所有步骤，不在中途停下等待用户
7. **正式文档只读**：整个流程中不直接写入蒸馏、日志、记忆库
8. **归档只能暂存**：❗❗❗ 只能创建 `_archive_staging.md` 暂存文件，绝对不能直接写入正式文档
9. **验收必须实际验证**：必须用 `ls` 实际确认文件存在，不能只看 Builder 输出就报告成功
10. **验收不通过时**：分析原因，修改 Spec 重新执行，不要手动修补代码
11. **报告内联显示**：验收报告必须内联显示在对话中，不要只给文件链接
12. **文档和 GitHub 同步自动化**：第五步半自动更新文档并同步到 GitHub，无需用户确认
13. **PM 只读输出文件**：验收时 PM 只读 `self-check-report.md`、`ls` 输出、日志文件。不读源码（.ts/.js/.py）。"不读代码"= 不读源码，不等于不读报告。

---

## 常见错误和修复方案

### 错误 1：sandbox 权限不足
**现象**：Builder 无法运行 npx/node/tsc，Token 消耗异常高（60% 浪费在权限探测）
**原因**：config.toml 中 `sandbox_mode = "workspace-write"`
**修复**：改为 `sandbox_mode = "danger-full-access"`
**验证**：`builder exec "echo hello"` 输出显示 `sandbox: danger-full-access`

### 错误 2：PM 未按完整流程执行
**现象**：PM 在中途停下等待用户指示，导致大量时间浪费
**原因**：误解了"全自动化"含义，认为需要在每个阶段询问用户确认
**修复**：执行完所有 6 步才交付，只有遇到无法解决的错误时才停下来
**数据**：错误做法导致 455 分钟空闲 vs 85 分钟工作，浪费比例 84%

### 错误 3：PM 混淆任务输出文件
**现象**：PM 报告任务成功，但文件根本不存在
**原因**：读取了错误的输出文件，没有实际验证文件是否存在
**修复**：必须用 `ls` 实际确认文件存在，必须运行编译检查才能声称编译通过

### 错误 4：报告只给文件链接
**现象**：用户反馈"不好找"，阅读体验差
**原因**：PM 过度关注 Token 成本优化
**修复**：默认内联显示所有报告
**决策标准**：成本差异 <1 元/100 轮 → 优先用户体验，内联显示

### 错误 5：过早介入 Builder
**现象**：PM 在 Builder 还在工作时停止任务，导致成本翻倍
**原因**：PM 用自己的时间预估判断 Builder 是否卡死
**修复**：按照"PM-Builder 信任原则"判断，只有满足"需要介入的标志"才介入

---

## 与其他 Skill 的配合

- **distill**：用户确认暂存内容后，可调用 `/distill` 写入正式蒸馏文档
- **sop-generator**：如果本次任务是新流程，可调用 `/sop-generator` 生成 SOP
- **dev-log**：如果涉及版本管理，可调用 `/dev-log` 记录版本

---

## Memory/RAG 实际落地（C2）

> **现实约束**：当前没有 Gemini/向量数据库，Memory 角色由 PM 用文件检索替代。

### 当前可用的"Memory"操作

| 需求 | 实际操作 | 命令 |
|------|---------|------|
| 查找相关文件 | Glob 模式匹配 | `Glob("src/**/*.ts")` |
| 搜索历史决策 | Grep 关键词 | `Grep("pattern", path)` |
| 读取基线数据 | Read 文件 | `Read("windtunnel/baselines/...")` |
| 查找踩坑记录 | Read 暂存文件 | `Read("_archive_staging.md")` |

### PM 查询 Memory 的正确姿势

```
❌ 错误：直接读 src/ 下的源码文件来"理解"项目
✅ 正确：读 self-check-report.md、CLAUDE.md、_archive_staging.md 获取上下文
✅ 正确：用 Glob/Grep 定位文件路径，把路径写进 Spec，让 Builder 去读
```

### Spec 中的 Memory 引用格式

```markdown
## 上下文（PM 查询 Memory 后填入）
- 相关文件：`src/taskManager.ts`（通过 Glob 定位）
- 历史决策：使用 danger-full-access（见 _archive_staging.md 权限进化历程）
- 已知问题：activationEvents 缺失（见 CLAUDE.md Section 6）
```

---

## 参考文档

- **Spec 模板**：`specs/SPEC-TEMPLATE.md`
- **填写指南**：`specs/SPEC-TEMPLATE-GUIDE.md`
- **Constitution**：`CLAUDE.md`（Section 3: Spec MD Format）
- **验证报告**：`automated-comparison-test/FINAL-COMPARISON-REPORT.md`（61.4% 效率提升数据）
- 记忆库中的「Builder CLI 使用规则」：config.toml 配置、指令-权限匹配原则
- SOP 暂存中的「权限进化历程」：7 阶段实验数据和踩坑经验
- 思维蒸馏中的「Claude Code + Builder 协作模式」：权限-效率-成本三角

---

## 记忆保护协议（v2.1 新增）

> **核心原则：重要信息必须立即落盘，不能只存在上下文中。**
> 上下文压缩会导致风洞数据失真——压缩后的"记忆"不等于真实发生的事情。

### 规则 1：会话开始时恢复上下文

每次新会话开始，PM 必须读取以下文件（按顺序）：

```
1. ~/.claude/windtunnel/baselines/ai-auto-dev-baseline.md  ← 基线数据
2. ~/.claude/windtunnel/experiments/{今日日期}-summary.md   ← 今日实验记录（如存在）
3. {项目目录}/CLAUDE.md                                    ← 项目约束
```

**目的**：从文件恢复上下文，而不是依赖对话历史（对话历史可能已被压缩）。

---

### 规则 2：实验数据立即落盘

以下数据必须在产生时**立即写入文件**，不能只存在对话中：

| 数据类型 | 写入位置 | 触发时机 |
|---------|---------|---------|
| 任务开始记录 | `windtunnel/experiments/{日期}-log.md` | 第三步执行前 |
| 验收结果 | `windtunnel/experiments/{日期}-log.md` | 第四步完成后 |
| 基线对比 | `windtunnel/baselines/ai-auto-dev-baseline.md` | 每次任务完成后 |
| 踩坑记录 | `_archive_staging.md` | 发现问题时立即记录 |

**实验日志格式**（追加写入，不覆盖）：

```markdown
## {时间戳} | 任务：{任务名} | 难度：简单/复杂

**输入**：{需求一句话描述}
**执行时间**：X 分钟
**Token 消耗**：X.XM
**介入次数**：X
**结果**：✅ PASS / ❌ FAIL
**偏差**：与基线相比 +/-X%（如有）
**备注**：{关键发现，一句话}
```

写入命令（PM 在第四步后执行）：
```bash
cat >> ~/.claude/windtunnel/experiments/$(date '+%Y-%m-%d')-log.md << 'EOF'
{上述格式内容}
EOF
```

---

### 规则 3：上下文压缩防护

**禁止**：将以下内容只放在对话中：
- 实验数据和测量结果
- 与基线的对比结论
- 决策记录（为什么选 A 不选 B）
- 踩坑经验

**要求**：每次任务完成后，PM 必须确认以上内容已写入文件，才能进入第六步交付。

---

### 规则 4：基线自动对比

每次任务完成后，PM 自动计算与基线的偏差并写入日志：

```
偏差计算：
- 时间偏差 = (实际时间 - 基线时间) / 基线时间 × 100%
- Token 偏差 = (实际Token - 基线Token) / 基线Token × 100%
- 偏差 > +50%：标记为异常，分析原因
- 偏差 < -20%：标记为改进，记录原因
```

---

## 版本历史

| 版本 | 日期 | 变更 |
|------|------|------|
| v1.0 | 2026-02-15 | 初始版本，建立基础流程 |
| v2.0 | 2026-02-19 | 新增 Spec-Kit 改进（5 个核心机制）、三重纠错、PM-Builder 信任原则、Token 统计、常见错误修复方案 |
| v2.1 | 2026-02-21 | 新增记忆保护协议：立即落盘原则、实验日志格式、上下文压缩防护、基线自动对比 |
| v2.2 | 2026-02-22 | 新增中断恢复机制（`.codex-progress.json` 状态文件，active→pending 重置）、依赖图自动分析（替代手动 [P] 标记，自动拓扑排序分层） |
related skills

semantically similar in the cross-vendor index
clawhub
80% match
Lobster Dev Planner
🚀 超级开发规划师 —— 对话式需求收集 + Agent 团队并行开发 + MCP 工具全程调用。触发时机：用户说"帮我开发"、"我想做一个项目/网站/APP/系统/工具/脚本/Bot"、"plan模式"、 "对话式开发"、"生成开发文档"、"我有个想法想实现"，或任何描述了软件/工具/系统需求的请求。即使...
don't have the plugin yet? install it then click "run inline in claude" again.