Name: Article2Book
Availability: InStock
Author: cat-xierluo
基于现有文章、专栏、课程讲稿、逐字稿、访谈、课件、会议纪要、案例材料、PDF 文本、Word 文档和笔记等内容资产，判断它们最适合转化为书、小册子、课程、系列文章、实务手册或知识库，并输出精简策划意见；用户提到“把现有内容整理成书”“判断素材适合做书还是课程”“把文章/直播稿/课程稿/笔记重组成知识产品”等场景时...
SKILL.md

---
name: article2book
homepage: https://github.com/cat-xierluo/legal-skills
author: 杨卫薪律师（微信ywxlaw）
version: "1.0.0"
description: 基于现有文章、专栏、课程讲稿、逐字稿、访谈、课件、会议纪要、案例材料、PDF 文本、Word 文档和笔记等内容资产，判断它们最适合转化为书、小册子、课程、系列文章、实务手册或知识库，并输出精简策划意见；用户提到“把现有内容整理成书”“判断素材适合做书还是课程”“把文章/直播稿/课程稿/笔记重组成知识产品”等场景时，应使用本技能。
license: MIT
---

# 现有内容资产再组织技能

**最后更新**：2026-05-17

## 定位

`article2book` 用于把一个目录下已经存在的内容资产，整理成可出版、可交付或可持续维护的结构化成果。

本技能仍以“成书策划”为默认主路径，但不把所有素材强行导向一本书。它会先判断这批素材最适合成为：

- 书稿
- 小册子
- 课程
- 系列文章
- 实务手册
- 知识库
- 暂不建议产品化的素材池

这里的“现有内容资产”包括但不限于：

- 已发布文章、专栏稿、公众号稿件
- 课程讲稿、分享提纲、直播稿、演讲稿
- 视频教程配套文稿、字幕稿、逐字稿
- 访谈稿、问答记录、会议纪要
- 课件、案例材料、实务清单
- PDF 文本、Word 文档、Obsidian 笔记
- 卡片、方法论草稿、系列随笔

它的出发点不是“从空白开始写一本书”，而是：

- 先盘点已有内容资产
- 再判断最合适的交付形态
- 然后筛掉低价值内容，收束母题、读者和结构
- 最后把已有素材重组为更适合出版或交付的内容产品

本技能的默认方法论是：

- **Agent 通读优先**
- **脚本索引辅助**
- **先判断内容形态，再判断是否成书**
- **先筛掉低价值内容，再做结构设计**
- **默认单文件交付**
- **确认后进入对应产物初稿**

## 典型输入

- 一个目录下混合放置的 Markdown 文章、专栏稿、公众号稿、课程讲稿、字幕稿、逐字稿、Obsidian 笔记
- 一批直播稿、访谈稿、课程稿或会议纪要，用户不确定适合做书、课程还是知识库
- 已写成很多长文，但主题散、重复多、表达角度不统一
- 同一作者围绕某条方法论持续写作和输出，但还没有沉淀成稳定内容产品
- 一个混合目录里同时有文章、课件、案例、手册草稿和零散笔记

**示例**：

- `请读取 <素材目录>，判断这些文章能不能整理成一本书，并给出书稿结构方案。`
- `我有一批直播逐字稿和配套文章，帮我判断适合做书、课程还是小册子。`
- `这个混合目录能不能整理成一个知识产品？如果不适合成书，也请给出替代方案。`
- `你先只输出一份策划意见，我确认后你再直接生成对应初稿。`

## 不适用场景

- 用户只是想汇总文件目录，不关心内容形态、读者定位或重组路径
- 用户已经有成熟目录，只需要续写某一章
- 用户希望完全从零构思一本书，而不是基于已有素材整理
- 文件夹里主要是图片、扫描件、录音、纯视频等材料，且尚未转为可读文本
- 用户要做的是排版、封面、营销文案或发行流程，而不是内容资产重组

## 默认输出目录

默认在**源目录下**创建 `书稿策划输出/` 目录。即使最终建议不是成书，也继续使用该目录，避免为不同形态制造多套路径规则。

## 工作模式

根据用户请求和素材复杂度选择工作模式：

| 模式 | 适用场景 | 默认产物 |
|------|----------|----------|
| 快速盘点 | 用户只想先知道方向，或素材规模很大需要先判断值不值得深入 | 对话内给出简短判断，必要时生成 `书稿策划意见.md` 的简版 |
| 标准策划 | 默认模式；用户要求判断能否成书、适合什么形态、怎么重组 | `书稿策划意见.md` |
| 深度重构 | 用户确认策划意见后，或明确要求直接生成完整初稿 | `全书初稿.md` 或对应形态初稿 |

默认使用**标准策划**。只有在用户确认方向、明确要求生成初稿，或素材复杂到必须拆批处理时，才进入深度重构。

## 交付形态判断树

先判断最佳内容形态，再判断是否进入成书路径：

1. **成书**：素材有稳定母题、明确读者、足够厚度和可持续扩写空间。
2. **小册子**：主题集中但厚度不足，更适合短平快交付。
3. **课程**：素材以讲授顺序、操作演示、练习任务或学习路径为主。
4. **系列文章**：观点有价值但主题尚未形成完整体系。
5. **实务手册**：素材以流程、清单、标准、案例和操作口径为主。
6. **知识库**：素材多主题并存，适合持续维护和检索，而不适合线性阅读。
7. **暂不建议产品化**：素材过散、重复、过时或缺少足够原创判断。

各形态的判断标准见 [references/content-productization-models.md](references/content-productization-models.md)。

## 默认交付

本技能默认采用**两阶段**交付，并尽量减少用户需要阅读的文件数量。

### 第一阶段：先出一份策划意见

默认只输出：

| 文件 | 用途 |
|------|------|
| `书稿策划意见.md` | 唯一默认交付件。集中给出最佳内容形态、是否适合成书、主命题、目标读者、结构草案、删改动作、转化路径和下一步产物 |

只有在以下情况，才额外输出支撑文件：

- 素材规模很大，需要保留通读证据
- 用户明确要求看细表
- 主题分叉明显，需要展示筛选依据
- 输入格式复杂，需要记录预处理状态

可选支撑文件包括：

| 文件 | 用途 |
|------|------|
| `processed/agent_reading_notes.md` | Agent 分批通读后的内部阅读笔记 |
| `processed/article_inventory.csv` | 脚本建立的基础清单索引 |
| `processed/article_inventory.jsonl` | 结构化索引 |
| `附录-排除与降权清单.md` | 仅在需要解释筛选依据时输出 |

### 第二阶段：确认后生成对应形态初稿

如果用户确认第一阶段意见无误，则直接进入内容重构，不再先产出大批中间文件。

默认输出取决于第一阶段判断：

| 推荐形态 | 默认初稿 |
|----------|----------|
| 成书 | `全书初稿.md` |
| 小册子 | `小册子初稿.md` |
| 课程 | `课程大纲与讲稿初稿.md` |
| 系列文章 | `系列文章规划与首批初稿.md` |
| 实务手册 | `实务手册初稿.md` |
| 知识库 | `知识库结构与核心条目.md` |

仅当内容过长、需要分章并行起草或用户明确要求拆分时，才输出：

| 文件 | 用途 |
|------|------|
| `chapters/01-*.md ...` | 分章或分单元初稿 |
| `全书结构说明.md` / `内容结构说明.md` | 记录章节边界、统一术语和合并规则 |

完整模板见 [references/output-template.md](references/output-template.md)。

## 工作流程

### Step 1：确认源目录、文件类型、工作模式与输出位置

- 确认用户给的是单一主题目录，还是多个主题混放目录
- 默认优先处理已文本化的素材，如 `.md`、`.markdown`、`.mdx`、`.txt`、`.srt`、`.vtt`
- 对 `.docx`、`.pdf`，先作为“需预处理素材”纳入清单；能直接提取文本时再进入通读
- 对课程视频、录音、播客等非文本素材，先转写为逐字稿再纳入判断
- 对图片、附件、配图目录先排除，避免把配图误识别成正文内容
- 明确采用快速盘点、标准策划还是深度重构
- 明确输出落在源目录 `书稿策划输出/`

不同来源的处理方式见 [references/source-type-handling.md](references/source-type-handling.md)。

### Step 2：先让 Agent 通读全部候选文本素材

这是本技能的主流程，不可跳过。

- 对能直接读取的文本素材，Agent 应尽量全部通读，而不是只看标题、预览或脚本统计结果
- 如果目录较大，可按批次通读，例如每批 10-20 份素材；每读完一批，立刻记录笔记
- 每份素材至少记录：
  - 一句话摘要
  - 它主要在回答什么问题
  - 它更适合作为主章节、案例、附录、课程单元、手册条目还是应移出
  - 是否存在强时效性、重复表达、深度不足、口语化过强或格式预处理问题

通读记录建议沉淀到：

- `processed/agent_reading_notes.md`

但该文件默认视为内部工作底稿，不应自动作为用户第一阅读入口。

更细的通读方式见 [references/agent-reading-protocol.md](references/agent-reading-protocol.md)。

### Step 3：通读后先做“保留 / 降权 / 排除”筛选

在开始主题聚类之前，先把低价值内容筛掉，不要把所有素材都硬塞进最终产物。

优先排除或降权以下内容：

- **老而浅**：时间较早，且只停留在信息罗列、工具介绍、表层观点，没有形成今天仍有价值的判断框架
- **过时失效**：高度依赖某次产品更新、某个版本功能、某个热点事件，且难以改写为常青表达
- **重复但更弱**：与另一份素材表达的是同一判断，但论证、案例、结构和表达都明显更弱
- **只有热闹没有母题**：看起来吸睛，但与主线关联很弱
- **内容密度过低**：篇幅不短，但信息增量很少，难以支撑章节、单元或条目

筛选时要注意：

- **老内容不等于低质量**
- **短内容不等于低质量**
- **排除要说明理由**

筛选标准见 [references/content-screening-rubric.md](references/content-screening-rubric.md)。

### Step 4：在筛选基础上建立素材清单，脚本只做辅助

如需补路径、查漏或生成基础索引，可运行：

```bash
python3 scripts/build_article_inventory.py "<源目录>" --output-dir "<输出目录>/processed"
```

但要注意：

- 该脚本只用于补路径、查漏、做基础索引和标记需预处理素材
- 不得仅凭脚本输出就直接做主题判断
- `.docx`、`.pdf` 在脚本中只标记为需预处理，不直接解析正文
- 如果 Agent 通读记录与脚本字段冲突，以通读理解为准，再人工校正

### Step 5：抽取主题和内容形态，而不是只看标题

读取清单后，至少要覆盖：

- 高密度代表素材
- 看似相近但论点不同的素材
- 可能属于边缘主题的素材
- 标题像工具测评、但正文承载方法论的素材
- 口语化很强、但内里已经有章节、课程单元或手册条目雏形的逐字稿
- 看似零散但可沉淀为知识库条目的笔记或会议纪要

不要只根据标题聚类。正文中反复出现的“问题意识、判断口径、方法论词汇、操作步骤、案例结构、叙事张力”，通常比标题更能决定最终形态。

### Step 6：识别“母题”与“最合适的内容产品”

先把素材按主题簇归类，再判断它们能否收束成稳定内容产品。

重点识别：

- 作者反复回答的是哪一个核心问题
- 作者与同类写作相比真正有区分度的视角是什么
- 素材更适合线性阅读、系统学习、快速查阅，还是持续维护
- 这些内容更像“同一本书的不同章节”，还是“多个内容产品的种子”

如果目录里同时存在两条以上都足够强的主线，不要硬拼成一本书。应明确提出：

- 方案 A：聚焦为一本书
- 方案 B：拆成两本书 / 一本书 + 一套课程 / 手册 + 知识库
- 方案 C：暂不成书，先做系列文章或素材库收束

### Step 7：评估成书可行性，并给出替代形态建议

按 [references/book-viability-rubric.md](references/book-viability-rubric.md) 逐项判断：

- 主题集中度
- 核心命题清晰度
- 目标读者清晰度
- 内容厚度与互补性
- 观点区分度
- 时效风险
- 可持续扩写空间

输出时必须同时明确：

1. **最佳内容形态**：成书 / 小册子 / 课程 / 系列文章 / 实务手册 / 知识库 / 暂不建议产品化
2. **成书结论**：可以直接进入书稿策划 / 可以成书但需收束重写 / 暂不建议成书
3. **替代路径**：如果不成书，最适合转向什么产物，以及为什么

### Step 8：收束成一份 `书稿策划意见.md`

默认不要把分析过程拆成很多用户可见文件。

应把以下内容集中写进一份 `书稿策划意见.md`：

- 最佳内容形态
- 是否值得成书
- 不建议走的形态
- 推荐主命题
- 目标读者与差异化
- 推荐结构草案
- 哪些内容保留、哪些压缩、哪些删除
- 保留 / 合并 / 排除的核心原则
- 转化路径与下一步产物
- 如果用户确认推进，第二阶段将如何直接生成对应初稿

只有当用户明确要求，或素材规模特别大、争议特别多时，才把筛选清单、总表和阅读笔记额外显性输出。

### Step 9：如用户确认，直接进入第二阶段生成初稿

如果用户对 `书稿策划意见.md` 表示认可，则直接推进，不必再停留在更多策划文件上。

默认做法：

- 先按意见中的推荐结构建立章节、单元或条目骨架
- 以现有素材为底稿做合并、删改、重写与补写
- 默认输出与推荐形态对应的单文件初稿

当素材很多时，可以：

- 用 subagents 按批次通读素材
- 用 subagents 分章、分单元或分条目起草初稿
- 但主 Agent 必须负责：
  - 统一主命题与读者对象
  - 统一术语和表达口径
  - 去除重复论证
  - 做最后的结构收束与总稿合并

### Step 10：只有在必要时才回退到细分文件

以下情况才建议回退到多文件包：

- 用户明确要求逐份核对素材去向
- 需要向第三方展示筛选依据
- 主题分叉严重，需要比较多个内容形态方案
- 第二阶段已经启动，需要保留更细的编辑台账

无论输出是一份还是多份，内部都仍应完成以下判断：

- `直接保留`
- `局部吸收`
- `合并重写`
- `拆分改写`
- `仅作案例/附录/练习/条目`
- `移出本产物`

## 判断原则

1. **内容形态优先于成书冲动**：不是所有素材都该写成书，先判断最适合用户目标和素材状态的形态。
2. **母题优先于素材数量**：素材多不代表能成书，关键看是否围绕同一问题持续推进。
3. **区分度优先于覆盖面**：一本书或课程最重要的是独特的判断框架，不是把所有话题都讲一遍。
4. **读者问题优先于作者时间线**：结构应按读者理解顺序组织，而不是按素材产生顺序排列。
5. **常青内容优先于时评热度**：遇到强时效内容，要评估其能否改写成长期有效的案例或论证。
6. **证据可回溯**：主题判断、结构映射和删改建议都应尽量回指原文件路径。
7. **允许得出“不适合成一本书”**：如果内容天然分叉，不要强行整合。
8. **全文阅读优先于脚本结论**：最终判断必须建立在 Agent 已覆盖全部可读候选文本素材的前提上。
9. **先减法，再结构化**：通读后先剔除低价值内容，再做结构设计，避免成品被低质量旧内容拖垮。
10. **默认减少用户阅读负担**：能用一份主意见讲清楚的，不拆成 6-8 份用户文件。

## 输出质量要求

- 结论必须明确，不要只做模糊描述
- 必须同时说明“最佳内容形态”和“是否适合成书”
- 每个重大判断尽量附对应素材或主题簇依据
- 区分“内容已有”与“必须补写”
- 区分“适合出版成书”与“更适合课程、专栏、手册、知识库”
- 对缺失信息标注 `未提及 / 待补充 / 需作者确认`

## 协作工具

| 工具 | 用途 |
|------|------|
| Agent / 文件读取能力 | 主流程：分批通读全部可读素材，并形成阅读笔记 |
| Subagent / 并行 Agent | 素材量大时并行通读、分章/分单元起草，但最终判断与总稿统一必须回到主 Agent |
| `python3` | 可选辅助：运行 `scripts/build_article_inventory.py` 建立索引、补路径、查漏、标记需预处理素材 |
| Markdown 输出能力 | 第一阶段生成单文件 `书稿策划意见.md`，第二阶段生成对应形态初稿 |

## 参考文件

| 文件 | 说明 |
|------|------|
| `references/agent-reading-protocol.md` | Agent 通读素材、分批记笔记和形成初步判断的建议流程 |
| `references/content-screening-rubric.md` | 通读后判断“保留 / 降权 / 排除”的筛选标准 |
| `references/content-productization-models.md` | 书、小册子、课程、专栏、手册、知识库等内容形态的判断标准 |
| `references/source-type-handling.md` | 不同来源素材的处理方式和预处理规则 |
| `references/output-template.md` | 默认输出模板 |
| `references/book-viability-rubric.md` | 成书可行性评估维度与替代形态建议 |
| `scripts/build_article_inventory.py` | 素材目录扫描与索引脚本（可选辅助） |

## 依赖

### 系统依赖

| 依赖 | 安装方式 |
|------|----------|
| `python3` | macOS: 系统自带或 `brew install python`<br>Linux: `sudo apt-get install python3` |

### Python 包

| 包名 | 用途 | 安装命令 |
|------|------|----------|
| 无额外第三方依赖 | 脚本仅使用 Python 标准库；脚本为可选辅助 | 无需安装 |

## 注意事项

1. 如果目录中混有大量图片、配图目录或自动生成素材，先排除再分析。
2. 如果文章横跨两个强主题，例如“法律 AI 方法论”和“通用 AI 哲学随笔”，应优先考虑拆书或拆成书 + 课程 / 知识库。
3. 如果文章标题很像资讯或测评，但正文承载了稳定的方法论，应按方法论价值而不是标题风格判断去向。
4. 如果用户已经有明确出版方向，本技能应服务于收束和整合；如果用户还没有方向，本技能应先做形态判断而不是急于起目录。
5. 默认不要向用户交付太多中间文件。能用一份 `书稿策划意见.md` 讲清楚的，就不要拆成 6-8 份结果。
6. 第二阶段默认直接生成对应形态初稿，不再让用户先阅读大量过渡性文件。
Article2Book

SKILL.md

related skills