基于现有文章、专栏、课程讲稿、逐字稿、访谈、课件、会议纪要、案例材料、PDF 文本、Word 文档和笔记等内容资产,判断它们最适合转化为书、小册子、课程、系列文章、实务手册或知识库,并输出精简策划意见;用户提到“把现有内容整理成书”“判断素材适合做书还是课程”“把文章/直播稿/课程稿/笔记重组成知识产品”等场景时...
--- name: article2book homepage: https://github.com/cat-xierluo/legal-skills author: 杨卫薪律师(微信ywxlaw) version: "1.0.0" description: 基于现有文章、专栏、课程讲稿、逐字稿、访谈、课件、会议纪要、案例材料、PDF 文本、Word 文档和笔记等内容资产,判断它们最适合转化为书、小册子、课程、系列文章、实务手册或知识库,并输出精简策划意见;用户提到“把现有内容整理成书”“判断素材适合做书还是课程”“把文章/直播稿/课程稿/笔记重组成知识产品”等场景时,应使用本技能。 license: MIT --- # 现有内容资产再组织技能 **最后更新**:2026-05-17 ## 定位 `article2book` 用于把一个目录下已经存在的内容资产,整理成可出版、可交付或可持续维护的结构化成果。 本技能仍以“成书策划”为默认主路径,但不把所有素材强行导向一本书。它会先判断这批素材最适合成为: - 书稿 - 小册子 - 课程 - 系列文章 - 实务手册 - 知识库 - 暂不建议产品化的素材池 这里的“现有内容资产”包括但不限于: - 已发布文章、专栏稿、公众号稿件 - 课程讲稿、分享提纲、直播稿、演讲稿 - 视频教程配套文稿、字幕稿、逐字稿 - 访谈稿、问答记录、会议纪要 - 课件、案例材料、实务清单 - PDF 文本、Word 文档、Obsidian 笔记 - 卡片、方法论草稿、系列随笔 它的出发点不是“从空白开始写一本书”,而是: - 先盘点已有内容资产 - 再判断最合适的交付形态 - 然后筛掉低价值内容,收束母题、读者和结构 - 最后把已有素材重组为更适合出版或交付的内容产品 本技能的默认方法论是: - **Agent 通读优先** - **脚本索引辅助** - **先判断内容形态,再判断是否成书** - **先筛掉低价值内容,再做结构设计** - **默认单文件交付** - **确认后进入对应产物初稿** ## 典型输入 - 一个目录下混合放置的 Markdown 文章、专栏稿、公众号稿、课程讲稿、字幕稿、逐字稿、Obsidian 笔记 - 一批直播稿、访谈稿、课程稿或会议纪要,用户不确定适合做书、课程还是知识库 - 已写成很多长文,但主题散、重复多、表达角度不统一 - 同一作者围绕某条方法论持续写作和输出,但还没有沉淀成稳定内容产品 - 一个混合目录里同时有文章、课件、案例、手册草稿和零散笔记 **示例**: - `请读取 <素材目录>,判断这些文章能不能整理成一本书,并给出书稿结构方案。` - `我有一批直播逐字稿和配套文章,帮我判断适合做书、课程还是小册子。` - `这个混合目录能不能整理成一个知识产品?如果不适合成书,也请给出替代方案。` - `你先只输出一份策划意见,我确认后你再直接生成对应初稿。` ## 不适用场景 - 用户只是想汇总文件目录,不关心内容形态、读者定位或重组路径 - 用户已经有成熟目录,只需要续写某一章 - 用户希望完全从零构思一本书,而不是基于已有素材整理 - 文件夹里主要是图片、扫描件、录音、纯视频等材料,且尚未转为可读文本 - 用户要做的是排版、封面、营销文案或发行流程,而不是内容资产重组 ## 默认输出目录 默认在**源目录下**创建 `书稿策划输出/` 目录。即使最终建议不是成书,也继续使用该目录,避免为不同形态制造多套路径规则。 ## 工作模式 根据用户请求和素材复杂度选择工作模式: | 模式 | 适用场景 | 默认产物 | |------|----------|----------| | 快速盘点 | 用户只想先知道方向,或素材规模很大需要先判断值不值得深入 | 对话内给出简短判断,必要时生成 `书稿策划意见.md` 的简版 | | 标准策划 | 默认模式;用户要求判断能否成书、适合什么形态、怎么重组 | `书稿策划意见.md` | | 深度重构 | 用户确认策划意见后,或明确要求直接生成完整初稿 | `全书初稿.md` 或对应形态初稿 | 默认使用**标准策划**。只有在用户确认方向、明确要求生成初稿,或素材复杂到必须拆批处理时,才进入深度重构。 ## 交付形态判断树 先判断最佳内容形态,再判断是否进入成书路径: 1. **成书**:素材有稳定母题、明确读者、足够厚度和可持续扩写空间。 2. **小册子**:主题集中但厚度不足,更适合短平快交付。 3. **课程**:素材以讲授顺序、操作演示、练习任务或学习路径为主。 4. **系列文章**:观点有价值但主题尚未形成完整体系。 5. **实务手册**:素材以流程、清单、标准、案例和操作口径为主。 6. **知识库**:素材多主题并存,适合持续维护和检索,而不适合线性阅读。 7. **暂不建议产品化**:素材过散、重复、过时或缺少足够原创判断。 各形态的判断标准见 [references/content-productization-models.md](references/content-productization-models.md)。 ## 默认交付 本技能默认采用**两阶段**交付,并尽量减少用户需要阅读的文件数量。 ### 第一阶段:先出一份策划意见 默认只输出: | 文件 | 用途 | |------|------| | `书稿策划意见.md` | 唯一默认交付件。集中给出最佳内容形态、是否适合成书、主命题、目标读者、结构草案、删改动作、转化路径和下一步产物 | 只有在以下情况,才额外输出支撑文件: - 素材规模很大,需要保留通读证据 - 用户明确要求看细表 - 主题分叉明显,需要展示筛选依据 - 输入格式复杂,需要记录预处理状态 可选支撑文件包括: | 文件 | 用途 | |------|------| | `processed/agent_reading_notes.md` | Agent 分批通读后的内部阅读笔记 | | `processed/article_inventory.csv` | 脚本建立的基础清单索引 | | `processed/article_inventory.jsonl` | 结构化索引 | | `附录-排除与降权清单.md` | 仅在需要解释筛选依据时输出 | ### 第二阶段:确认后生成对应形态初稿 如果用户确认第一阶段意见无误,则直接进入内容重构,不再先产出大批中间文件。 默认输出取决于第一阶段判断: | 推荐形态 | 默认初稿 | |----------|----------| | 成书 | `全书初稿.md` | | 小册子 | `小册子初稿.md` | | 课程 | `课程大纲与讲稿初稿.md` | | 系列文章 | `系列文章规划与首批初稿.md` | | 实务手册 | `实务手册初稿.md` | | 知识库 | `知识库结构与核心条目.md` | 仅当内容过长、需要分章并行起草或用户明确要求拆分时,才输出: | 文件 | 用途 | |------|------| | `chapters/01-*.md ...` | 分章或分单元初稿 | | `全书结构说明.md` / `内容结构说明.md` | 记录章节边界、统一术语和合并规则 | 完整模板见 [references/output-template.md](references/output-template.md)。 ## 工作流程 ### Step 1:确认源目录、文件类型、工作模式与输出位置 - 确认用户给的是单一主题目录,还是多个主题混放目录 - 默认优先处理已文本化的素材,如 `.md`、`.markdown`、`.mdx`、`.txt`、`.srt`、`.vtt` - 对 `.docx`、`.pdf`,先作为“需预处理素材”纳入清单;能直接提取文本时再进入通读 - 对课程视频、录音、播客等非文本素材,先转写为逐字稿再纳入判断 - 对图片、附件、配图目录先排除,避免把配图误识别成正文内容 - 明确采用快速盘点、标准策划还是深度重构 - 明确输出落在源目录 `书稿策划输出/` 不同来源的处理方式见 [references/source-type-handling.md](references/source-type-handling.md)。 ### Step 2:先让 Agent 通读全部候选文本素材 这是本技能的主流程,不可跳过。 - 对能直接读取的文本素材,Agent 应尽量全部通读,而不是只看标题、预览或脚本统计结果 - 如果目录较大,可按批次通读,例如每批 10-20 份素材;每读完一批,立刻记录笔记 - 每份素材至少记录: - 一句话摘要 - 它主要在回答什么问题 - 它更适合作为主章节、案例、附录、课程单元、手册条目还是应移出 - 是否存在强时效性、重复表达、深度不足、口语化过强或格式预处理问题 通读记录建议沉淀到: - `processed/agent_reading_notes.md` 但该文件默认视为内部工作底稿,不应自动作为用户第一阅读入口。 更细的通读方式见 [references/agent-reading-protocol.md](references/agent-reading-protocol.md)。 ### Step 3:通读后先做“保留 / 降权 / 排除”筛选 在开始主题聚类之前,先把低价值内容筛掉,不要把所有素材都硬塞进最终产物。 优先排除或降权以下内容: - **老而浅**:时间较早,且只停留在信息罗列、工具介绍、表层观点,没有形成今天仍有价值的判断框架 - **过时失效**:高度依赖某次产品更新、某个版本功能、某个热点事件,且难以改写为常青表达 - **重复但更弱**:与另一份素材表达的是同一判断,但论证、案例、结构和表达都明显更弱 - **只有热闹没有母题**:看起来吸睛,但与主线关联很弱 - **内容密度过低**:篇幅不短,但信息增量很少,难以支撑章节、单元或条目 筛选时要注意: - **老内容不等于低质量** - **短内容不等于低质量** - **排除要说明理由** 筛选标准见 [references/content-screening-rubric.md](references/content-screening-rubric.md)。 ### Step 4:在筛选基础上建立素材清单,脚本只做辅助 如需补路径、查漏或生成基础索引,可运行: ```bash python3 scripts/build_article_inventory.py "<源目录>" --output-dir "<输出目录>/processed" ``` 但要注意: - 该脚本只用于补路径、查漏、做基础索引和标记需预处理素材 - 不得仅凭脚本输出就直接做主题判断 - `.docx`、`.pdf` 在脚本中只标记为需预处理,不直接解析正文 - 如果 Agent 通读记录与脚本字段冲突,以通读理解为准,再人工校正 ### Step 5:抽取主题和内容形态,而不是只看标题 读取清单后,至少要覆盖: - 高密度代表素材 - 看似相近但论点不同的素材 - 可能属于边缘主题的素材 - 标题像工具测评、但正文承载方法论的素材 - 口语化很强、但内里已经有章节、课程单元或手册条目雏形的逐字稿 - 看似零散但可沉淀为知识库条目的笔记或会议纪要 不要只根据标题聚类。正文中反复出现的“问题意识、判断口径、方法论词汇、操作步骤、案例结构、叙事张力”,通常比标题更能决定最终形态。 ### Step 6:识别“母题”与“最合适的内容产品” 先把素材按主题簇归类,再判断它们能否收束成稳定内容产品。 重点识别: - 作者反复回答的是哪一个核心问题 - 作者与同类写作相比真正有区分度的视角是什么 - 素材更适合线性阅读、系统学习、快速查阅,还是持续维护 - 这些内容更像“同一本书的不同章节”,还是“多个内容产品的种子” 如果目录里同时存在两条以上都足够强的主线,不要硬拼成一本书。应明确提出: - 方案 A:聚焦为一本书 - 方案 B:拆成两本书 / 一本书 + 一套课程 / 手册 + 知识库 - 方案 C:暂不成书,先做系列文章或素材库收束 ### Step 7:评估成书可行性,并给出替代形态建议 按 [references/book-viability-rubric.md](references/book-viability-rubric.md) 逐项判断: - 主题集中度 - 核心命题清晰度 - 目标读者清晰度 - 内容厚度与互补性 - 观点区分度 - 时效风险 - 可持续扩写空间 输出时必须同时明确: 1. **最佳内容形态**:成书 / 小册子 / 课程 / 系列文章 / 实务手册 / 知识库 / 暂不建议产品化 2. **成书结论**:可以直接进入书稿策划 / 可以成书但需收束重写 / 暂不建议成书 3. **替代路径**:如果不成书,最适合转向什么产物,以及为什么 ### Step 8:收束成一份 `书稿策划意见.md` 默认不要把分析过程拆成很多用户可见文件。 应把以下内容集中写进一份 `书稿策划意见.md`: - 最佳内容形态 - 是否值得成书 - 不建议走的形态 - 推荐主命题 - 目标读者与差异化 - 推荐结构草案 - 哪些内容保留、哪些压缩、哪些删除 - 保留 / 合并 / 排除的核心原则 - 转化路径与下一步产物 - 如果用户确认推进,第二阶段将如何直接生成对应初稿 只有当用户明确要求,或素材规模特别大、争议特别多时,才把筛选清单、总表和阅读笔记额外显性输出。 ### Step 9:如用户确认,直接进入第二阶段生成初稿 如果用户对 `书稿策划意见.md` 表示认可,则直接推进,不必再停留在更多策划文件上。 默认做法: - 先按意见中的推荐结构建立章节、单元或条目骨架 - 以现有素材为底稿做合并、删改、重写与补写 - 默认输出与推荐形态对应的单文件初稿 当素材很多时,可以: - 用 subagents 按批次通读素材 - 用 subagents 分章、分单元或分条目起草初稿 - 但主 Agent 必须负责: - 统一主命题与读者对象 - 统一术语和表达口径 - 去除重复论证 - 做最后的结构收束与总稿合并 ### Step 10:只有在必要时才回退到细分文件 以下情况才建议回退到多文件包: - 用户明确要求逐份核对素材去向 - 需要向第三方展示筛选依据 - 主题分叉严重,需要比较多个内容形态方案 - 第二阶段已经启动,需要保留更细的编辑台账 无论输出是一份还是多份,内部都仍应完成以下判断: - `直接保留` - `局部吸收` - `合并重写` - `拆分改写` - `仅作案例/附录/练习/条目` - `移出本产物` ## 判断原则 1. **内容形态优先于成书冲动**:不是所有素材都该写成书,先判断最适合用户目标和素材状态的形态。 2. **母题优先于素材数量**:素材多不代表能成书,关键看是否围绕同一问题持续推进。 3. **区分度优先于覆盖面**:一本书或课程最重要的是独特的判断框架,不是把所有话题都讲一遍。 4. **读者问题优先于作者时间线**:结构应按读者理解顺序组织,而不是按素材产生顺序排列。 5. **常青内容优先于时评热度**:遇到强时效内容,要评估其能否改写成长期有效的案例或论证。 6. **证据可回溯**:主题判断、结构映射和删改建议都应尽量回指原文件路径。 7. **允许得出“不适合成一本书”**:如果内容天然分叉,不要强行整合。 8. **全文阅读优先于脚本结论**:最终判断必须建立在 Agent 已覆盖全部可读候选文本素材的前提上。 9. **先减法,再结构化**:通读后先剔除低价值内容,再做结构设计,避免成品被低质量旧内容拖垮。 10. **默认减少用户阅读负担**:能用一份主意见讲清楚的,不拆成 6-8 份用户文件。 ## 输出质量要求 - 结论必须明确,不要只做模糊描述 - 必须同时说明“最佳内容形态”和“是否适合成书” - 每个重大判断尽量附对应素材或主题簇依据 - 区分“内容已有”与“必须补写” - 区分“适合出版成书”与“更适合课程、专栏、手册、知识库” - 对缺失信息标注 `未提及 / 待补充 / 需作者确认` ## 协作工具 | 工具 | 用途 | |------|------| | Agent / 文件读取能力 | 主流程:分批通读全部可读素材,并形成阅读笔记 | | Subagent / 并行 Agent | 素材量大时并行通读、分章/分单元起草,但最终判断与总稿统一必须回到主 Agent | | `python3` | 可选辅助:运行 `scripts/build_article_inventory.py` 建立索引、补路径、查漏、标记需预处理素材 | | Markdown 输出能力 | 第一阶段生成单文件 `书稿策划意见.md`,第二阶段生成对应形态初稿 | ## 参考文件 | 文件 | 说明 | |------|------| | `references/agent-reading-protocol.md` | Agent 通读素材、分批记笔记和形成初步判断的建议流程 | | `references/content-screening-rubric.md` | 通读后判断“保留 / 降权 / 排除”的筛选标准 | | `references/content-productization-models.md` | 书、小册子、课程、专栏、手册、知识库等内容形态的判断标准 | | `references/source-type-handling.md` | 不同来源素材的处理方式和预处理规则 | | `references/output-template.md` | 默认输出模板 | | `references/book-viability-rubric.md` | 成书可行性评估维度与替代形态建议 | | `scripts/build_article_inventory.py` | 素材目录扫描与索引脚本(可选辅助) | ## 依赖 ### 系统依赖 | 依赖 | 安装方式 | |------|----------| | `python3` | macOS: 系统自带或 `brew install python`<br>Linux: `sudo apt-get install python3` | ### Python 包 | 包名 | 用途 | 安装命令 | |------|------|----------| | 无额外第三方依赖 | 脚本仅使用 Python 标准库;脚本为可选辅助 | 无需安装 | ## 注意事项 1. 如果目录中混有大量图片、配图目录或自动生成素材,先排除再分析。 2. 如果文章横跨两个强主题,例如“法律 AI 方法论”和“通用 AI 哲学随笔”,应优先考虑拆书或拆成书 + 课程 / 知识库。 3. 如果文章标题很像资讯或测评,但正文承载了稳定的方法论,应按方法论价值而不是标题风格判断去向。 4. 如果用户已经有明确出版方向,本技能应服务于收束和整合;如果用户还没有方向,本技能应先做形态判断而不是急于起目录。 5. 默认不要向用户交付太多中间文件。能用一份 `书稿策划意见.md` 讲清楚的,就不要拆成 6-8 份结果。 6. 第二阶段默认直接生成对应形态初稿,不再让用户先阅读大量过渡性文件。
don't have the plugin yet? install it then click "run inline in claude" again.