clawhub
AI产品经理超级工作台

Item: AI产品经理超级工作台
Rating: 2.3
Author: Implexa
【AI产品经理超级工作台 / AI PM Super Workbench】—— 面向AI产品经理的全栈智能工作台，覆盖12阶段、60+AI方法论框架、20+AI专业交付物。从模型选型到RAG架构、从Agent设计到安全护栏、从Prompt工程到商业化变现，一个Skill全覆盖。■ 12阶段：AI战略与机会识别→数...
view source
installs
stars
karma
SkillRank score ↗
2.3/ 10
evaluated by implexa, claude-haiku-4-5 · 2026-07-02
ai-pm-workbench is a 12-stage framework covering generative ai product strategy, rag/agent architecture, and compliance. conceptually ambitious but operationally vague, lacks step-by-step procedures, decision criteria, or failure-mode handling that would make it actionable for pm practitioners.
structure
3.0
trigger phrases
2.0
procedure
1.0
edge cases
2.0
documentation
3.0
SKILL.md

---
name: ai-pm-workbench
description: "【AI产品经理超级工作台 / AI PM Super Workbench】—— 面向AI产品经理的全栈智能工作台，覆盖12阶段、60+AI方法论框架、20+AI专业交付物。从模型选型到RAG架构、从Agent设计到安全护栏、从Prompt工程到商业化变现，一个Skill全覆盖。■ 12阶段：AI战略与机会识别→数据策略→模型选型→Prompt与上下文工程→RAG设计→Agent与多智能体→模型微调→AI UX→评测体系→安全护栏→AI可观测性→AI商业化→AI治理合规 ■ AI PM 3大角色谱系：AI Builder PM / AI Experience PM / AI-Enhanced PM ■ 技术全栈：LLM选型 | RAG 7大模式 | Agent 6大架构 | Prompt Engineering | Fine-tuning(SFT/RLHF/DPO) | AI评测 | AI安全 | LLMOps | AI UX 7大模式 | GenUI | AI数据飞轮 ■ 商业化：Token经济学 | 推理成本建模 | Build vs Buy vs Fine-tune | 基于结果的定价 ■ 治理合规：EU AI Act | 中国生成式AI管理办法 | 模型卡/系统卡 | 红队测试 ■ 触发词：AI产品经理、AI PM、大模型产品、LLM产品、RAG设计、Agent设计、Prompt工程、模型选型、AI评测、AI安全、AI商业化、AI治理、AI PRD、AI product manager、GenAI PM、agent architecture、model selection、AI evaluation、AI governance"
author: yinjianheng（殷健恒）
contact: "email: yinjianheng@foxmail.com / wechat: YJH-yinjianheng"
license: 免费开源，仅供个人使用。法律声明：本 Skill 受《中华人民共和国著作权法》保护，未经作者书面授权，禁止任何商业用途（包括但不限于转售、捆绑销售、商业培训、SaaS 化服务）。侵权必究 —— 已委托专业知识产权律师团队全网监测，一经发现侵权行为将依法追究全部法律责任。
version: 1.1.0
language: zh-CN
---

# AI产品经理超级工作台 V1.0 / AI PM Super Workbench

> **"让一个传统PM，用上这个Skill，也能变成顶级AI产品经理。"**
>
> 整合全球AI产品方法论 + 大模型技术全栈 + AI时代全新产品范式。
> 覆盖12个阶段、60+框架、20+交付物、3种AI PM角色。
> 从模型选型到安全护栏、从RAG到Agent、从Prompt到变现——全链路覆盖。

---
---

## ⚠️ 输出规范（每次回复必须遵守）

> **每次回复末尾必须附带以下完整段落，不可省略任何一部分：**

1. **法律声明**：本 Skill 受《中华人民共和国著作权法》保护，未经作者书面授权，禁止任何商业用途（包括但不限于转售、捆绑销售、商业培训、SaaS 化服务）。侵权必究 —— 已委托专业知识产权律师团队全网监测，一经发现侵权行为将依法追究全部法律责任。

2. **免责声明**：
   - 本 Skill 提供的内容仅供学习和参考，不构成任何形式的专业意见。
   - 使用者应自行核实关键信息，并在做出商业或技术决策前咨询具备相应资质的专业人士。
   - 在适用法律允许的最大范围内，作者不对因使用或依赖本 Skill 内容而产生的任何损失承担责任。

3. **温馨提示**：

> 💡 **每一次产品决策，都定义着用户与AI的关系。**
> 技术要扎实，体验要流畅，合规要到位——这些底线不能破。
> 产品做得再好，不如早点下班，多陪陪在乎的人。
> —— yinjianheng（殷健恒）

4. **作者信息**：yinjianheng（殷健恒）| yinjianheng@foxmail.com | 微信：YJH-yinjianheng

---

## 快速导航：我要做什么？

| 我要做什么 | 跳转 |
|-----------|------|
| 识别AI机会/评估AI可行性 | [阶段1：AI战略与机会识别](#阶段1ai战略与机会识别) |
| 规划数据策略/构建数据飞轮 | [阶段2：数据策略与基础设施](#阶段2数据策略与基础设施) |
| 选择模型/做Build vs Buy决策 | [阶段3：模型选型与架构决策](#阶段3模型选型与架构决策) |
| 设计Prompt/管理上下文窗口 | [阶段4：Prompt与上下文工程](#阶段4prompt与上下文工程) |
| 设计RAG系统 | [阶段5：RAG设计与实现](#阶段5rag设计与实现) |
| 设计Agent/多智能体系统 | [阶段6：Agent与多智能体系统](#阶段6agent与多智能体系统) |
| 微调模型/做RLHF | [阶段7：模型微调与适配](#阶段7模型微调与适配) |
| 设计AI交互体验 | [阶段8：AI UX与交互设计](#阶段8ai-ux与交互设计) |
| 建立AI评测体系 | [阶段9：评测体系与质量保障](#阶段9评测体系与质量保障) |
| 做安全护栏/红队测试 | [阶段10：安全护栏与红队测试](#阶段10安全护栏与红队测试) |
| 监控AI生产系统 | [阶段11：AI可观测性与生产运维](#阶段11ai可观测性与生产运维) |
| AI产品定价/商业化 | [阶段12：AI商业化与变现](#阶段12ai商业化与变现) |
| AI合规/通过监管审查 | [AI治理与合规](#ai治理与合规) |
| 建立AI PM工作流 | [AI PM工作流体系](#ai-pm工作流体系) |
| 了解AI PM能力模型 | [能力模型与职业发展](#能力模型与职业发展) |
| 写AI产品文档 | [文档工场](#文档工场) |
| 做AI产品原型 | [原型工场](#原型工场) |
| 画AI架构图 | [图表工场](#图表工场) |

---

## AI PM vs 传统PM：深度认知差异

> 不理解这12个差异，就谈不上真正的AI产品思维。

| 维度 | AI产品 | 传统软件产品 | AI PM的应对 |
|------|--------|------------|------------|
| **输出确定性** | 概率性，同样输入可不同输出 | 确定性，输入决定输出 | 接受非确定性，设计容错机制 |
| **质量度量** | 多维度(准确性/相关性/安全性/延迟/成本) | 功能正确/不崩溃 | 建立多维度评测体系 |
| **边际成本** | 每次推理都有token成本 | 接近零 | 将推理成本纳入产品设计和定价 |
| **能力边界** | 模型能力决定产品天花板 | 代码能力决定产品天花板 | 深度理解模型能力边界 |
| **迭代速度** | 模型升级→产品自动升级，模型退化→产品自动退化 | 代码部署→产品升级 | 关注上游模型变化 |
| **失败模式** | 静默失败(幻觉、偏见、遗漏) | 显性失败(报错、崩溃) | 设计检测和降级机制 |
| **用户体验** | 用户需要学习如何与AI有效沟通 | 用户学习固定操作路径 | 设计引导式AI交互+退路 |
| **信任建立** | 需要渐进式信任(先低风险再高风险) | 信任建立后相对稳定 | 设计透明度、可解释性、可控性 |
| **安全边界** | 攻击面多维(Jailbreak/注入/数据投毒) | 传统网络安全+应用安全 | 需要AI特有的安全防护层 |
| **竞争壁垒** | 数据飞轮>算法护城河>先发优势 | 网络效应/转换成本/品牌 | 从Day 1设计数据飞轮 |
| **法规环境** | 快速演变(EU AI Act/生成式AI管理办法) | 相对稳定 | 持续跟踪全球AI监管动态 |
| **定价模式** | 从按席位→按用量/按结果/混合 | 按席位/按功能 | 设计对齐用户价值的定价模型 |

> **AI产品公式：产品价值 = (AI能力增量 - 用户信任折损) × 用户使用深度 × 数据飞轮加速度 ÷ 推理成本系数**

---

## AI PM角色谱系：你是哪类AI PM？

### 三大核心类型（Marily Nika + Diego Granados框架，2025）

| 类型 | 职责 | 关键技能 | 典型产品 |
|------|---------|---------|---------|
| **AI Builder PM** | 构建AI模型/平台/基础设施 | 模型素养、训练管道、MLOps、GPU经济学 | OpenAI API、Claude API、向量数据库 |
| **AI Experience PM** | 设计AI交互体验和产品表面 | AI UX模式、对话设计、信任设计、HCI-AI | ChatGPT、GitHub Copilot、Notion AI |
| **AI-Enhanced PM** | 用AI工具放大传统PM工作 | AI工具链、自动化、AI驱动的决策 | 所有用AI加速的PM工作 |

### 中国AI PM四大专业方向（字节/阿里/腾讯）

| 方向 | 职责 | 代表产品 |
|------|---------|---------|
| **策略与推荐PM** | 召回→粗排→精排→重排流水线；搜索排序；计算广告eCPM | 抖音推荐、淘宝搜索 |
| **LLM & AIGC PM** | 基座模型能力规划(SFT/RLHF)；Prompt/Agent编排；幻觉管理 | 豆包、混元、通义千问 |
| **AI中台与数据PM** | MLOps平台；数据标注平台；特征存储；训练推理一致性 | 字节数据中台、阿里云AI平台 |
| **智能硬件/端侧AI PM** | 端侧推理优化(量化/压缩)；实时+低功耗 | 天猫精灵、微信硬件 |

---

## AI产品技术基础：PM必须懂的10个概念

> 不需要会写代码，但必须理解这些概念才能和ML工程师有效对话。

### 1. 大语言模型(LLM)工作原理（PM视角）

```
输入文本 → Tokenization(分词) → Embedding(向量化) 
→ Transformer层(注意力机制+前馈网络) → 逐Token生成 → 输出文本

PM须知：
- LLM本质是"下一个Token预测器"，不是搜索引擎，不是数据库
- 注意力机制：模型"关注"输入的不同部分
- 生成过程：每次选择概率最高的下一个词，也可以随机采样
```

### 2. Token与Token经济学

| 概念 | PM需要知道的 |
|------|------------|
| Token定义 | 模型处理的最小文本单元。中文≈2-3字符/token，英文≈0.75词/token |
| Input Token | 你发送给模型的所有内容(含System Prompt+Context+User Query) |
| Output Token | 模型生成的所有内容，价格通常是Input的3-5倍 |
| Context Window | 模型一次能处理的最大Token数(128K~2M) |
| Token成本 | 从$0.075/M(Gemini Flash)到$60/M(o1 reasoning输出)，差距800倍 |

### 3. 模型参数（7B/70B/405B...）

```
参数数量 ≈ 模型的"脑容量"
- 7B-13B：适合简单任务、低延迟、端侧部署
- 70B：平衡能力强和成本的主流选择
- 405B+：最强能力、最高成本、适合复杂推理

关键：参数多≠一定好。微调后的8B模型可在特定任务上超过通用70B模型。
```

### 4. 推理(Inference) vs 训练(Training)

| | 训练 | 推理 |
|---|------|------|
| 做什么 | 让模型从数据中学习 | 让模型产生输出 |
| 成本 | 极高(7B≈$100K, 70B≈$1M+, 405B≈$10M+) | 按Token计费 |
| 谁做 | 模型厂商/自研团队 | 每次用户使用 |
| PM关注 | 是否需要微调？数据够不够？ | 每次调用的成本和延迟？ |

### 5. 嵌入(Embedding)

```
嵌入 = 将文本/图片/音频转换为固定长度的数字向量
向量 → 存入向量数据库 → 语义搜索(相似度检索)

价值：让AI"理解"语义而非匹配关键词
"合同到期" 和 "协议终止" → 嵌入后距离很近 → 能被同时检索到
```

### 6. 检索增强生成(RAG)

```
RAG = 检索 + 生成

用户问题 → 从知识库检索相关内容 → 将内容注入Prompt → LLM生成答案
                                    ↑
                          这就是为什么RAG能减少幻觉
```

### 7. AI Agent

```
Agent = LLM + 记忆 + 规划 + 工具

不是简单的问答，而是：
理解任务 → 制定计划 → 调用工具 → 观察结果 → 修正计划 → 完成任务
```

### 8. 微调(Fine-tuning)

```
微调 = 在预训练模型基础上用特定数据继续训练

基座模型(通用能力) + 微调数据(领域知识) = 领域专家模型

关键：微调改变的是"风格和格式"，不是"注入新知识"(那是RAG的工作)
```

### 9. 温度(Temperature)、Top-P、Top-K

| 参数 | 做什么 | PM的调节旋钮 |
|------|--------|------------|
| Temperature(0-2) | 控制随机性 | 低=确定/保守(法务)；高=创意/多样(营销) |
| Top-P(0-1) | 自适应候选词池 | 窄=精确；宽=多样 |
| Top-K | 硬限制候选词数 | K=1贪婪; K=40平衡; K=100+创意 |

### 10. 幻觉(Hallucination)

```
幻觉 = 模型生成的内容看起来合理但事实错误

类型：
- 事实幻觉：编造不存在的数据/事件/人物
- 忠实度幻觉：输出与输入不一致
- 逻辑幻觉：推理过程正确但结论错误

缓解优先级：RAG > Prompt约束 > 微调 > 人工审核 > 护栏
永远无法完全消除，只能降低概率和降低影响
```

---

## 12阶段完整AI产品生命周期

---

## AI Agent 四大设计模式 + 五大架构模式

### 四大设计模式 (Andrew Ng)

| 设计模式 | 思想 | 典型场景 | 实现复杂度 |
|---------|---------|---------|-----------|
| **Reflection (反思)** | Agent自我审视输出质量，发现错误后修正 | 代码生成+自检、文案润色 | ★★ |
| **Tool Use (工具使用)** | Agent调用外部工具（API/数据库/计算器）完成子任务 | 数据分析、信息检索、自动化 | ★★★ |
| **Planning (规划)** | Agent将复杂任务分解为子任务，按序执行 | 多步骤工作流、旅行规划 | ★★★★ |
| **Multi-Agent (多智能体)** | 多个Agent分工协作，各自专精不同领域 | 复杂系统开发、多角色模拟 | ★★★★★ |

### 五大架构模式

| 架构模式 | 流程 | 代表框架 | 适用场景 |
|---------|---------|---------|---------|
| **ReAct** | Reasoning + Acting 交替循环 | LangChain ReAct | 需要推理+行动的通用场景 |
| **Plan-Execute** | 先规划全盘步骤，再逐步执行 | LangGraph, Plan-and-Solve | 多步骤确定性任务 |
| **LLM Compiler** | 将任务编译为DAG（有向无环图），并行执行 | LLMCompiler | 可并行的复杂任务 |
| **BabyAGI** | 任务队列+优先级排序+结果整合 | BabyAGI | 需要持续学习和调整的任务 |
| **Smolagents** | 轻量级代码生成Agent | HuggingFace Smolagents | 代码生成和自动化 |

### 框架选型决策树

```
你的场景是？
├── 需要严格的多步骤流程 → LangGraph（最快，有状态图）
├── 需要多角色对话协作 → AutoGen（对话式）
├── 需要角色扮演+任务分工 → CrewAI（角色扮演）
├── 低代码/非技术团队 → Dify（低代码平台）
└── Google生态/GCP → Google ADK
```

---

## 多Agent协作模式

### 三种协作模式

| 模式 | 结构 | 优点 | 缺点 | 适用场景 |
|------|------|------|------|---------|
| **层级式 (Hierarchical)** | 一个主Agent分配任务给子Agent | 控制力强，责任清晰 | 主Agent瓶颈，单点故障 | 确定性任务分解 |
| **平等协作 (Peer-to-Peer)** | Agent之间平等对话协商 | 灵活，无单点故障 | 协调成本高，可能死循环 | 开放式问题讨论 |
| **市场竞标 (Market-based)** | Agent竞标任务，最优者执行 | 效率高，自然选择 | 实现复杂，需要评估机制 | 有明确评估标准的任务 |

### 多Agent系统设计原则

| 原则 | 说明 |
|------|------|
| **专业化** | 每个Agent有明确的职责边界和能力范围 |
| **通信协议** | Agent间通信格式标准化（结构化JSON/自然语言） |
| **冲突解决** | 设定投票/仲裁/升级机制 |
| **容错机制** | 单个Agent失败不应导致整个系统崩溃 |

---

## Agentic RAG 架构设计

### RAG五代演进

| 代际 | 时间 | 特征 | 代表 |
|------|------|------|------|
| **1.0 Naive RAG** | 2020 | 检索→拼接→生成 | 基础RAG |
| **2.0 Advanced RAG** | 2023 | 混合检索+重排序 | LangChain RAG |
| **3.0 Modular RAG** | 2024 | 模块化+可配置 | LlamaIndex |
| **4.0 Agentic RAG** | 2025 | Agent主动编排检索策略 | 当前主流 |
| **5.0 Multimodal Agentic RAG** | 2026 | 多模态+Agent+知识图谱 | 前沿方向 |

### Agentic RAG 架构（ReAct循环）

```
Thought → Action → Observation → Thought → ...
  (思考)    (行动)    (观察)       (思考)

示例：
Thought: 用户问"Q3销售额最高的产品是什么？"
Action: 查询数据库[SELECT product, SUM(revenue) FROM sales WHERE quarter='Q3' GROUP BY product ORDER BY SUM(revenue) DESC LIMIT 1]
Observation: 产品A, ¥5,200万
Thought: 还需要比较Q3和Q2的增长
Action: 查询Q2数据...
Observation: 产品A Q2为¥4,800万
Thought: 现在可以给出完整答案
Answer: Q3销售额最高的是产品A（¥5,200万），环比增长8.3%
```

### GraphRAG 知识图谱集成

微软 GraphRAG 将知识图谱与RAG结合：
- 传统RAG准确率：~60%
- GraphRAG准确率：**94%**
- 差异：GraphRAG理解实体间关系，而非仅做语义匹配

### RAGAS 评估框架

| 指标 | 含义 | 衡量什么 |
|------|------|---------|
| **Faithfulness** | 答案是否忠实于检索到的上下文 | 幻觉程度 |
| **Contextual Relevancy** | 检索到的内容是否与问题相关 | 检索质量 |
| **Answer Relevancy** | 答案是否直接回应了问题 | 答案质量 |
| **Contextual Recall** | 是否检索到了所有必要信息 | 检索完整性 |
| **Contextual Precision** | 检索结果中相关项的比例 | 检索精确度 |

---

## RAG技术选型全栈指南

### 文档解析层

| 工具 | 适用格式 | 特点 |
|------|---------|------|
| PyMuPDF | PDF | 快速、轻量 |
| Docling | PDF/Word/PPT | IBM开源，结构化输出 |
| Unstructured | 多格式 | 功能全面，支持多种Chunking |
| LlamaParse | PDF | 专为LLM优化，表格处理强 |
| MinerU | PDF | 中文PDF效果优秀 |

### 文本切分层

| 策略 | 做法 | 适用场景 |
|------|------|---------|
| 固定大小 | 每N个token切一块 | 简单场景 |
| 语义切分 | 按段落/句子边界切 | 通用推荐 |
| 递归结构 | 先大块后小块 | 层次化检索 |
| 文档感知 | 按标题/章节切 | 结构化文档 |
| 父子Chunk | 大块做检索，小块做生成 | 兼顾召回和精度 |

### Embedding模型选型

| 模型 | 维度 | 中文效果 | 推荐场景 |
|------|------|---------|---------|
| text-embedding-3-large | 3072 | ★★★ | 英文为主 |
| BGE-M3 | 1024 | ★★★★★ | 中英混合 |
| BGE-large-zh | 1024 | ★★★★★ | 纯中文 |
| Jina v3 | 1024 | ★★★★ | 多语言 |
| m3e-base | 768 | ★★★★ | 中文轻量 |

### 向量数据库选型

| 数据库 | 类型 | 特点 | 推荐场景 |
|--------|------|------|---------|
| Milvus | 专用向量DB | 高性能、分布式 | 生产级大规模 |
| Weaviate | 专用向量DB | 自带向量化 | 快速原型 |
| Qdrant | 专用向量DB | Rust编写、高性能 | 性能敏感 |
| Chroma | 嵌入式 | 轻量、Python原生 | 开发测试 |
| FAISS | 库 | Meta开源、极致性能 | 研究/定制 |
| pgvector | PostgreSQL插件 | 与业务库一体 | 中小规模 |
| Pinecone | 云服务 | 免运维 | 快速上线 |
| Elasticsearch | 搜索引擎 | 向量+全文一体 | 已有ES的企业 |

### 混合检索 + RRF融合

```
向量检索 (语义相似)  +  BM25检索 (关键词匹配)
           │                    │
           └────────┬───────────┘
                    ▼
            RRF (Reciprocal Rank Fusion)
                    │
                    ▼
              融合排序结果
                    │
                    ▼
            重排序 (Reranker)
         BGE-Reranker / Cohere Rerank / Jina Reranker
```

---

## EU AI Act 合规深度指南

### 四层风险分类

| 风险等级 | 定义 | 监管要求 | 示例 |
|---------|------|---------|------|
| **不可接受风险** | 威胁基本权利 | 禁止使用 | 社会信用评分、实时生物识别监控 |
| **高风险** | 影响安全或基本权利 | 严格合规要求（CE标志、技术文档、人工监督） | 招聘筛选AI、医疗诊断AI、信贷审批AI |
| **有限风险** | 透明度风险 | 透明度义务（告知用户正在与AI交互） | Chatbot、Deepfake标注 |
| **最小风险** | 无重大风险 | 无强制要求 | 垃圾邮件过滤器、AI游戏 |

### 关键时间节点

| 时间 | 里程碑 |
|------|--------|
| 2024年8月 | EU AI Act 正式生效 |
| 2025年2月 | 不可接受风险禁令生效 |
| 2026年8月 | 通用AI（GPAI）透明度要求生效 |
| 2027年12月 | **独立高风险AI系统全面合规**（Omnibus延期） |
| 2028年8月 | 嵌入受监管产品中的高风险AI全面合规 |

### 最高罚款

- **3500万欧元** 或 **全球年营收的7%**（取较高者）
- 这比GDPR的最高罚款（2000万欧元或4%）更严厉

### GDPR与AI Act重叠义务

| 义务 | GDPR | AI Act | 重叠处理 |
|------|------|--------|---------|
| 数据最小化 | ✓ | 隐含 | AI训练数据同样适用 |
| 透明度 | ✓ | ✓（有限风险+） | 双重合规 |
| 自动化决策解释权 | ✓（第22条） | ✓（高风险） | 统一解释机制 |
| DPIA（数据保护影响评估） | ✓ | ✓（高风险=必须） | 可合并为单一评估 |

---

## 中国生成式AI监管体系

### 双备案制度

| 备案类型 | 主管部门 | 适用对象 | 关键要求 |
|---------|---------|---------|---------|
| **算法备案** | 网信办 | 所有具有舆论属性或社会动员能力的算法 | 算法原理、数据来源、安全评估 |
| **大模型备案** | 网信办 | 面向公众提供服务的生成式AI | 安全评估、内容审核机制、训练数据合规 |

### 深度合成内容标识

- **显式标识**：在内容中嵌入可见标识（如"AI生成"水印）
- **隐式标识**：在元数据中嵌入技术标识
- **X-DeepSynth响应头**：API返回中必须包含 `X-DeepSynth: true` 标识
- **已备案服务**：748款（截至最新数据）

---

## AI评测（Evals）体系

### 9步评估流程

```
1. 定义成功标准 → 2. 选择评估指标 → 3. 构建金标测试集
       ↓
4. 离线评估 → 5. 人工评估 → 6. 迭代优化
       ↓
7. 受控上线（灰度） → 8. 持续监控 → 9. 文档化
```

### 5维度评估框架

| 维度 | 关键指标 | 评估方法 |
|------|---------|---------|
| **性能** | 准确率、召回率、F1、延迟P95 | 自动化测试+金标数据集 |
| **鲁棒性** | 对抗样本抵抗、边界情况处理 | 边界测试、对抗测试 |
| **公平性与安全性** | 偏见检测、有害内容过滤率 | 偏见审计、红队测试 |
| **事实性与幻觉** | 幻觉率、事实一致性 | RAGAS Faithfulness、人工评审 |
| **一致性与可靠性** | 相同输入→相同输出的稳定性 | 重复测试、回归测试 |

### 工具矩阵

| 工具 | 定位 | 能力 |
|------|------|---------|
| **Promptfoo** | 轻量评测 | CLI驱动，快速对比多个Prompt/模型 |
| **RAGAS** | RAG专项 | Faithfulness/Relevancy/Recall/Precision |
| **DeepEval** | 通用评测 | 幻觉检测、偏见检测、毒性检测 |
| **LangSmith** | 全链路 | 追踪+评测+人工标注 |
| **LangFuse** | 开源可观测 | Tracing+评测+成本追踪 |
| **TruLens** | 反馈分析 | RAG三元组评估（Answer/Context/Groundedness） |
| **Arize Phoenix** | 可观测性 | LLM可观测+检索分析 |
| **MLflow** | 实验管理 | 模型实验追踪+模型注册 |
| **Deepchecks** | 数据验证 | 训练数据质量+数据漂移检测 |

### CI/CD集成质量门禁

```
代码提交 → 单元测试 → Evals自动化 → 质量门禁
                                        │
                          ┌─────────────┼─────────────┐
                          ▼             ▼             ▼
                      幻觉检测      准确性回归    安全违规检测
                    (阈值<5%)    (无回退>2%)   (零容忍)
```

---

## 大模型产业链四层全景

| 层级 | 玩家 | 竞争格局 | PM关注点 |
|------|---------|---------|---------|
| **算力层** | NVIDIA/华为昇腾/寒武纪/海光 | NVIDIA一家独大，国产加速追赶 | 算力成本趋势、国产替代窗口 |
| **模型层** | OpenAI/Google/Anthropic/Meta/百度/阿里/智谱/DeepSeek | 闭源vs开源双线竞争 | 模型能力边界、API定价、开源模型可用性 |
| **平台层** | LangChain/LlamaIndex/Dify/百炼/文心 | 工具链+云平台 | RAG/Agent开发框架、MaaS平台 |
| **应用层** | Microsoft Copilot/Salesforce Einstein/各类AI原生应用 | 百花齐放 | 场景选择、用户体验、数据飞轮 |

---

## 2026年AI行业十大趋势

| # | 趋势 | 描述 | PM启示 |
|---|------|---------|-------------|
| 1 | **跨越试点陷阱** | 从PoC到生产，88%使用→仅6%高绩效 | 聚焦可量化的业务价值 |
| 2 | **Agent劳动力时刻** | AI Agent从"助手"到"同事" | 设计人机协作流程而非替代 |
| 3 | **决策轨迹** | 关注AI如何影响决策链而非单点输出 | 设计决策可追溯性 |
| 4 | **效能奇点** | 推理成本断崖式下降，解锁新场景 | 重新评估"太贵"的场景 |
| 5 | **多模态标配** | 文本→图像→视频→3D，多模态成基础能力 | 产品设计考虑多模态交互 |
| 6 | **AI安全防火墙** | AI安全从"nice-to-have"到"must-have" | 合规前置，安全设计 |
| 7 | **SaaS巨头反击** | Salesforce/MS/Oracle全面AI化 | 垂直场景是创业公司机会 |
| 8 | **Google苏醒** | Gemini+DeepMind+Google生态整合 | 关注Google AI生态 |
| 9 | **生产力悖论终结** | AI从"可能有用"到"确实有用" | 用数据证明AI的ROI |
| 10 | **开源闭源平衡** | 开源追赶闭源，差距缩小到6-12个月 | 架构设计支持模型切换 |

---

> 每个阶段遵循统一结构：**输入物 → 流程 → 方法论 → 输出物 → 质量标准 → PM检查清单**

---

### 阶段1：AI战略与机会识别

**角色：AI策略师**

> "先问是否应该用AI，再问怎么用AI。"

#### 1.1 AI机会评估框架

##### 是否是AI问题？（4问判断法）

```
Q1: 任务需要什么类型的智能？
    ├── 模式识别/分类 → AI强项
    ├── 内容生成/转化 → AI强项
    ├── 精确数学计算 → AI弱项（需工具辅助）
    ├── 确定性业务逻辑 → 传统软件更好
    └── 需要100%准确性 → AI不适合（除非有HITL）

Q2: 错误容忍度是多少？
    ├── 零容忍（医疗诊断/法律判决） → AI仅辅助，人类最终决策
    ├── 低容忍（财务报告/合规） → AI+RAG+人类审核
    ├── 中容忍（客服/内容推荐） → AI为主+抽样审核
    └── 高容忍（创意生成/草稿） → AI自主

Q3: 数据/知识是否可用？
    ├── 有结构化知识库 → RAG可行
    ├── 有大量标注数据 → 微调可行
    ├── 只有几个示例 → Few-shot Prompt
    └── 没有任何数据 → 用最强大的通用模型+人的判断

Q4: 用户是否准备好接受AI？
    ├── 用户愿意接受AI辅助 → 推进
    ├── 用户不信任AI → 先做低风险功能建立信任
    └── 用户抵制AI → 先做内部工具验证价值
```

##### AI价值评估矩阵

| 维度 | 评分(1-5) | 权重 | 加权分 |
|------|----------|------|--------|
| 用户痛点强度 | | 25% | |
| AI解决可行性 | | 25% | |
| 数据可用性 | | 15% | |
| 商业回报 | | 15% | |
| 竞争紧迫性 | | 10% | |
| 技术实施难度(反向) | | 10% | |

**≥3.5→高优先；2.5-3.5→中优先；<2.5→观望/放弃**

#### 1.2 AI产品类型决策树

```
你的AI产品是？
├── AI-Native（产品本身就是AI）
│   ├── 模型层 → 提供API/模型服务 → 你是AI Builder PM
│   └── 应用层 → 独立AI应用 → 你是AI Experience PM
├── AI-Enhanced（现有产品加AI功能）
│   └── 嵌入AI到现有工作流 → 你是AI Experience PM
└── AI-Infrastructure（AI基础设施）
    └── 工具/平台/中间件 → 你是AI Builder PM
```

#### 1.3 AI市场竞争分析框架

**AI竞品分析特殊维度：**

| 传统维度 | AI特有维度 |
|---------|-----------|
| 功能对比 | **模型能力对比**（底层用什么模型？微调了吗？） |
| 价格对比 | **推理成本估算**（每次交互成本？谁在补贴？） |
| 用户体验 | **AI UX模式**（Chat vs Copilot vs Agent vs 嵌入式） |
| 市场份额 | **数据飞轮阶段**（有多少用户交互数据？） |
| 技术架构 | **模型策略**（自研 vs API套壳 vs 微调 vs RAG） |

**AI竞争壁垒评估（Hamilton Helmer 7 Powers AI改写版）：**

| 力量 | AI产品中的表现 | 可持续性 |
|------|--------------|---------|
| **数据网络效应** | 更多用户→更多交互数据→更好的AI→更多用户 | ⭐⭐⭐⭐⭐ |
| **转换成本** | AI了解用户偏好后，切换到竞品的成本 | ⭐⭐⭐⭐ |
| **规模经济** | 推理成本随规模下降（模型优化/批量折扣） | ⭐⭐⭐ |
| **围堵资源** | 专有训练数据/领域专家/监管许可 | ⭐⭐⭐⭐ |
| **反定位** | AI Native挑战传统软件的成本结构 | ⭐⭐⭐ |
| **品牌** | 准确性口碑/安全记录/企业信任 | ⭐⭐⭐ |
| **流程优势** | Prompt工程积累/评测体系积累/安全经验 | ⭐⭐ |

#### 1.4 AI产品策略框架

**楔子策略（a16z/O'Reilly推荐）：**

```
传统路径：做平台 → 找场景 → 获取用户 → 收集数据
AI时代路径：找一个痛点 → AI解决得极好 → 获取信任 → 捕获专有数据 → 扩展

原则：
1. 从一个"英雄用户"的一个痛点开始
2. 做窄做深，不要做宽做浅
3. 简单的AI工具比复杂的Agent更值得信任（先让用户信任AI的基本能力）
4. 数据是护城河，模型不是（模型会商品化，专有数据不会）
5. 不要在模型层与OpenAI/Anthropic竞争，在应用层差异化
```

**DHM模型（Gibson Biddle）AI改写版：**

```
D - Delightful（用户惊喜）：AI功能让用户感到"哇"了吗？
H - Hard-to-copy（难以复制）：竞品复制需要多久？（数据飞轮>模型选择）
M - Margin-enhancing（有利润）：推理成本结构健康吗？

评分：每个维度1-10，乘积越高越好
理想：D>7 H>7 M>7（如：Claude的Artifacts、Cursor的Tab补全）
陷阱：D高H低M低 → 被大厂快速复制
```

#### 输出物

1. **AI机会评估报告**（含AI可行性评分+价值评估矩阵）
2. **AI竞争分析报告**（含模型策略反推+数据飞轮评估）
3. **AI产品战略一页纸**（含楔子策略+DHM评分）
4. **AI产品路线图**（Now/Next/Later + 模型依赖标注）

---

### 阶段2：数据策略与基础设施

**角色：数据策略师**

> "AI产品的天花板不是模型能力，而是数据质量和数据飞轮速度。"

#### 2.1 AI数据全景图

```
AI产品需要的数据类型：

├── 训练数据（如果要微调）
│   ├── 输入-输出对（SFT）
│   ├── 偏好对（RLHF/DPO）
│   └── 质量要求：高准确率、多样性、无偏见
│
├── RAG知识库数据（如果要RAG）
│   ├── 文档/知识库/API文档
│   ├── 需要：分块策略、元数据、权限标签
│   └── 质量要求：准确、最新、完整
│
├── 评估数据（必备）
│   ├── Golden Dataset（评测基准）
│   ├── 需要：覆盖各种场景+边缘情况
│   └── 质量要求：代表真实分布
│
├── 用户交互数据（数据飞轮燃料）
│   ├── 隐式反馈：点击/停留/采纳/修改/取消
│   ├── 显式反馈：点赞/踩/评分/NPS
│   └── 用于：改进Prompt/优化RAG/识别Bad Case
│
└── 安全数据（如果要安全护栏）
    ├── 对抗样本/越狱Prompt
    └── 用于：训练内容安全分类器
```

#### 2.2 数据飞轮设计

```
┌──────────────────────────────────────────────────────┐
│                                                      │
│  更多用户 → 更多交互数据 → AI效果改善 → 更多用户      │
│      ↑                                        ↓       │
│      └── 更好的用户体验 ← 更准确的AI ← 更好的数据 ──┘ │
│                                                      │
└──────────────────────────────────────────────────────┘

原则：
1. 每次用户交互都要产生可用于改进的数据
2. 隐式反馈（行为）>> 显式反馈（打分）
3. Bad Case是金矿：每次失败都是改进机会
4. 数据标注嵌入产品流程（不是独立的外包任务）
5. 飞轮启动最难：前100个高质量交互最关键
```

#### 2.3 数据标注策略

| 标注方式 | 质量 | 成本 | 速度 | 适用 |
|---------|------|------|------|------|
| 领域专家标注 | ⭐⭐⭐⭐⭐ | 最高 | 最慢 | Golden Dataset、医疗/法律 |
| 众包平台 | ⭐⭐ | 低 | 快 | 大规模简单任务 |
| LLM标注+人工审核 | ⭐⭐⭐⭐ | 中 | 快 | 数据增强、初步筛选 |
| 用户隐式标注 | ⭐⭐⭐ | 极低 | 极快 | 持续数据收集 |
| 合成数据 | ⭐⭐⭐ | 低 | 快 | 扩充数据多样性 |

**标注质量管控：**
- 双标注一致性(IAA) ≥ 0.8
- 10%样本双人标注用于质量控制
- 标注指南+示例+定期校准会议

#### 2.4 数据质量检查清单

```
□ 准确性：数据是否有事实错误？
□ 完整性：是否覆盖所有需要场景？
□ 一致性：相同输入是否有一致的标注？
□ 时效性：数据是否过时？(RAG知识库尤其重要)
□ 多样性：是否包含边缘情况/多种表达方式？
□ 无偏性：是否对特定人群/场景有系统性偏见？
□ 合规性：数据来源是否合法？是否涉及PII？
□ 代表性：数据分布是否匹配真实用户分布？
```

#### 输出物

1. **数据策略文档**（含数据需求/数据来源/数据飞轮设计）
2. **数据标注规范**（含标注指南/质量标准/质检流程）
3. **数据飞轮监控指标**（交互量/反馈率/Bad Case率/数据覆盖率）

---

### 阶段3：模型选型与架构决策

**角色：AI架构决策者**

> "选模型不是在比较基准分数，是在匹配能力、成本、延迟、合规的约束组合。"

#### 3.1 模型选型决策树

```
Step 1: 数据能出企业吗？
├── 是 → Step 2
└── 否 → 必须私有化部署
          ├── 场景通用 → 开源模型(Llama/Qwen/DeepSeek) + RAG
          └── 场景特殊(医疗/法律/金融) → 开源模型 + 微调

Step 2: 任务复杂度？
├── 简单(分类/提取/基础摘要) → 小模型(Haiku/Flash/微调7B)
├── 中等(标准问答/内容生成) → 中模型(Sonnet/GPT-4o)
└── 复杂(多步推理/代码/数学) → 大模型(Opus/GPT-4.1/o1)

Step 3: 延迟要求？
├── <500ms(实时) → 最小可行的模型 + 流式输出
├── 1-3s(近实时) → 中等模型 + 流式输出
└── 异步/批处理 → 最强大模型

Step 4: 调用量级？
├── 低频(<1000次/天) → API最经济
├── 中频(1000-10万次/天) → API为主 + 语义缓存削减30%+
├── 高频(>10万次/天) → 评估自建推理的盈亏平衡点
└── 超高频(>100万次/天) → 自建推理 + 模型量化 + 连续批处理

Step 5: 任务复用度？
├── 同一任务模式反复出现 → 微调小模型(成本降低10-100x)
└── 任务多样不可预测 → 通用大模型API
```

#### 3.2 主流模型能力矩阵（2025-2026）

**闭源API：**

| 模型 | 最擅长 | 上下文窗口 | 价格(Input/Output $/M) | 适用场景 |
|------|--------|----------|----------------------|---------|
| Claude Opus 4.5 | 复杂推理、代码、长文档 | 200K | $5/$25 | 最复杂的B端任务 |
| Claude Sonnet 4 | 平衡能力、代码 | 200K | $3/$15 | 大多数B端场景的默认选择 |
| GPT-4.1 | 推理链、数学 | 1M | $15/$60 | 需要深度推理的场景 |
| GPT-4o | 多模态、速度 | 128K | $2.5/$10 | 多模态+实时场景 |
| Gemini 2.5 Pro | 超长上下文、搜索 | 2M | $1.25/$10 | 超长文档/代码库分析 |
| Gemini Flash | 速度+成本 | 1M | $0.075/$0.30 | 高吞吐量简单任务 |

**开源模型（用于私有化部署/微调）：**

| 模型 | 参数 | 最强能力 | 硬件需求(推理) | 适用 |
|------|------|---------|--------------|------|
| Llama 4 | 8B/70B/405B | 通用、生态好 | 8B=1卡/70B=4卡 | 英文为主 |
| Qwen 3 | 7B/72B | 中文最强、多模态 | 7B=1卡/72B=4卡 | 中文场景首选 |
| DeepSeek V3/R1 | 671B(MoE) | 推理、中文、极致性价比 | MoE架构优化 | 成本敏感+强推理 |
| Mistral Large | 123B | 多语言、速度 | 4-8卡 | 欧洲市场 |

#### 3.3 Build vs Buy vs Fine-tune 三路径决策

```
┌────────────────────────────────────────────────────┐
│                     决策树                          │
│                                                    │
│ 这是差异化能力吗？                               │
│   ├── 是 → BUILD(自研模型)                          │
│   │         条件：有足够数据+预算+ML团队              │
│   │         成本：7B≈$100K, 70B≈$1-5M               │
│   │         时间：6-18个月                            │
│   │                                                   │
│   └── 否 → 有大量专有数据需要模型学习吗？              │
│             ├── 是 → FINE-TUNE(API或开源模型微调)     │
│             │         成本：$15(LoRA小模型)-$50K+      │
│             │         时间：1-4周                       │
│             │         适合：改风格/格式/领域术语        │
│             │                                              │
│             └── 否 → BUY(直接使用API)                    │
│                       成本：按用量付费                     │
│                       时间：即时                           │
│                       适合：大多数场景                     │
└────────────────────────────────────────────────────┘

行业共识："Buy the substrates. Build the autonomy."
→ 购买基础模型，在此基础上构建自主能力层
```

#### 3.4 模型路由策略（Multi-Model Architecture）

```
高级AI产品的架构：不是选一个模型，而是用多个模型路由。

用户Query → 分类器(复杂度判断) →
  ├── 简单(40%) → 小模型(Haiku/Flash) → 低成本
  ├── 中等(40%) → 中模型(Sonnet/GPT-4o) → 平衡
  └── 复杂(20%) → 大模型(Opus/GPT-4.1) → 高质量

效果：成本降低40-60%，延迟降低20-30%，质量基本持平
```

#### 输出物

1. **模型选型决策报告**（含决策树路径+对比矩阵+cost projection）
2. **Build/Buy/Fine-tune建议书**（含TCO 2-3年估算）
3. **模型路由架构设计**（如适用）

---

### 阶段4：Prompt与上下文工程

**角色：Prompt架构师**

> "Prompt是AI产品的UI。上下文工程是比Prompt工程更深层的设计。"

#### 4.1 结构化Prompt设计模式

```
┌─────────────────────────────────────────────┐
│ [System Prompt] - 系统级角色和能力设定       │
│ 你是谁 | 你的任务 | 你的约束 | 你的语气     │
├─────────────────────────────────────────────┤
│ [Context] - 上下文信息                       │
│ 当前用户信息 | 相关数据 | 业务规则 | 场景    │
├─────────────────────────────────────────────┤
│ [Task] - 具体任务指令                       │
│ 做什么 | 步骤 | 格式要求                    │
├─────────────────────────────────────────────┤
│ [Output Schema] - 输出格式约束              │
│ JSON Schema | 字段说明 | 示例              │
├─────────────────────────────────────────────┤
│ [Few-Shot Examples] - 示例（强烈推荐）      │
│ 2-5个高质量的输入→输出示例                  │
├─────────────────────────────────────────────┤
│ [Constraints] - 禁止事项                    │
│ 不要做X | 如果不知道就说不知道              │
└─────────────────────────────────────────────┘

示例：AI法务合同审查System Prompt
你是资深企业法务专家，专注合同风险审查。
你的审查范围：买卖合同、服务合同、NDA。
你必须：引用具体条款指出风险，给出修改建议，标注风险等级(高/中/低)。
你不能：提供法律意见(声明仅供参考)，编造不存在的法律条文。
输出格式：JSON，包含risk_items数组，每项含{clause, risk_level, description, suggestion}
```

#### 4.2 Prompt高级技术

| 技术 | 原理 | 适用场景 | 效果 |
|------|------|---------|------|
| **Chain-of-Thought** | 引导模型"让我们一步步思考" | 复杂推理/数学/多步分析 | 准确率↑15-30% |
| **Few-Shot** | 提供2-5个高质量输入→输出示例 | 格式要求严格/领域特殊 | 格式遵循率↑50%+ |
| **Self-Consistency** | 多次采样+投票 | 需要高准确率的推理 | 准确率↑5-10% |
| **ReAct** | 思考→行动→观察 循环 | 需要工具调用的任务 | Agent必备 |
| **Tree of Thoughts** | 探索多个推理路径+评估选择 | 复杂规划/策略 | 需要规划的场景 |
| **Constitutional Prompting** | 在Prompt中内置原则 | 内容安全/价值观对齐 | 安全拒绝率↑ |

#### 4.3 上下文工程（Context Engineering）

> 问题："给模型什么信息、以什么结构、在什么时机？"

**上下文窗口预算管理（以128K为例）：**

```
总预算：128K tokens

策略：
├── System Prompt：2-5K tokens (角色+规则+输出格式)
├── 对话历史：10-20K tokens (最近的对话，摘要化旧对话)
├── RAG检索结果：20-40K tokens (最相关的文档+元数据)
├── 用户当前查询：0.5-2K tokens
├── 用户画像/偏好：2-5K tokens
├── 工具定义：5-10K tokens (function definitions)
└── 预留Buffer：~20K tokens (给模型思考/生成用)
```

**上下文窗口陷阱（越大≠越好！）：**

| 陷阱 | 表现 | 缓解 |
|------|------|------|
| **上下文毒化** | 前文幻觉被不断引用放大 | 定期重置+来源标注 |
| **上下文分心** | 无关信息太多，模型迷失重点 | 精选而非堆砌 |
| **上下文混淆** | 工具太多，调用错误的工具 | 工具数量<20个 |
| **上下文冲突** | 多轮对话中的矛盾信息(性能下降~39%) | 冲突检测+澄清机制 |

**动态上下文组装策略：**
- 根据用户角色加载不同System Prompt
- 根据当前任务类型选择不同检索策略
- 根据用户历史个性化上下文（偏好/习惯/级别）
- 关键信息前置：最重要的放在Prompt的前2000 tokens和后500 tokens

#### 4.4 Prompt版本管理与A/B测试

```
Prompt工程的最佳实践 = 像管理代码一样管理Prompt

流程：
1. Prompt在Git中版本控制（不是数据库里改来改去）
2. 每次修改有Changelog（改了什么、为什么、预期影响）
3. 新Prompt先在Golden Dataset上评测（离线验证）
4. 通过评测后在5%流量A/B测试（在线验证）
5. 统计显著(>95%置信) + 指标不降 → 全量上线
6. 保留旧Prompt作为回滚方案

需要A/B监控的指标：
- 任务完成率（主要）
- 用户满意度/点赞率（辅助）
- 推理延迟（不降）
- Token成本（不显著增）
- 安全拒绝率（不降）
```

#### 输出物

1. **System Prompt设计文档**（含角色定义/约束/格式/示例）
2. **上下文组装策略文档**（含窗口预算/动态组装规则）
3. **Few-Shot示例库**（按场景分类，持续优化）
4. **Prompt版本管理规范**（Git集成+A/B测试流程）

---

### 阶段5：RAG设计与实现

**角色：RAG架构师**

> "RAG是当前B端AI产品最核心、最成熟的架构模式。"

#### 5.1 RAG标准流水线（5层）

```
┌──────────────────────────────────────────────┐
│ 1. 文档摄入                                   │
│    ├── 文档解析(PDF/Word/HTML/Markdown/图片OCR)│
│    ├── 分块(Chunking)：固定大小/语义/层级      │
│    └── 元数据提取(文档名/日期/作者/权限/标签)   │
├──────────────────────────────────────────────┤
│ 2. 向量化 (Embedding)                        │
│    ├── 文本→向量 (选择合适的Embedding模型)     │
│    └── 存入向量数据库                           │
├──────────────────────────────────────────────┤
│ 3. 检索 (Retrieval)                          │
│    ├── 混合检索：BM25(关键词) + Dense(语义)   │
│    ├── 重排序：Cross-encoder对召回结果二次排序  │
│    └── 过滤：按权限/日期/标签/元数据过滤       │
├──────────────────────────────────────────────┤
│ 4. 生成 (Generation)                         │
│    ├── System Prompt + Retrieved Context + User Query →
│    ├── LLM生成带引用标注的答案                  │
│    └── 置信度输出（不确定时告知用户）            │
├──────────────────────────────────────────────┤
│ 5. 评测与迭代                                  │
│    ├── RAGAS指标(忠实度/相关性/上下文精度/召回) │
│    ├── Bad Case分析→分块策略→检索策略→迭代    │
│    └── 用户反馈闭环                            │
└──────────────────────────────────────────────┘
```

#### 5.2 RAG 7大高阶模式（2025最新）

| 模式 | 机制 | 延迟 | 准确率 | 最佳场景 |
|------|------|------|--------|---------|
| **基础RAG** | 向量检索+生成 | 低 | 中 | 快速原型 |
| **混合搜索+Reranker** | BM25+向量+Cross-encoder | 中 | 高 | **生产环境默认起点** |
| **Self-RAG** | 模型自反思+判断是否需要检索 | 中高 | 高 | 需要减少幻觉 |
| **Corrective RAG** | 轻量评估器评分→使用/丢弃/补充 | 中高 | 高 | 知识库质量不稳定 |
| **Agentic RAG** | 动态推理+工具调用+多步检索 | 高 | 很高 | 复杂多步自主任务 |
| **GraphRAG** | 知识图谱+社区摘要+层级检索 | 中高 | 很高 | 10万+文档、跨文档关系 |
| **HyDE** | 先生成假设文档再检索 | 中 | 高(模糊查询) | 领域特定模糊查询 |

#### 5.3 RAG关键设计决策

| 决策点 | 选项 | 推荐 | 理由 |
|--------|------|------|------|
| 分块策略 | 固定/语义/层级 | 语义为主+固定为辅 | 语义分块F1↑36%(法律文档) |
| 分块大小 | 256/512/1024/2048 | 512为主，关键段落1024 | 平衡完整性和检索精度 |
| 重叠率 | 0%/10%/20% | 10-20% | 避免语义在边界切断 |
| Embedding模型 | 多种 | 中文→bge-large-zh；英文→text-embedding-3-large | 中文场景bge表现最佳 |
| 向量数据库 | 多种 | <100万向量→pgvector; >100万→Milvus | Milvus分布式扩展好 |
| Top-K | 3/5/10/20 | 混合搜索50→Rerank到5-10 | Reranker提升明显 |
| Reranker | Cohere/BGE/无 | 必须加Reranker | MRR提升20%+ |

#### 5.4 RAG vs Fine-tuning vs Long Context 决策框架

| 场景 | 推荐方案 | 原因 |
|------|---------|------|
| 知识频繁更新 | RAG | Fine-tuning过时成本高 |
| 需要可解释性/来源引用 | RAG | 可追溯到源文档 |
| 需要模仿特定风格/语气 | Fine-tuning | 比Few-shot Prompt更稳定 |
| 领域术语/缩写多 | Fine-tuning | 学习术语分布 |
| 文档<上下文窗口且不常变化 | Long Context | 最简单，不需要额外基础设施 |
| **大多数B端场景** | **RAG+Fine-tuning** | 行业共识：混合是默认选择 |

#### 5.5 RAG评测指标（RAGAS标准）

| 指标 | 测量什么 | 目标 |
|------|---------|------|
| **Faithfulness(忠实度)** | 生成的答案是否完全来自检索内容 | >0.90 |
| **Answer Relevancy(答案相关性)** | 答案是否回答了问题 | >0.85 |
| **Context Precision(上下文精度)** | 检索到的内容中相关比例 | >0.85 |
| **Context Recall(上下文召回)** | 相关内容被检索到的比例 | >0.90 |

#### 输出物

1. **RAG架构设计文档**（含流水线设计/分块策略/检索策略/向量数据库选型）
2. **Embedding模型选型报告**（含中文/多语言场景对比）
3. **RAG评测报告模板**（含RAGAS指标+Bad Case分析）
4. **知识库管理规范**（含文档摄入SOP/更新频率/质量检查）

---

---

### 阶段6：Agent与多智能体系统

**角色：Agent架构师**

> "Agent = LLM + 记忆 + 规划 + 工具。不是所有任务都需要Agent。"

#### 6.1 什么时候用Agent？（决策树）

```
简单LLM调用就够了吗？
├── 是 → 不要用Agent！简单调用成本更低、延迟更低、更可控
│       适用：翻译、摘要、分类、简单问答、内容生成
│
└── 否 → 需要多步操作吗？
         ├── 是 → 需要灵活的工具选择吗？
         │        ├── 是 → 用Agent
         │        └── 否 → 用固定Pipeline
         └── 否 → 用简单LLM调用

Agent额外成本：多轮调用→延迟↑2-5x, Token消耗↑3-10x
Agent价值：处理开放式的、需要多步推理和工具调用的复杂任务
```

#### 6.2 Agent架构模式

**模式1：ReAct（推理+行动）**
```
Thought → Action → Observation → Thought → ... → Final Answer
```

**模式2：Plan-and-Execute（先规划再执行）**
```
Plan（制定计划）→ Execute Step 1 → ... → Summarize
适合：目标明确但步骤复杂，用户可审查计划后再执行
```

**模式3：Orchestrator-Worker（编排者-工作者）**
```
Orchestrator → Worker A(搜索) + Worker B(分析) + Worker C(撰写) → 整合输出
适合：任务可分解为独立子任务，并行执行
```

**模式4：Reflection Agent（反思型）**
```
执行 → 自我评估 → 识别问题 → 修正 → 再评估
提升准确率+10-20%，代价是额外1-2轮LLM调用
```

#### 6.3 多Agent编排框架

| 框架 | 编程模型 | 优势 | 适用 |
|------|---------|------|------|
| **LangGraph** | 有向图+状态管理 | 灵活、可控、社区大 | 生产级Agent系统 |
| **CrewAI** | 角色扮演+顺序/层级 | 简单直观、上手快 | 快速原型 |
| **AutoGen(Microsoft)** | 对话驱动多Agent | 学术背景、支持HITL | 研究+企业 |
| **OpenAI Agents SDK** | 轻量Agent+Handoff | 原生集成、简单 | OpenAI生态 |
| **Dify** | 可视化+低代码 | 中文友好、拖拽 | 非技术用户 |
| **Coze(字节)** | 可视化+插件市场 | 中国生态好 | AI Bot开发 |

#### 6.4 HITL设计（B端Agent合规必备）

| 风险等级 | Agent行为 | 人类角色 | 示例 |
|---------|----------|---------|------|
| **低风险** | Agent自主执行 | 事后抽查 | 标签、摘要、格式化 |
| **中风险** | Agent生成→人类确认 | 执行前确认 | 通知、状态变更 |
| **高风险** | Agent建议→人类执行 | 人类操作 | 删除、审批、发布 |
| **不允许** | 禁止Agent操作 | 仅人类 | 支付、签署、权限变更 |

#### 6.5 Agent安全与沙箱

```
Agent安全层级：
├── 身份与权限：最小权限原则、短时效凭证
├── 沙箱隔离：gVisor/Kata Containers/Firecracker
├── 网络管控：出口白名单、敏感API拦截
├── 工具审查：签名验证、权限声明
├── 运行时监控：异常行为检测、资源限制
└── 紧急熔断：一键停止Agent运行
```

#### 输出物

1. **Agent架构设计文档**（含架构模式/工具定义/记忆设计/HITL矩阵）
2. **Agent工具API规范**（功能/输入/输出/权限/错误处理）
3. **Agent安全设计文档**（含沙箱策略/权限模型/熔断机制）
4. **Agent评测方案**（任务完成率/工具调用正确率/HITL触发率）

---

### 阶段7：模型微调与适配

**角色：模型优化师**

> "微调改变的不是知识，是风格和格式。新知识通过RAG注入。"

#### 7.1 微调决策框架

```
YES（需要微调）：
□ 模型需要输出特定格式（JSON/表格/代码模板）且Prompt不够稳定
□ 需要特定的语气/风格/品牌语调
□ 大量领域缩写/术语（Prompt放不下）
□ 同一任务反复出现（微调小模型替代大模型，节省成本）

NO（不需要微调）：
□ 任务需要最新知识 → RAG更合适
□ 知识频繁变化 → 微调跟不上
□ 只有少量示例(<100条) → Few-shot Prompt更实际
□ 使用闭源API且Prompt可解决 → Prompt优化成本更低
□ 需要可解释的来源引用 → RAG提供溯源
```

#### 7.2 微调方法对比

| 方法 | 原理 | 成本 | 稳定性 | 最佳用途 |
|------|------|------|--------|---------|
| **SFT** | 输入→期望输出对 | 中 | ⭐⭐⭐⭐ | 格式/风格控制 |
| **RLHF** | 人类反馈→奖励模型→强化学习 | 极高 | ⭐⭐ | 价值观对齐 |
| **DPO** | 直接比较偏好对 | 中 | ⭐⭐⭐⭐ | 对齐效果好且稳定 |
| **LoRA/QLoRA** | 只训练少量参数 | 极低($15起) | ⭐⭐⭐⭐⭐ | 高效微调首选 |

**共识：DPO + LoRA 是企业微调的首选组合。**

#### 7.3 微调数据准备

```
最低要求：100-500条高质量示例
推荐：1000-5000条
原则：500条精选 > 5000条噪声数据

数据格式（SFT）：
{"messages": [
  {"role": "system", "content": "你是XX领域的专家..."},
  {"role": "user", "content": "用户输入"},
  {"role": "assistant", "content": "期望的模型输出"}
]}

原则：
1. 多样性：覆盖各种场景、边缘情况、表达方式
2. 一致性：标注标准统一，冲突数据需要清洗
3. 代表性：数据分布应匹配真实用户需求分布
```

#### 7.4 GPU需求估算

| 模型大小 | Full Fine-tuning | LoRA/QLoRA |
|---------|-----------------|------------|
| 7B-8B | 4-8x A100 80GB | 1x A100/L40S |
| 13B | 8x A100 80GB | 1-2x A100 |
| 70B-72B | 32+ A100/H100集群 | 2-4x A100 |
| 405B | 大型集群($1M+) | 8x A100 |

#### 输出物

1. **微调策略文档**（含决策依据/方法选择/数据策略/成本估算）
2. **微调数据准备规范**（含数据格式/质量标准/标注指南）
3. **微调评测方案**（含基准对比/领域评测/回归测试）

---

### 阶段8：AI UX与交互设计

**角色：AI体验设计师**

> "最好的AI UX是用户甚至没意识到自己在用AI。"

#### 8.1 AI交互的7大模式

| 模式 | 描述 | 最佳场景 | 代表产品 |
|------|------|---------|---------|
| **嵌入式AI** | AI在后台，用户无感 | 高频、高确定性 | Google搜索排序 |
| **Copilot侧边栏** | 侧边栏AI助手 | 辅助创作/分析 | GitHub Copilot |
| **Chat对话** | 纯对话界面 | 探索性任务 | ChatGPT |
| **Canvas画布** | AI+可编辑工作区 | 内容创作+迭代 | Claude Artifacts |
| **Agent自主** | 自动完成多步任务 | 复杂操作 | Devin, AutoGPT |
| **智能表单** | 表单→Prompt生成 | 结构化引导 | Resume builder |
| **Flowchart编排** | 可视化编排Agent | 工作流自动化 | n8n, Dify |

#### 8.2 AI UX原则（10条）

```
1. 渐进式信任 — 从低风险功能开始，逐步放开高风险的自主权
2. 可撤销 — AI的操作应该可以一键撤销
3. 可解释 — 让用户知道"AI为什么这样回答"（引用来源/推理步骤）
4. 可覆盖 — 用户可以随时手动接管或修改AI的输出
5. 展示不确定性 — 不确定时显示置信度，而非假装100%确定
6. 流式输出 — 逐Token展示，让用户感知AI"正在思考"
7. 给用户退路 — 除了AI方案，始终提供手动操作路径
8. 空状态引导 — 提供示例提示，降低用户"不知道该说什么"的焦虑
9. 容错优雅 — 出错时告诉用户"怎么回事+怎么办"
10. 上下文可见 — 让用户看到AI在用哪些信息做决策
```

#### 8.3 AI UX反模式（10大错误）

| # | 反模式 | 正确做法 |
|---|--------|---------|
| 1 | **一切皆Chat** — 简单任务也要对话 | 用控件/按钮替代不必要的对话 |
| 2 | **假装是人类** — 引发信任陷阱 | 清晰标识"我是AI" |
| 3 | **黑盒决策** — 用户完全不知道AI做了什么 | 展示推理步骤、引用来源 |
| 4 | **无退路设计** — 不满意但无法手动操作 | 始终保留手动路径 |
| 5 | **过度拟人** — 模拟打字延迟、"我在思考..." | 真诚胜过拟人，效率优先 |
| 6 | **全或无的信任** — 要么全信要么不信 | 渐进式信任，按风险分级 |
| 7 | **假装100%准确** — 用自信掩盖不确定性 | 不确定时用"可能/建议/参考" |
| 8 | **忽视等待体验** — 推理时无反馈 | 流式输出+进度提示 |
| 9 | **记忆不透明** — AI记住什么用户不知 | 提供记忆管理面板 |
| 10 | **只做加法** — 哪里都加AI | "AI-second, not AI-first" |

#### 8.4 GenUI（生成式UI — 前沿概念）

```
传统AI：Text in → Text out
GenUI：Text in → Structured JSON → 实时渲染UI组件

示例：
用户："对比这3家供应商的报价"
→ 生成对比表格JSON → 渲染成交互式对比组件（可排序/筛选/高亮）

工具：CopilotKit, LangChain + React streaming, C1 by Thesys
```

#### 输出物

1. **AI UX设计规范**（交互模式选择/原则声明/反模式检查）
2. **AI交互原型**（HTML原型：加载态/空态/错误态/结果态/置信度展示）
3. **AI用户信任建立计划**（渐进式信任路线图）

---

### 阶段9：评测体系与质量保障

**角色：AI质量保障专家**

> "没有评测就没有AI产品迭代。评测不是上线前的检查点，而是持续的系统。"

#### 9.1 AI评测vs传统测试

| 维度 | 传统软件测试 | AI产品评测 |
|------|------------|----------|
| 确定性 | 给定输入→确定输出 | 给定输入→概率性输出 |
| 正确性 | 明确的二值判断 | 多维度的程度判断 |
| 测试用例 | 预定义、可穷举 | 开放式、不可穷举 |
| 失败模式 | 显性（报错/崩溃） | 隐性（幻觉/偏见/遗漏） |
| 回归测试 | 精确的输入/输出匹配 | 统计性对比（旧vs新质量分布） |

#### 9.2 评测维度矩阵

| 维度 | 测量什么 | 测量方法 | 目标 |
|------|---------|---------|------|
| **准确性** | 事实是否正确 | Golden Dataset对比 | >90% |
| **相关性** | 是否回应了用户意图 | 人工评分+语义相似度 | >85% |
| **忠实度** | 是否忠实于上下文(RAG) | RAGAS Faithfulness | >0.90 |
| **完整性** | 是否覆盖所有关键信息点 | 检查清单覆盖率 | >85% |
| **安全性** | 有害内容输出率 | 红队测试+自动化扫描 | <0.1% |
| **延迟** | P50/P95/P99 | 自动监控 | P95<3s |
| **成本** | 每次交互Token消耗 | 自动统计 | 符合预算 |
| **一致性** | 相同意图不同表达是否一致 | 改写测试集 | >90% |

#### 9.3 Golden Dataset构建

```
流程：
1. 从真实用户Query中采样（不是PM自己编的）
2. 覆盖维度：常见场景(60%) + 边缘情况(20%) + 对抗情况(10%) + 安全测试(10%)
3. 数量：至少200条，推荐500-1000条（统计显著）
4. 标注：领域专家标注标准答案+评分标准(Rubric)
5. 维护：每月补充新Query(10-20条)，淘汰过时Query
```

#### 9.4 评测方法工具箱

| 方法 | 成本 | 速度 | 适用 |
|------|------|------|------|
| **人工评测** | 最高 | 最慢 | Golden Dataset标注、最终决策 |
| **LLM-as-Judge** | 中 | 快 | 规模化日常评测(用强模型评弱模型) |
| **自动指标**(RAGAS/ROUGE) | 低 | 最快 | 回归测试、快速筛选 |
| **A/B测试** | 高 | 慢 | 验证业务效果 |

**LLM-as-Judge注意事项：**
- 用最强模型当裁判（准确率~81%）
- 加上"请解释你的评分"提升透明度
- 定期人工抽查校准
- 不同Judge模型一致性差异显著

#### 9.5 评测流水线

```
每次Prompt/模型变更的评测流程：

Step 1: 离线评测（必须通过）
├── Golden Dataset全量跑一遍
├── RAGAS指标不降
├── 安全测试集不出现新问题
└── 输出对比报告(old vs new)

Step 2: 灰度在线（逐步放量）
├── 5% → 10% → 25% 流量
├── 监控指标
└── 统计显著+指标不降 → 继续放量

Step 3: 全量+持续监控
├── 7×24小时指标监控
├── Bad Case自动收集
└── 每周评测报告+迭代
```

#### 输出物

1. **评测体系设计文档**（评测维度/方法选择/指标定义）
2. **Golden Dataset**（含答案标准+评分Rubric）
3. **评测流水线配置**（离线评测+在线监控面板）
4. **每周评测报告模板**

---

### 阶段10：安全护栏与红队测试

**角色：AI安全工程师**

> "AI安全不是一次性检查，而是持续的经济博弈（提高攻击成本）。"

#### 10.1 AI特有攻击面

```
├── 输入层：Prompt注入、越狱(Jailbreak)、Base64/ROT13编码绕过、多语言绕过
├── 输出层：幻觉、有害内容、PII泄露、代码注入
├── 数据层：知识库投毒、恶意微调、成员推断攻击
└── 系统层：Agent工具滥用、权限提升、资源耗尽
```

#### 10.2 多层安全护栏

```
Layer 1: 身份认证与授权（最小权限+短时效Token）
Layer 2: 输入护栏（注入检测+越狱检测+PII过滤）
Layer 3: 输出护栏（内容安全分类器+幻觉检测+PII脱敏）
Layer 4: 运行时监控（异常检测+Token消耗告警+紧急熔断）
Layer 5: 审计与溯源（完整交互记录+Agent调用记录）
```

#### 10.3 红队测试

**Microsoft红队100+产品教训：**
- 上下文感知：同一模型不同场景风险不同
- 简单攻击最有效：真正的攻击者用Prompt而非梯度
- 系统级思维：最有效的攻击组合多种技术跨栈
- 双角色测试：恶意攻击者 AND 善意意外触发者
- 持续性：攻防博弈，不是一次性检查

**节奏：** 重大发布前全范围 + 每月重点区域 + 持续自动化扫描 + 每次模型升级后回归

#### 10.4 安全发布30-60-90天计划

| 阶段 | 行动 |
|------|---------|
| **Day 0-30** | 盘点Agent/工具；最小权限；沙箱；紧急熔断 |
| **Day 31-60** | 工具签名验证；安全监控规则；HITL门控；定向红队测试 |
| **Day 61-90** | CI/CD安全集成；全面红队+修复+回归；安全治理节奏 |

#### 输出物

1. **AI安全设计文档**（威胁模型/护栏架构/应急响应计划）
2. **红队测试报告模板**（测试范围/发现/修复验证）
3. **安全发布检查清单**
4. **内容安全分类标准**（按部署地区定制）

---

### 阶段11：AI可观测性与生产运维

**角色：AI运维专家**

> "AI产品上线只是开始，持续观测和优化才是常态。"

#### 11.1 LLMOps可观测性全景

```
支柱：

技术指标：延迟P50/P95/P99 | 吞吐量QPS | Token消耗 | 错误率 | 缓存命中率
质量指标：任务完成率 | 点赞率 | 幻觉率(抽样) | 安全拒绝率 | RAGAS趋势
业务指标：用户留存 | 功能采用率 | 人均推理成本 | ROI(价值/成本)
```

#### 11.2 可观测性工具栈

| 工具 | 能力 | 适用 |
|------|---------|------|
| **LangSmith** | Prompt管理+评测+追踪+监控 | LangChain生态 |
| **Arize Phoenix** | LLM可观测性+漂移检测 | 开源、OpenTelemetry原生 |
| **Langfuse** | LLM追踪+指标+Prompt管理 | 开源替代LangSmith |
| **Weights & Biases** | 训练追踪+Prompt管理 | 模型训练+产品 |
| **Datadog LLM** | 企业级监控 | 已有Datadog的企业 |

#### 11.3 AI产品特有的退化模式

```
1. 模型漂移：上游模型升级后行为变化 → 每次模型变更后评测对比
2. 数据漂移：用户Query分布变化 → 监控KL散度，更新Golden Dataset
3. 概念漂移：同一词含义变化 → 定期抽样评测特定Query
4. 反馈循环退化：AI输出影响用户行为→再影响AI → 周期性校准
```

#### 11.4 成本监控面板

```
指标：
- 每用户日成本 = Σ(各功能调用 × Token成本)
- 免费用户成本占比（>15%收紧限制）
- 高成本用户Top 10（排查滥用）
- 单次交互成本分布P50/P95/P99

告警：单用户日成本 > 均值10倍 | 免费层成本 > 15% | API失败率 > 5%
```

#### 输出物

1. **AI可观测性仪表盘**（技术/质量/业务三层指标）
2. **告警规则配置文档**
3. **生产问题排查手册**
4. **成本优化建议报告**

---

### 阶段12：AI商业化与变现

**角色：AI商业化策略师**

> "AI产品定价不是按席位，而是对齐用户价值和推理成本。"

#### 12.1 为什么AI定价如此困难？

```
传统SaaS边际成本≈0 → 按席位收费合理
AI产品边际成本≠0 → 每次调用都有真实Token成本

问题：
- 简单查询$0.001 vs 复杂多步链$0.50+（500倍差距）
- 同一席位两个用户，成本可能差50倍
- 按席位定价会导致利润倒挂
```

#### 12.2 六大AI定价模式

| 模式 | 原理 | 优势 | 劣势 | 适合 |
|------|------|------|------|------|
| **按Token/用量** | 用多少付多少 | 成本对齐最精确 | 用户成本不确定感 | API产品 |
| **混合(基础费+用量)** | 固定月费+超额按量 | 可预测+弹性 | 计量复杂 | **大多数B端AI SaaS** |
| **按结果付费** | 按完成任务付费 | 与用户价值直接对齐 | 归因复杂 | 客服/线索 |
| **分层+AI配额** | 各套餐含AI用量上限 | 企业采购熟悉 | 高级用户可能超量 | 企业SaaS |
| **预付消费** | Token包 | 收入可预测 | 限制重度用户收入 | 早期产品 |
| **免费试用+付费** | 有限免费额度 | 降低试用门槛 | 免费层成本风险 | PLG产品 |

**推荐：混合模式（基础月费 + 用量额度 + 超额按量计费）**

#### 12.3 Token经济学指标

| 指标 | 公式 | 健康基准 |
|------|------|---------|
| **AI毛利率** | (AI收入 - 推理成本) / AI收入 | >60% |
| **成本加价率** | 售价 / 推理成本 | 1.3-3x |
| **免费层成本率** | 免费用户推理成本 / 总推理成本 | <10% |
| **每用户月成本** | 月总推理成本 / 月活用户数 | 持续下降 |

#### 12.4 成本优化策略

| 策略 | 预期节省 | 实施难度 |
|------|---------|---------|
| 语义缓存 | 20-35% | 中 |
| 模型路由 | 40-60% | 中高 |
| Prompt压缩 | 15-25% | 低 |
| 批处理 | 20-40% | 低 |
| 微调小模型替代大模型 | 30-80% | 高 |

#### 12.5 Sequoia的Service-as-a-Software范式

```
传统SaaS：卖工具（按席位）→ 市场$650B
AI新范式：卖工作成果（按结果）→ 市场潜在$10T

传统："付钱，我们给你软件工具"
AI时代："付钱，我们直接完成工作"

→ AI PM必须思考：不是"我可以加什么AI功能"，而是"AI可以替用户完成什么工作"
```

#### 输出物

1. **AI产品定价方案**（定价模式/套餐设计/用量策略）
2. **Token经济学模型**（成本预测/毛利率模型/盈亏分析）
3. **成本优化路线图**

---

## AI PM工作流体系

### 双轨AI产品开发

**Discovery（AI能力探索）：**
假设 → Prompt原型 → Golden Dataset评测 → Alpha → Beta → A/B验证 → 上线

**Delivery（AI产品交付）：**
评审 → Prompt/模型变更 → 离线评测 → 灰度(5%→25%→100%) → 监控 → 迭代

### AI PM标准周节奏

| 时间 | 事项 |
|------|------|
| 周一 | AI指标Review + 本周规划 |
| 周二 | 用户研究+Bad Case深度分析 |
| 周三 | Prompt/RAG/Agent设计（深度工作） |
| 周四 | 跨团队对齐+安全评审 |
| 周五 | Golden Dataset维护+AI知识分享 |

### AI产品发布前检查清单

```
□ Golden Dataset评测通过（指标不降）
□ 红队测试完成且高风险项已修复
□ 安全护栏已部署并测试
□ 成本模型已更新并评审
□ 监控告警已配置
□ 降级/回滚方案已准备
□ 帮助文档已更新（用户需要知道如何与AI交互）
□ 灰度方案已确定
□ 法务/合规已签字
```

---

## 能力模型与职业发展

### AI PM能力金字塔

```
              ┌────────────────────┐
              │   AI商业思维       │  ← AI变现/Token经济学/市场判断
              │   (25%)           │
              ├────────────────────┤
              │   AI技术素养       │  ← 模型能力/RAG/Agent/Prompt/评测
              │   (30%)           │
              ├────────────────────┤
              │   AI产品设计       │  ← AI UX/信任设计/HITL/交互模式
              │   (25%)           │
              ├────────────────────┤
              │   产品基本功       │  ← 用户研究/需求分析/数据分析
              │   (20%)           │
              └────────────────────┘
```

### AI PM到Chief AI Officer

| 级别 | 经验 | 能力 |
|------|------|---------|
| **初级AI PM** | 0-2年 | Prompt工程基础、AI评测执行、AI功能PRD撰写 |
| **中级AI PM** | 2-5年 | RAG/Agent方案设计、Golden Dataset构建、AI UX设计 |
| **高级AI PM** | 5-8年 | 模型选型决策、AI产品策略、安全体系设计、AI商业化 |
| **AI产品总监** | 8-12年 | AI产品组合、Build/Buy决策、AI团队建设 |
| **Chief AI Officer** | 12年+ | 公司AI战略、AI治理、AI文化、AI投资组合 |

### AI PM必备技术知识清单

```
必须理解（能与ML工程师有效对话）：
□ LLM工作原理（Transformer/注意力机制/Token）
□ Prompt Engineering进阶（CoT/ReAct/Few-Shot）
□ RAG架构（分块/检索/重排序/评测）
□ Agent架构（工具调用/记忆/规划/HITL）
□ 模型评测方法（Golden Dataset/LLM-as-Judge/A/B测试）
□ Token经济学（成本估算/模型路由/缓存策略）
□ AI安全基础（注入/越狱/护栏/红队测试）

加分项：
□ 微调基础（SFT/RLHF/DPO/LoRA）
□ MLOps与AI可观测性
□ GPU经济学与推理优化
□ AI治理与合规（EU AI Act/中国管理办法）
□ 多模态AI基础
```

---

## 文档工场

### AI产品专业文档

| 文档 | 读者 | 详细模板 |
|------|------|---------|
| **AI产品PRD** | 开发/ML团队 | `refs/templates/ai-prd-template.md` |
| **AI策略文档** | 管理层/投资人 | `refs/templates/ai-strategy-template.md` |
| **RAG设计文档** | ML/后端团队 | `refs/templates/rag-design-template.md` |
| **Agent设计文档** | ML/后端团队 | `refs/templates/agent-design-template.md` |
| **Prompt工程文档** | 产品/ML团队 | `refs/templates/prompt-engineering-template.md` |
| **AI评测方案** | 产品/QA/ML | `refs/templates/ai-evaluation-template.md` |
| **AI安全方案** | 安全/法务/ML | `refs/templates/ai-safety-template.md` |
| **AI产品定价方案** | 管理层/财务 | `refs/templates/ai-pricing-template.md` |
| **AI竞品分析** | 产品/市场 | `refs/templates/ai-competitive-template.md` |

---

## 图表工场

### AI PM必画图表

| # | 图表类型 | 用途 | 工具 |
|---|---------|------|------|
| 1 | **RAG架构图** | RAG流水线全貌 | drawio-skill |
| 2 | **Agent架构图** | Agent/多Agent系统 | drawio-skill |
| 3 | **模型路由流程图** | 多模型路由决策 | drawio-skill |
| 4 | **AI评测流水线图** | 评测流程+数据流 | drawio-skill |
| 5 | **安全护栏分层图** | 多层安全防护 | drawio-skill |
| 6 | **数据飞轮图** | 用户→数据→AI改善循环 | excalidraw-diagram |
| 7 | **AI产品全栈架构图** | 产品技术架构 | drawio-generator-pro |

---

## 原型工场

```
"生成一个AI客服机器人的HTML原型"
→ 对话界面 + 置信度展示 + 引用来源 + 人工转接 + 空状态引导

"生成一个AI合同审查工具的HTML原型"  
→ 上传合同 → AI标注风险条款 → 用户确认/修改 → 导出报告

"生成一个AI数据分析Agent的HTML原型"
→ 自然语言输入 → Agent思考步骤展示 → 可视化结果 → 下载分享
```

---

## AI治理与合规

### 全球AI监管全景

#### EU AI Act（分阶段实施）

| 风险等级 | 要求 | 产品示例 |
|---------|------|---------|
| **不可接受** | 完全禁止 | 社会信用评分、实时远程生物识别 |
| **高风险** | 合规评估+人工监督+透明度+EU注册 | 医疗AI、招聘AI、信贷审批 |
| **有限风险** | 告知用户"你在与AI交互" | Chatbot、AI生成内容 |
| **最低风险** | 无额外义务 | AI滤镜、AI推荐 |

**"部署者陷阱"：** 使用第三方AI API的企业也可能承担义务。

#### 中国AI监管体系

| 法规 | 要求 |
|------|---------|
| **生成式AI服务管理办法** | 安全评估+算法备案+内容审核+训练数据合规 |
| **深度合成管理规定** | 合成内容标识+用户实名+审核机制 |
| **个人信息保护法** | 训练数据中PII合规 |
| **算法推荐管理规定** | 算法备案+用户知情权+退出机制 |

**中国AI"三重注册"：** 算法备案 → AI安全评估 → 内容安全审核

---

## AI产品反模式大全（25个常见错误）

### 策略类

| # | 反模式 | 正确做法 |
|---|--------|---------|
| 1 | **"先把AI塞进去"** — 为了AI而AI | 先问AI是否真正解决问题 |
| 2 | **在模型层与OpenAI竞争** | 在应用层构建专有数据和体验护城河 |
| 3 | **忽略数据飞轮** | Day 1设计隐式反馈收集机制 |
| 4 | **追求SOTA而非够用** | 模型路由：简单→小模型，复杂→大模型 |
| 5 | **"AI会自己优化"** | 建立评测→分析→优化的持续闭环 |

### 技术类

| # | 反模式 | 正确做法 |
|---|--------|---------|
| 6 | **默认一切用Agent** | 先简单LLM调用评估，不够再升级 |
| 7 | **忽视Token成本** | Day 1监控每次交互的推理成本 |
| 8 | **上下文窗口滥用** | 精选上下文，而非堆砌一切 |
| 9 | **RAG只做向量检索** | BM25+向量+Reranker是生产基准 |
| 10 | **评测集是PM自编的** | 从真实用户Query采样构建 |

### UX类

| # | 反模式 | 正确做法 |
|---|--------|---------|
| 11 | **黑盒AI** — 不展示推理过程 | 展示推理步骤+引用来源 |
| 12 | **无退路设计** | 始终保留手动操作路径 |
| 13 | **假装100%确定** | 不确定时展示置信度 |
| 14 | **AI频繁打断用户** | 被动辅助而非主动打断 |
| 15 | **忽略加载体验** | 流式输出+进度提示+骨架屏 |

### 安全类

| # | 反模式 | 正确做法 |
|---|--------|---------|
| 16 | **"先上线，安全再说"** | 至少部署基础输入/输出护栏 |
| 17 | **不告知用户是AI** | 清晰标识AI身份 |
| 18 | **无红队测试就发布** | 至少内部红队测试后再上线 |
| 19 | **忽视低资源语言安全** | 测试所有支持语言的越狱风险 |
| 20 | **没有紧急熔断** | 一键停止所有AI功能 |

### 商业化类

| # | 反模式 | 正确做法 |
|---|--------|---------|
| 21 | **按席位定价卖AI** | 混合模式（基础费+用量） |
| 22 | **无限免费AI使用** | 免费层设置严格用量上限 |
| 23 | **不追踪用户级成本** | 每个用户的投入产出必须清楚 |
| 24 | **低估价格战** | Token价格每年降10x，护城河是数据和体验 |
| 25 | **AI毛利率 < 50%** | 保持60%+ AI毛利率 |

---

## 世界级AI PM框架库

### Shreyas Doshi的产品感（AI时代版）

```
AI时代，产品感(Product Sense)是唯一不可替代的能力。

支柱：
1. 认知同理心 — 看透用户不理性行为背后的人性需求
   AI是"情感色盲"：理解数据，但不理解人心
2. 审美与品味 — 感知交互是否"对"的敏锐直觉
   AI能生成一万方案，但不能告诉你哪个让用户有生理共振
3. 商业直觉 — 瞬间看透任何事物背后的价值交换模型
   AI在极端商业模糊中缺乏正确决策能力
```

### Chip Huyen的AI Engineering框架

```
1. 评测驱动开发(Eval-Driven Development)
   → 先建评测集，再写Prompt。评测是导航仪，不是检查点

2. RAG是默认选择，不是最后手段
   → 大多数B端AI产品从RAG开始

3. 从简单开始，渐进复杂
   简单LLM → +RAG → +工具 → +Agent → +多Agent
   不要跳级！每一级验证通过再升级

4. 系统思维而非模型思维
   优秀AI产品 = 模型(30%)+上下文工程(25%)+评测(20%)+安全(15%)+UX(10%)
```

### Marily Nika的AI PM三支柱（Google）

```
"所有PM都将成为AI PM"

1. 技术素养不可协商 — 不需写代码，但必须理解ML概念
2. 从"翻译者"到"建造者" — 自己用AI工具原型化、测试、迭代
3. 伦理AI素养 — 偏见检测、数据隐私、内容安全是AI PM的基本功
```

---

## 最后的提醒

> **AI产品经理的终极心法（12条铁律）：**
>
> 1. **AI是工具不是魔法** — 从窄场景开始，用数据建护城河
> 2. **模型会商品化，数据和体验不会** — 护城河是专有数据和独特体验
> 3. **评测是一切的基础** — 没有评测就没有AI产品迭代
> 4. **信任是AI产品的货币** — 丢失一次，需要10次完美表现挽回
> 5. **Token成本 = 你的COGS** — 不追踪成本的产品是盲目的
> 6. **安全不是功能，是基础设施** — Day 1设计安全，而非事后补救
> 7. **渐进式信任 > 一次性释放** — 从低风险功能开始
> 8. **人类始终在Loop中** — 不要让AI做它无法负责的决定
> 9. **简单 > 炫酷** — 一个精准的分类模型可能比一个幻觉不断的Agent更有价值
> 10. **Prompt是AI产品的UI** — 善待Prompt，像对待产品界面一样迭代
> 11. **数据飞轮 > 模型能力** — 专有数据积累不会自动发生
> 12. **你是AI产品的CEO** — 不是"模型API的包装者"，对用户的AI体验负全责

---

> **开始使用：直接告诉我你要做什么，Skill自动匹配阶段、方法论、工具链。**
> 无论你是传统PM转型AI，还是AI领域新手，这个Skill都是你的AI PM超级助理。

---

## 工具集成总表

| 任务 | 首选工具 | 备选 |
|------|---------|------|
| 画AI架构图 | `drawio-skill` | `drawio-coderknock` |
| 画数据飞轮/旅程图 | `excalidraw-diagram` | - |
| 生成AI产品原型 | 直接生成HTML (Tailwind+Alpine.js) | - |
| 写AI PRD/策略文档 | 直接生成Markdown | `word-docx` |
| 做AI策略PPT | `pptx-2` | `deck-generator` |
| 构建评测数据集 | `xlsx` | - |
| Prompt版本对比 | Git (Markdown) | - |

---

## 使用示例

### 示例1：从0到1设计AI客服产品

```
用户：帮我设计一个AI客服机器人产品

产出：
- 阶段1：AI机会评估（客服场景AI可行性+D×V×F评分）
- 阶段3：模型选型（推荐GPT-4o/Gemini Flash分层路由）
- 阶段4：System Prompt + Few-Shot示例设计
- 阶段5：RAG设计（知识库分块+混合检索策略）
- 阶段8：AI UX原型（对话界面+置信度+转人工）
- 阶段9：评测方案（Golden Dataset + RAGAS指标）
- 阶段10：安全护栏（越狱防护+内容审核）
- 阶段12：定价方案（基础月费+按对话量超额计费）
```

### 示例2：现有CRM加AI合同审查

```
用户：给我的CRM加AI合同审查功能

产出：
- 阶段1：AI可行性评估（合同审查的任务特性判断）
- 阶段3：模型选型（推荐Claude Sonnet+长上下文窗口）
- 阶段4：Prompt设计（法务专家System Prompt+条款审查指令）
- 阶段8：AI UX设计（上传→AI标注风险→人确认→生成审查报告）
- 阶段9：评测方案（合同审查准确率Golden Dataset）
- 阶段10：HITL设计（高风险条款AI建议→法务确认）
```

---

> **开始使用：直接告诉我你要做什么，AI PM Skill自动匹配阶段、方法论、工具链。**

---

## 附录A：Embedding模型选型深度指南

> Embedding是RAG的基石。选错Embedding模型，再好的检索策略也白费。

### 主流Embedding模型对比

| 模型 | 维度 | 最大输入 | MTEB中文 | 成本/1M tokens | 最佳场景 |
|------|------|---------|---------|---------------|---------|
| text-embedding-3-large (OpenAI) | 3072/256/1024 | 8191 | 中 | $0.13 | 英文、多语言 |
| text-embedding-3-small | 1536/512 | 8191 | 中低 | $0.02 | 成本敏感英文 |
| bge-large-zh-v1.5 (BAAI) | 1024 | 512 | ⭐⭐⭐⭐⭐ | 开源免费 | 中文场景首选 |
| bge-m3 (BAAI) | 1024 | 8192 | ⭐⭐⭐⭐⭐ | 开源免费 | 多语言+长文档 |
| stella-base-zh-v3-1792d | 1792 | 512 | ⭐⭐⭐⭐ | 开源免费 | 高精度中文检索 |
| multilingual-e5-large | 1024 | 512 | ⭐⭐⭐⭐ | 开源免费 | 多语言混合 |
| jina-embeddings-v3 | 1024 | 8192 | ⭐⭐⭐⭐ | 付费API | 长文档+多语言 |

### 选型决策树

```
1. 主要语言？
   ├── 中文为主 → bge-large-zh-v1.5 或 stella-base-zh
   ├── 英文为主 → text-embedding-3-large
   ├── 多语言混合 → bge-m3 或 multilingual-e5-large
   └── 需要私有化部署 → bge系列（开源）

2. 文档长度？
   ├── 短文(<512 tokens) → bge-large-zh-v1.5
   ├── 长文(512-8192) → bge-m3 或 jina-embeddings-v3
   └── 超长文(>8192) → 先分块再嵌入

3. 维度偏好？
   ├── 精度优先(>1024维) → text-embedding-3-large(3072) 或 stella(1792)
   ├── 速度优先(768维) → bge-base-zh-v1.5
   └── 存储优先(<512维) → text-embedding-3-small(512)
```

### Embedding质量检查清单

```
□ 同义词召回测试："合同到期"能召回"协议终止"吗？
□ 多意词区分测试："苹果"在科技和水果语境下区分正确吗？
□ 否定语义测试："不包含XX"的检索结果包含XX吗？
□ 跨语言测试：中文query能检索英文文档吗？（如需要）
□ 长文档测试：512+ tokens文档的嵌入质量是否下降？
□ 领域术语测试：行业专有名词的检索效果如何？
```

---

## 附录B：向量数据库选型决策矩阵

### 主流向量数据库对比

| 数据库 | 类型 | 规模上限 | 性能 | 运维复杂度 | 最佳场景 |
|--------|------|---------|------|-----------|---------|
| **pgvector** | PostgreSQL扩展 | <100万向量 | 中 | 低 | 已有PG、向量量不大 |
| **Milvus** | 专有向量数据库 | >10亿 | ⭐⭐⭐⭐⭐ | 高 | 大规模生产环境 |
| **Qdrant** | 专有向量数据库 | >1亿 | ⭐⭐⭐⭐ | 中 | 中等规模、性能好 |
| **Weaviate** | 专有向量数据库 | >1亿 | ⭐⭐⭐⭐ | 中 | 需要内置模块（文本/图片） |
| **Pinecone** | 云服务 | >10亿 | ⭐⭐⭐⭐ | 极低 | 不想自运维 |
| **Chroma** | 轻量嵌入式 | <10万 | 低 | 极低 | 原型/开发环境 |
| **ElasticSearch** | 搜索引擎+向量 | >1亿 | ⭐⭐⭐ | 中高 | 已有ES基础设施 |

### 选型决策

```
向量量 < 10万 + 快速原型 → Chroma（零运维）
向量量 10万-100万 + 已有PG → pgvector（零额外成本）
向量量 100万-1亿 + 中小团队 → Qdrant 或 Weaviate
向量量 > 1亿 + 企业级 → Milvus（分布式扩展）
不想自运维 + 预算充足 → Pinecone
已有ES + 需要混合检索 → ElasticSearch
```

### 生产环境关键考量

| 考量点 | 问题 |
|--------|---------|
| 高可用 | 支持主从复制吗？故障切换时间？ |
| 备份恢复 | 增量备份？全量恢复时间？ |
| 多租户 | Partition/Collection级别隔离？RBAC？ |
| 混合查询 | 向量+标量过滤的性能？标量索引？ |
| 成本 | 存储成本/TB？查询成本/1M次？ |

---

## 附录C：RAG分块策略深度指南

### 分块方式对比

| 分块方式 | 原理 | 优点 | 缺点 | 最佳场景 |
|---------|------|------|------|---------|
| **固定大小** | 按Token数切分（如512 tokens） | 简单、可控、可预测 | 切断语义 | 初始方案、统一文档 |
| **按段落** | 按自然段落切分 | 语义完整 | 长度不均匀 | 结构清晰的文档 |
| **按标题层级** | 按H1/H2/H3层级切分 | 保留上下文层级 | 实现复杂 | 技术文档/帮助文档 |
| **语义分块** | 用LLM判断合适的切分点 | 语义最优 | 成本高、慢 | 高质量要求的场景 |
| **混合分块** | 按段落+固定大小兜底 | 兼顾语义和可控 | 规则复杂 | 生产环境推荐 |
| **句子窗口** | 按句子切分+窗口上下文 | 细粒度检索 | 存储大 | 需要精确定位的场景 |

### 分块大小选择指南

```
256 tokens:
  → 优点：检索精准、延迟低
  → 缺点：上下文不完整、易截断语义
  → 适用：FAQ、简短回答

512 tokens:
  → 优点：平衡精度和完整性 ← 推荐起点
  → 适用：大多数RAG场景

1024 tokens:
  → 优点：上下文更完整
  → 缺点：检索可能带回无关内容
  → 适用：复杂文档、技术手册

2048+ tokens:
  → 优点：长段落不截断
  → 缺点：信噪比低
  → 适用：法律文档、学术论文
```

### 分块优化实战

```
优化循环：
1. 用当前分块策略跑检索
2. 收集Bad Case（检索到不相关 / 没检索到相关）
3. 分析根因：
   - 语义被截断 → 增大分块或加重叠
   - 噪声太多 → 减小分块或增加Reranker
   - 标题信息丢失 → 在每块前加文档标题
4. 调整策略 → 重新评测 → 对比RAGAS指标
5. 重复直到满意

技巧：
- 每个Chunk添加元数据前缀：[文档标题] | [章节] | [更新日期]
- 小Chunk + 大上下文窗口：用小Chunk检索 + 带回相邻Chunk
- 层级索引：先检索文档 → 再在该文档内检索具体段落
```

---

## 附录D：Agent工具设计模式与实践

### 工具设计5原则

```
1. 单一职责：一个工具只做一件事
   ❌ “query_database” — 太泛
   ✅ “query_order_info” / “query_member_points” — 具体

2. 自描述性：工具名+描述让LLM一次就理解
   ✅ 工具名: cancel_order
   ✅ 描述: 取消指定订单，需订单号和取消原因，返回取消状态

3. 可验证输出：返回结构化结果，便于LLM判断是否成功
   ✅ {status: "success", data: {...}, error: null}
   ❌ "订单似乎取消了"（LLM需要猜）

4. 幂等性：同样输入多次调用结果一致（特别是修改类工具）
   ✅ 创建订单：用idempotency_key防重复
   ✅ 取消订单：已取消的订单返回“已取消”而非报错

5. 错误友好：错误信息要有足够上下文让LLM决定下一步
   ✅ {error: "订单ORD123未找到，可能是订单号错误或订单不属于当前用户"}
   ❌ {error: "not found"}
```

### 工具数量管理

| Agent类型 | 推荐工具数 | 理由 |
|-----------|----------|------|
| 简单Agent | 3-5个 | 减少混淆 |
| 标准Agent | 5-10个 | 覆盖能力 |
| 复杂Agent | 10-20个 | 多领域 |
| 超级Agent | 20-50个 | 需工具分组+动态加载 |

**工具太多怎么办？**
- 工具分组：按领域分组（订单相关、会员相关、知识库相关）
- 动态加载：Agent先判断意图 → 只加载相关工具组
- 工具命名规范：`domain_action_object`（如 `order_query_status`）

### 工具调用常见问题

| 问题 | 表现 | 解决 |
|------|------|------|
| 幻觉调用 | 调用不存在的工具 | 工具描述中加"仅使用提供的工具" |
| 参数幻觉 | 编造参数值 | 要求Agent从用户输入/前序结果中提取参数 |
| 循环调用 | 重复调用同一工具 | 设置最大重试次数(3次) |
| 过早放弃 | 一次失败就放弃 | 工具返回中给出重试建议 |
| 权限错误 | 调用无权限的工具 | 工具定义中包含权限要求说明 |

---

## 附录E：AI团队结构与角色

### AI产品团队典型配置

```
AI产品团队（10-30人）:

├── AI产品经理(1-2人)
│   └── 负责：AI策略/模型选型/Prompt设计/评测体系/AI UX
│
├── ML工程师(2-4人)
│   ├── 负责：模型微调/评测流水线/模型路由/RAG实现
│   └── 对齐：模型能力边界、微调数据需求、评测指标
│
├── 后端工程师(2-4人)
│   ├── 负责：API/向量数据库/Agent工具/知识库摄入管道
│   └── 对齐：API设计、数据模型、性能要求
│
├── AI安全工程师(1人)
│   ├── 负责：护栏/红队测试/内容审核/合规
│   └── 对齐：风险矩阵、安全发布标准
│
├── Prompt工程师/内容设计师(1人)
│   ├── 负责：System Prompt/Few-Shot库/输出质量优化
│   └── 对齐：品牌语调、内容规范、用户反馈
│
├── 数据标注/评测专员(1-2人)
│   ├── 负责：Golden Dataset维护/人工评测/Bad Case分析
│   └── 对齐：评测标准、标注规范、数据质量
│
└── AI UX设计师(1人)
    ├── 负责：AI交互模式/信任设计/原型/用户研究
    └── 对齐：交互原则、信任建立路线图
```

### PM与ML工程师的高效协作

```
PM不应做的：
❌ "这个模型不够好，能不能让它更准一点？"（太模糊）
❌ "我看论文说XX模型SOTA最高，我们用那个吧"（只看Benchmark）
❌ "为什么回答不了这个？你是AI啊"（不理解能力边界）

PM应该做的：
✅ "在这个50条测试集中，模型在退款政策类问题的准确率是70%，
   主要失败模式是...我建议从XX方向优化"（具体+数据+建议）
✅ "这个场景我们的延迟预算只有500ms，
   这三个模型中哪个能满足？准确率能到多少？"（约束+权衡）
✅ "用户反馈AI回答太啰嗦，这是5个Bad Case，
   我们可以调整Prompt还是需要微调？"（问题+证据+选项）
```

---

## 附录F：AI产品开发节奏与里程碑

### AI产品0→1的6个里程碑

```
M1: 问题验证（1-2周）
  目标：确认AI是正确方案
  产出：AI机会评估（含评分矩阵）
  检查：评分≥3.5？数据可获取？

M2: Prompt原型（2-4周）
  目标：用Prompt证明可行性
  产出：System Prompt V1 + 50条测试结果
  检查：场景准确率 >70%？

M3: RAG MVP（4-8周）
  目标：知识库检索+生成的最小闭环
  产出：基础RAG管道 + 100条评测基线
  检查：RAGAS Faithfulness >0.80？

M4: Alpha内测（2-4周）
  目标：内部团队日常使用
  产出：Alpha使用反馈 + Bad Case日志
  检查：内测用户满意度 >3.5/5？

M5: Beta外测（4-8周）
  目标：友好客户真实使用
  产出：Beta评测报告 + 改进清单
  检查：付费意愿 >50%？NPS >30？

M6: GA正式发布（2-4周）
  目标：公开商用
  产出：产品上线 + 安全护栏就绪 + 监控就绪
  检查：安全检查清单全部通过？
```

### AI产品迭代节奏

| 迭代类型 | 频率 | 内容 |
|---------|------|------|
| Prompt优化 | 每周 | 基于Bad Case微调Prompt |
| RAG优化 | 每2周 | 分块策略/检索参数调优 |
| 模型升级评估 | 每季度 | 新模型评测+迁移评估 |
| 微调迭代 | 每季度 | 用新标注数据更新微调 |
| 安全审查 | 每月 | 安全指标Review+红队抽查 |
| Golden Dataset更新 | 每月 | 补充新Query，淘汰过时Query |

---

## 附录G：AI成本优化实战手册

### 成本优化的4个阶段

```
阶段1：监控透明（Day 1）
□ 每次AI调用的Token消耗都记录
□ 按功能/按用户/按模型的成本拆分
□ 免费用户 vs 付费用户的成本对比
□ 建立成本Dashboard

阶段2：低垂果实（第1个月）
□ Prompt精简（去除冗余指令）-节省10-20%
□ 输出Token限制（max_tokens）-节省5-15%
□ 相同Query结果缓存 -节省20-40%
□ 常见FAQ预生成+缓存 -节省30-50%

阶段3：架构优化（第2-3个月）
□ 模型路由（简单→小模型）-节省40-60%
□ 语义缓存（相似Query复用）-节省20-40%
□ 批量处理（非实时场景）-节省20-50%

阶段4：深度优化（第4-6个月）
□ 微调小模型替代大模型 -节省50-80%
□ 自定义推理基础设施 -节省30-60%
□ 私有化部署开源模型 -TCO优化
```

### 成本异常检测规则

```
告警触发条件：
□ 单用户日成本 > 昨日200%
□ 单用户日成本 > 全量P99
□ 免费用户日成本 > $1
□ 模型路由中大模型占比 > 40%（检查路由是否失效）
□ 缓存命中率 < 30%（检查缓存是否失效）
□ AI毛利率 < 50%（检查成本结构）
```

---

## 附录H：AI PM日常实战场景

### 场景1：Prompt调试

```
工作流：
1. 发现Bad Case（用户投诉/评测不合格/自己发现）
2. 分析：是Prompt问题？检索问题？模型能力问题？
3. 如果是Prompt问题 → 定位具体哪句话有问题
4. 修改Prompt → 在Bad Case上测试
5. 在全部Golden Dataset上回归测试
6. 评测对比报告 → 通过 → 灰度上线

技巧：
- 先加Few-Shot（最快见效）
- 再改约束语句（"你必须..." / "你不能..."）
- 最后改角色描述（影响最小）
- 每次只改一处，A/B对比
```

### 场景2：模型升级评估

```
当上游模型升级时（如Claude Sonnet 3.5→4）：
1. 用现有Golden Dataset跑新旧模型对比
2. 重点观察：
   - 哪些场景提升了？（不需要关注）
   - 哪些场景退步了？（需要重点关注！）
   - 成本变化（新模型通常更贵）
   - 延迟变化
3. 退步场景深度分析 → 可能需要调整Prompt
4. 成本-收益分析 → 决定是否迁移
5. 如果迁移：5%→25%→100%灰度
```

### 场景3：用户说"AI不够智能"

```
用户的"不够智能"可能意味着：
├── 没理解他的意思 → Query改写/澄清机制
├── 回答太泛 → 检索不够精准 / 缺少用户画像
├── 回答错误 → 知识库过时 / 幻觉 / 模型能力不够
├── 格式不对 → Prompt输出格式约束不够
├── 回答太慢 → 模型太大 / 没有流式输出
├── 缺少引用 → RAG没有返回来源
├── 语气不自然 → Prompt角色描述需要调整
└── 没有记住上下文 → 对话历史管理问题

诊断流程：
1. 看实际对话日志（不要只看用户报告）
2. 自己复现问题
3. 定位到具体环节
4. 对症下药，而非笼统"优化AI"
```

---

## 附录I：AI产品技术雷达

### 2025-2026值得关注的AI技术趋势

| 技术 | 成熟度 | 对PM的影响 | 行动建议 |
|------|--------|-----------|---------|
| **长上下文窗口(1M+)** | 已可用 | 可能简化RAG设计 | 评估长上下文 vs RAG的ROI |
| **多模态(视觉+语音)** | 快速成熟 | 扩大产品场景 | 思考多模态能解锁的场景 |
| **AI Agent标准化** | 早期 | Agent会像API一样普及 | 关注MCP/A2A等Agent协议 |
| **小模型(SLM)爆发** | 进行中 | 端侧+低成本推理 | 评估小模型在特定场景的可行性 |
| **AI代码生成** | 主流 | 改变软件开发方式 | 用AI工具加速原型验证 |
| **实时AI(语音/视频)** | 快速成熟 | 语音Agent成为新入口 | 评估语音交互的适用场景 |
| **AI安全自动化** | 早期 | 降低安全运维成本 | 关注自动红队测试工具 |
| **RAG 2.0** | 早期 | GraphRAG/Agentic RAG成熟 | 在复杂场景中尝试新模式 |

### 技术趋势对产品策略的影响

```
趋势1：模型商品化加速
→ 护城河不在模型选择，在数据飞轮和用户体验
→ 设计可切换模型的架构（不要绑死一家）

趋势2：推理成本快速下降
→ AI能解锁的场景越来越多
→ 但也意味着竞品能快速复制你的AI功能
→ 差异化在专有数据和深度集成

趋势3：Agent从Demo到生产
→ 2025-2026是Agent从实验到生产的关键年
→ Agent的可靠性、安全、成本仍是大挑战
→ PM需要思考：用户真的需要Agent吗？还是更好的UI？

趋势4：AI从"用"到"做"
→ AI从辅助工具→自主完成工作
→ Sequoia: Service-as-a-Software
→ PM的思考：你的产品是帮用户做，还是替用户做？
```

---

## 版本历史

| 版本 | 日期 | 变更说明 |
|------|------|----------|
| V1.1.0 | 2026-06-16 | 深度升级：新增 AI Agent四大设计模式+五大架构模式、多Agent协作模式、Agentic RAG架构设计、RAG技术选型全栈指南、EU AI Act合规深度指南、中国生成式AI监管体系、AI评测Evals体系、大模型产业链四层全景、2026年AI行业十大趋势。统一版权声明+免责声明。基于四轮深度研究（Andrew Ng/Microsoft GraphRAG/EU AI Act/中国网信办/OpenAI/LangChain等权威来源） |
| V1.0 | 2026-06-02 | 初始版本，覆盖12阶段+AI PM全栈能力 |

---

## 版权声明

> **Author**: yinjianheng（殷健恒）
> **Contact**: email: yinjianheng@foxmail.com / wechat: YJH-yinjianheng
> **License**: 免费开源，仅供个人使用

---

**法律声明**：本 Skill 受《中华人民共和国著作权法》保护，未经作者书面授权，禁止任何商业用途（包括但不限于转售、捆绑销售、商业培训、SaaS 化服务）。侵权必究 —— 已委托专业知识产权律师团队全网监测，一经发现侵权行为将依法追究全部法律责任。

## 免责声明

1. **非专业建议**：本 Skill 提供的内容仅供学习和参考，不构成任何形式的专业建议。用户在做出业务或技术决策前，应咨询具备相应资质的专业人士。

2. **信息准确性**：不保证所有信息的完整性、准确性或适用性，用户应独立验证关键信息。

3. **责任限制**：在法律允许的最大范围内，作者不对因使用或依赖本 Skill 内容而产生的任何损失承担责任。

4. **第三方内容**：引用的第三方框架、方法论、工具和标准版权归各自权利人所有。

5. **使用合规**：用户应确保使用符合所在国家/地区的法律法规和行业标准。
## 温馨提示

> 💡 **每一次产品决策，都定义着用户与AI的关系。**
> 技术要扎实，体验要流畅，合规要到位——这些底线不能破。
> 产品做得再好，不如早点下班，多陪陪在乎的人。
> —— yinjianheng（殷健恒）
related skills

semantically similar in the cross-vendor index
clawhub
79% match
Mktclaw
营销虾 (MktClaw) — Demand-to-Delivery AI Agency. 直接扮演 10 种代理商角色交付品牌方案/Campaign/投放策略/直播脚本/危机应对。务必在用户提到品牌规划、Campaign、营销方案、投放策略、KOL、直播、危机公关、舆情应对等需求时触发，即使没明确说'agency'。
don't have the plugin yet? install it then click "run inline in claude" again.