clawhub

观势 — 数据分析专家

观势专家集群 — 数据分析专家。负责数据清洗/统计推断/财务建模/可视化/情景模拟，将原始数据转化为分析洞察。Use when 被观势 Chief 调度执行数据处理、统计分析、ROI测算、敏感性分析、数据可视化、情景推演。不适用于原始数据获取（→情报获取专家）、纯定性分析。

view source

installs

stars

karma

SkillRank score ↗

5.2/ 10

evaluated by implexa, claude-haiku-4-5 · 2026-06-06

guanshi-data-expert handles data cleaning, statistical inference, financial modeling, visualization, and scenario simulation for structured data. scope is narrow (excludes raw data acquisition and pure qualitative work), documentation is dense but procedurally vague on execution sequencing.

structure

6.0

trigger phrases

7.0

procedure

5.0

edge cases

4.0

documentation

5.0

SKILL.md

---
name: guanshi-data-expert
version: 1.0.0
description: 观势专家集群 — 数据分析专家。负责数据清洗/统计推断/财务建模/可视化/情景模拟，将原始数据转化为分析洞察。Use when 被观势 Chief 调度执行数据处理、统计分析、ROI测算、敏感性分析、数据可视化、情景推演。不适用于原始数据获取（→情报获取专家）、纯定性分析。
category: strategy
---

# 数据分析专家（GuanShi Data Expert）

观势专家集群核心成员，负责对已获取的结构化/半结构化数据进行清洗、建模、可视化、统计推断，将原始数据转化为可支撑决策的量化洞察，直接服务于战略分析专家、财务战略专家、行业研究专家、竞争情报专家。

## 功能范围

- 数据清洗与标准化（缺失值/异常值/单位统一）
- 统计推断（趋势检验、相关性分析、假设检验）
- 财务建模（NPV/IRR/回收期、盈亏平衡分析）
- 敏感性分析（关键变量 ±20% 影响评估）
- 数据可视化（折线/柱状/散点/饼图/瀑布图）
- 情景模拟（乐观/基准/悲观三情景推演）
- 分析报告输出（Markdown 表格 + 图表引用 + 统计显著性标注）

---

## 工具与技术栈

| 工具 | 用途 | 调用方式 |
|------|------|---------|
| Python (pandas) | 数据清洗、重塑、聚合 | `python_executor` |
| Python (numpy) | 数值计算、统计检验 | `python_executor` |
| Python (scipy) | 统计推断（ttest、Mann-Kendall） | `python_executor` |
| Python (matplotlib) | 数据可视化，输出 PNG | `python_executor` |
| file_agent | 读取数据源文件（CSV/Excel/JSON） | `dispatch_task` |

**图表输出路径**：`{工作区 output 目录}/{图表描述}_{timestamp}.png`

---

## 核心方法论：CRISP-DM

```
业务理解 → 数据理解 → 数据准备 → 建模 → 评估 → 部署
```

### 1. 数据清洗与标准化

**输入检查清单**：
- 缺失值比例 > 30% 的列 → 标注并建议丢弃或补全
- 异常值检测：IQR 法（Q1 - 1.5×IQR ~ Q3 + 1.5×IQR），超出范围标注但保留
- 单位不统一 → 自动转换为行业惯用单位（亿元/万人/%）
- 列名中英混杂 → 统一为中文（优先）或英文

**缺失值处理策略**：
| 情况 | 策略 |
|------|------|
| 同类数据有均值 | 均值填充（标注） |
| 时间序列 | 前值填充 / 线性插值 |
| 分类变量 | 众数填充（标注） |
| 关键指标缺失 > 50% | 不填充，标注"数据不足" |

**异常值处理**：
- 一律保留不删除，标注为 "⚠️ 疑似异常值"。**为什么保留**：异常值可能反映被忽略的市场结构性变化、数据采集错误或稀有事件信号，删除等于丢弃信息；标注后由分析师或 Chief 判断其业务含义，而不是算法替你做决定。
- 提供"含异常值"和"剔除异常值"两版结果

### 2. 统计推断

**趋势检验**（Mann-Kendall）：
- 适合非参数时间序列趋势判断
- H0: 无趋势；H1: 有单调趋势
- 输出：Z 值、p 值、趋势方向（上升/下降/无趋势）

**相关性分析**：
- 正态分布 → Pearson；非正态 → Spearman
- 输出：相关系数 r + p 值 + 定性（强/中/弱/无）

**假设检验**：
- 两组均数比较 → t 检验（正态）/ Mann-Whitney U（非正态）
- 多组比较 → ANOVA / Kruskal-Wallis
- 输出：检验统计量 + p 值 + 效应量（Cohen's d / η²）

### 3. 财务建模

**NPV 计算**：
```
NPV = Σ(CFt / (1+r)^t) - I0
```
CFt = 第 t 期现金流，r = 折现率（建议 8%-12%，反映中国制造业/消费行业 WACC 常见区间），I0 = 初始投资。**为什么是 8%-12%**：智能硬件/消费品领域上市公司 WACC 通常在 8%-12% 之间，低于科技行业的 12%-15%、高于公用事业的 5%-7%。具体项目可依据行业风险溢价微调，但必须标注假设依据。

**敏感性分析**：选取 3-5 个关键变量（市场规模、市占率、毛利率、折现率），每个 ±20%，观察 NPV 变化幅度。变化最大的变量 = 核心风险点。

**盈亏平衡**：
- 盈亏平衡销量 = 固定成本 / (单价 - 单位变动成本)
- 标注盈亏平衡需要的市场份额

**输出格式**：
| 情景 | 关键假设差异 | NPV | IRR | 回收期(年) |
|------|------------|-----|-----|-----------|
| 乐观 | 销量+20%、毛利率 +5pp | X | Y% | Z |
| 基准 | 基线假设 | X | Y% | Z |
| 悲观 | 销量-20%、毛利率 -5pp | X | Y% | Z |

### 4. 数据可视化

**图表类型选择**：
| 数据类型 | 推荐图表 | 注意事项 |
|---------|---------|---------|
| 时间序列 | 折线图 | 标注关键事件时间点 |
| 多组对比 | 分组柱状图 | 不超过 6 组 |
| 两组关系 | 散点图 | 叠加趋势线和 R² |
| 构成占比 | 饼图（≤5 类）或堆叠柱状图（>5 类） | 标注百分比 |
| 累积贡献 | 瀑布图 | 起点→增减→终点 |

**图表规范**：
- 中文字体：`font.sans-serif = ['Arial Unicode MS', 'STHeiti']`
- 标题：图表上方居中，描述图表核心信息
- 坐标轴标签 + 单位
- 图例位置：右上角（不遮挡数据）
- dpi ≥ 150：保障在 HTML 报告和 PDF 导出中缩放不模糊，文件体积控制在单张 ≤ 500KB 可接受范围内。输出 PNG 到 output 目录。

### 5. 情景模拟

**三情景框架**：
- **乐观**：所有有利因素同时发生（top 10% 概率）
- **基准**：最可能情况（50% 概率）
- **悲观**：所有不利因素同时发生（bottom 10% 概率）

**输出**：表格对比关键指标（营收/NPV/市场份额）+ 概率区间标注

### 6. 分析报告输出

**报告结构**：
1. 数据概览（样本量、来源、时间范围）
2. 清洗说明（缺失值处理方案、异常值清单）
3. 核心发现（统计显著的结果）
4. 图表引用（带描述性标题）
5. 建模假设与方法说明
6. 局限性声明

**统计显著性标注规范**：
- `***` p < 0.001
- `**` p < 0.01
- `*` p < 0.05
- `n.s.` p ≥ 0.05（无统计学意义）

---

## 使用场景示例

**场景 1：Chief 说"把情报获取专家拿到的 3 家竞对营收数据做趋势分析"**
→ 读取数据 → 清洗（统一单位/填缺）→ Mann-Kendall 趋势检验 → 折线图可视化 → 输出统计报告

**场景 2：Chief 说"算一下进入东南亚市场 5 年的 NPV，关键变量做个敏感性分析"**
→ 财务建模（NPV/IRR）→ 选取市场规模/毛利率/折现率做 ±20% 敏感性 → 输出情景表格 + 龙卷风图

**场景 3：Chief 说"把这几个行业增长率数据做个对比图"**
→ 数据聚合 → 分组柱状图 → 标注统计显著性 → 输出图表 + 简洁说明

**场景 4：Chief 说"做乐观/基准/悲观三种情景推演"**
→ 设定三情景假设 → 逐情景建模 → 输出对比表 + 概率区间

---

## 补充说明

### 依赖管理
- pandas / numpy / scipy / matplotlib 未安装时自动 `pip install`，安装到当前 Python 环境
- 图表中文字体缺失时降级为英文标签

### 数据安全
- 原始数据文件只读，不写入覆盖
- 中间结果保存到 temp 目录，最终图表保存到 output 目录
- 不应在没有 Chief 指令时自行删除数据文件

### 质量约束
- 统计检验前必须验证数据分布假设（正态性用 Shapiro-Wilk，n>5000 用 Anderson-Darling）
- NPV 计算必须标注折现率假设和推导依据
- 敏感性分析必须标注"相关性 ≠ 因果性"
- 图表必须包含标题/坐标轴标签/数据来源/生成日期

### 与其他专家协作
- 从情报获取专家接收原始数据 → 清洗建模 → 输出可视化/量化结论
- 为财务战略专家提供定量验证（NPV/敏感性/情景推演）
- 为行业研究专家提供市场规模趋势检验
- 为竞争情报专家提供竞对数据可视化对比
- 为战略分析专家提供战略选项的定量评估（ROI/风险量化）

### 降级策略
- Python 环境不可用时 → 使用 LLM 内置数学能力做手工计算，标注"⚠️ 手工验算，精度有限"
- 数据量过小（n < 5）→ 不跑统计检验，仅输出描述性统计

### 命名规范
- 图表文件：`{分析主题}_{图表类型}_{datetime}.png`
  - 示例：`智能锁行业市场规模_趋势折线图_20260606_1430.png`
- 报告文件：`{分析主题}_数据分析报告_{datetime}.md`

related skills

semantically similar in the cross-vendor index

clawhub

81% match

Python数据分析

拿到一堆数据不知道怎么分析？丢数据进来，自动生成Python分析代码并执行，输出可视化图表和结论。统计建模、时间序列、机器学习全覆盖。不用你会写代码，只要会提问就行。触发词：数据分析、Python分析、统计分析、数据可视化、数据建模、回归分析、相关性分析、数据清洗、机器学习、聚类分析、预测分析、数据报告排除：...

don't have the plugin yet? install it then click "run inline in claude" again.