SKILL.md

---
name: weixin-reader
description: 提取微信公众号文章内容，支持任意公众号文章链接的内容抓取和结构化输出。
triggers:
  - "微信公众号"
  - "mp.weixin.qq.com"
  - "微信文章"
allowed-tools: ["Bash", "Read", "Write"]
---

# 微信公众号阅读器

提取微信公众号文章内容，支持任意公众号文章链接的内容抓取。

## 使用方法

直接发送微信公众号文章链接即可：
- https://mp.weixin.qq.com/s/xxxx

## 功能

- 自动渲染 JavaScript 动态内容
- 提取标题、作者、公众号名称、发布时间、正文内容
- 输出干净的 Markdown 格式
- **SSRF 防护**：DNS 解析验证，防止访问内网地址

## 依赖

- Python 3.8+
- Playwright
- playwright-stealth（反爬增强，可选）
- dnspython（DNS 解析安全校验）

安装依赖：
```bash
cd ~/.openclaw/workspace/skills/weixin-reader
pip install -r requirements.txt
playwright install chromium
```

## 安全说明

### SSRF 防护
- 禁止访问 localhost、127.0.0.1 等本地地址
- 禁止访问 10.x.x.x、172.16-31.x.x、192.168.x.x 等私有网段
- **DNS 解析检查**：验证域名解析后的 IP 不是内网地址（防止 DNS 重绑定攻击）

### 使用限制
- 仅支持提取公开文章内容
- 请遵守目标网站的服务条款
- 不建议用于高频批量抓取

## 文件说明

- `extract.py` - 主提取脚本（推荐，标准模式）
- `extract_stealth.py` - 反爬增强模式（**可选**，使用 playwright-stealth，可能违反某些网站 ToS）
- `extract_generic.py` - 通用网页提取

## 更新日志

### v1.1.0
- **结构化数据输出**：返回 JSON 格式，包含 metadata、content、stats 三个部分
- **新增统计信息**：字数、段落数、图片数、预估阅读时间
- **增强元数据**：提取时间戳、文章描述、HTML 内容
- **图片信息丰富**：返回图片 URL 和 alt 文本

### v1.0.1
- 增强 SSRF 防护：添加 DNS 解析验证
- 补充完整依赖：playwright-stealth, dnspython
- 完善安全说明文档

don't have the plugin yet? install it then click "run inline in claude" again.

微信公众号阅读器

SKILL.md

related skills