back
loading skill details...
Fetch and parse WeChat public articles by extracting clean content, metadata, images, word count, and reading time without browser rendering.
# 微信公众号文章阅读 Skill
> 🎯 生产级微信公众号文章抓取和解析工具,符合Claw Hub发布标准
## 🌟 功能特性
- 🚀 **高性能抓取**:服务端直接请求HTML,无需浏览器渲染,响应速度快
- 🎯 **精准解析**:智能提取标题、作者、发布时间、正文等核心信息
- 🧹 **内容清洗**:自动去除广告、赞赏、阅读数、分享按钮等无关内容
- 📝 **多格式输出**:支持HTML、Markdown、纯文本三种格式
- 🖼️ **图片处理**:自动提取文章中的所有图片URL
- 📊 **数据分析**:自动计算字数和预计阅读时间
- 🔒 **安全合规**:遵循微信公众平台使用条款,确保合法使用
- 🛡️ **健壮性**:完善的异常处理和重试机制,应对网络波动
- 🧰 **可扩展**:模块化设计,易于扩展新功能
## 📦 安装使用
### 1. 安装依赖
```bash
pip install -r requirements.txt
```
或直接安装:
```bash
pip install requests beautifulsoup4 markdownify
```
### 2. 命令行使用
```bash
# 基本使用
python read_wechat_article.py "https://mp.weixin.qq.com/s/ijZyuHyubiX7Dp1tJrxZOw"
# 输出详细日志
python read_wechat_article.py "https://mp.weixin.qq.com/s/ijZyuHyubiX7Dp1tJrxZOw" -v
# 保存结果到文件
python read_wechat_article.py "https://mp.weixin.qq.com/s/ijZyuHyubiX7Dp1tJrxZOw" -o output.json
```
### 3. 作为Python模块使用
```python
from read_wechat_article import read_wechat_article
# 公众号文章URL
url = "https://mp.weixin.qq.com/s/ijZyuHyubiX7Dp1tJrxZOw"
# 抓取并解析文章
result = read_wechat_article(url)
# 输出结果
print(f"标题: {result['title']}")
print(f"作者: {result['author']}")
print(f"发布时间: {result['publish_time']}")
print(f"字数: {result['word_count']:,}")
print(f"阅读时间: {result['read_time_minutes']}分钟")
print(f"图片数量: {len(result['images'])}")
print(f"Markdown内容: {result['content_markdown'][:500]}...")
```
### 4. 作为Claw Skill使用
```python
from claw import skill
# 调用Skill
result = skill.run(
"read_wechat_article",
url="https://mp.weixin.qq.com/s/ijZyuHyubiX7Dp1tJrxZOw"
)
if result["success"]:
data = result["data"]
print(f"文章标题: {data['title']}")
else:
print(f"处理失败: {result['error']}")
```
## 📊 输出结果结构
```python
{
"title": "未来1500天,影视行业的钱会被这1%的人赚走?",
"author": "郑林",
"publish_time": "2024-03-18 18:06",
"content_markdown": "# 未来1500天,影视行业的钱会被这1%的人赚走?\n\n在过去的三年里,影视行业经历了前所未有的挑战...",
"content_text": "未来1500天,影视行业的钱会被这1%的人赚走?\n\n在过去的三年里,影视行业经历了前所未有的挑战...",
"images": [
"https://mmbiz.qpic.cn/mmbiz_jpg/.../640",
"https://mmbiz.qpic.cn/mmbiz_jpg/.../640"
],
"original_url": "https://mp.weixin.qq.com/s/ijZyuHyubiX7Dp1tJrxZOw",
"word_count": 25306,
"read_time_minutes": 51
}
```
## ⚙️ 配置参数
### 全局配置
```python
HEADERS = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
"Referer": "https://mp.weixin.qq.com/",
"Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8,zh-TW;q=0.7"
}
TIMEOUT = 15 # 超时时间(秒)
RETRY_TIMES = 3 # 最大重试次数
RETRY_DELAY = 2 # 重试间隔时间(秒)
```
### 正则表达式
```python
PUB_TIME_PATTERN = re.compile(r'(\d{4}-\d{2}-\d{2}\s+\d{2}:\d{2})') # 匹配发布时间
URL_CLEAN_PATTERN = re.compile(r'https://mp\.weixin\.qq\.com/s/[A-Za-z0-9_-]+') # 清理URL
```
## 🔧 技术原理
### 1. URL清理
自动去除URL中的多余参数,只保留核心部分:
```
原始URL: https://mp.weixin.qq.com/s/ijZyuHyubiX7Dp1tJrxZOw?from=groupmessage&isappinstalled=0
清理后: https://mp.weixin.qq.com/s/ijZyuHyubiX7Dp1tJrxZOw
```
### 2. 内容解析流程
```
HTTP请求 → HTML响应 → 标题提取 → 作者提取 → 时间提取 → 正文提取 → 内容清洗 → 格式转换 → 结果输出
```
### 3. 内容清洗策略
- **去除无关标签**:script、style、iframe、video、audio等
- **去除广告区块**:包含ad-wrap、reward_area、like_area等class的元素
- **去除社交元素**:分享按钮、点赞、评论、阅读数等
- **清理空标签**:去除没有内容的空div、p、span标签
- **优化格式**:统一换行、空格,提高可读性
## ⚠️ 合规使用指南
### 合法使用原则
1. **用户主动触发**:仅在用户主动提供URL时进行抓取
2. **非商用用途**:不得将抓取的内容用于商业目的
3. **不批量爬取**:不进行大规模批量爬取操作
4. **遵守平台规则**:尊重微信公众平台的使用条款
5. **合理频率**:避免高频抓取触发平台限制(建议不超过10次/分钟)
6. **标明来源**:如引用文章内容,需标明原文来源和作者
### 风险提示
- **登录限制**:部分文章需要登录微信账号才能访问
- **权限限制**:部分文章可能设置了访问权限
- **反爬机制**:微信可能会更新反爬机制,导致抓取失败
- **法律风险**:非法抓取和使用可能会导致法律责任
### 免责声明
本工具仅用于学习和研究目的,请勿用于非法用途。用户需自行承担因使用本工具而产生的法律责任。
## 📈 性能优化
### 1. 网络优化
- 使用持久化HTTP连接(keep-alive)
- 启用gzip压缩,减少传输数据量
- 设置合理的超时时间和重试策略
- 配置合适的User-Agent,提高兼容性
### 2. 解析优化
- 使用lxml解析器(需要安装lxml库)
- 避免重复解析HTML文档
- 批量处理DOM操作,减少遍历次数
- 使用CSS选择器替代XPath,提高效率
### 3. 内存优化
- 流式处理大文件,避免一次性加载过多内容
- 及时清理不再使用的对象,释放内存
- 分块处理大文本内容,减少内存占用
## 🎨 扩展功能
### 1. 图片下载
```python
def download_image(url: str, save_path: str):
"""下载图片到本地"""
response = requests.get(url, headers=HEADERS)
with open(save_path, 'wb') as f:
f.write(response.content)
```
### 2. 内容增强
```python
def summarize_content(text: str, max_length: int = 500) -> str:
"""内容摘要"""
# 这里可以接入大模型实现智能摘要
return text[:max_length] + "..."
```
### 3. 数据存储
```python
def save_to_database(result: Dict, db_conn):
"""保存到数据库"""
cursor = db_conn.cursor()
cursor.execute(
"INSERT INTO articles (title, author, content_text) VALUES (?, ?, ?)",
(result['title'], result['author'], result['content_text'])
)
db_conn.commit()
```
## 🐛 常见问题
### Q: 出现"需要登录微信账号才能访问该文章"错误?
A: 这篇文章需要登录微信账号才能访问。可以尝试:
- 使用已登录的微信客户端打开链接
- 检查网络环境是否正常
- 换一个不需要登录的文章测试
### Q: 出现"网络请求失败"错误?
A: 可能是网络问题或服务器限制。可以尝试:
- 检查网络连接
- 增加重试次数
- 更换User-Agent
- 使用代理服务器
### Q: 提取的内容不完整?
A: 可能是微信页面结构更新导致的。可以尝试:
- 更新解析规则
- 检查HTML结构
- 提交Issue反馈
### Q: 运行速度慢?
A: 可能是网络延迟或页面加载慢。可以尝试:
- 增加超时时间
- 使用更快的网络环境
- 启用多线程处理
## 📞 支持与反馈
- **GitHub Issues**: 提交问题和建议
- **Discord社区**: 与其他开发者交流
- **邮件**: support@claw.ai
## 📄 许可证
MIT License - 详见LICENSE文件
don't have the plugin yet? install it then click "run inline in claude" again.