扫描公众号文案、文件或网页中的违禁词与敏感表述，标注风险并提供合规替换建议，帮你安全过审、避免删文限流。
SKILL.md

---
name: wechat-prohibited-word
description: 扫描公众号文案、文件或网页中的违禁词与敏感表述，标注风险并提供合规替换建议，帮你安全过审、避免删文限流。
dependency:
  python:
    - requests>=2.28.0
    - python-docx==1.1.0
    - beautifulsoup4==4.12.3
    - playwright==1.58.0
  system:
    - playwright install chromium
---

# 公众号违禁词查询

## 简介

**公众号违禁词查询**是一款专为公众号内容创作者和运营人员设计的合规检测工具，基于官方违禁词库实时同步，覆盖广告法、医疗美容、金融风险等 10+ 类目。

通过简单的文案输入，你可以：
- 🔍 快速扫描文案中的违禁词与敏感表述，**加粗**标注风险位置
- 💡 获取每个违禁词的向上文语境的替换建议
- ✏️ 直接拿到一份替换后的合规文案，复制即可发布
- 📎 自动生成纯文本文件，方便存档和协作

适用于公众号运营、新媒体编辑、品牌市场团队、设计师等需要确保文案合规发布的场景。

本 Skill 基于 Python 脚本，通过 API 调用远端违禁词检测服务，支持文本、文件、网页、图片四种输入方式。

---

## 功能特性

### 核心功能

| 功能 | 说明 |
|------|------|
| **违禁词扫描** | 基于官方违禁词库，覆盖广告法极限词、医疗美容、金融风险、教育培训等 10+ 类目 |
| **风险标注** | 命中违禁词在原文中**加粗**显示，同时汇总违禁词类型与数量 |
| **智能替换** | 每个违禁词提供结合上下文的替换表达，附更换理由，不是机械同义词替换 |
| **优化文案生成** | 直接输出替换后的完整合规版本，替换处**加粗**标记，保持原文语气和风格 |

### 特色亮点

- **四种输入方式**：支持直接粘贴文案、上传 TXT/DOC/DOCX 文件、上传图片自动提取文字、粘贴网页链接
- **长文案分批检测**：超过 3000 字自动提醒，支持按自然断句处切割分批检测，结果自动合并
- **英文误匹配过滤**：内置英文单词识别，不会把 "Glasswing" 中的 "ass" 误判为违禁词
- **网络异常容错**：API 请求遇到 5xx、超时、连接失败时自动重试，无需手动干预
- **数据隐私保护**：文案通过加密连接发送至检测服务，不在本地存储

---

## 一键安装

### 前置条件
- **Python 3.7+** 运行环境
- **pip** 包管理器
- 已注册 [红狐Hub](https://redfox.hk/) 账号并获取 API Key

### 安装步骤

1. 将本 Skill 文件夹放入你的平台 Skill 目录
2. 安装 Python 依赖：

```bash
pip install requests python-docx beautifulsoup4 playwright
playwright install chromium
```

3. 配置 API Key（见下方）

### API Key 配置

#### 获取 API Key
1. 访问 [红狐Hub 官网](https://redfox.hk/) 了解服务详情
2. 前往 [注册页面](https://redfox.hk/login) 注册账号
3. **新注册用户将获赠免费积分**，可立即开始使用 API 服务
4. 注册登录后，在个人中心获取 API Key，格式为 `ak_xxxxxxxx`

#### 配置方式

| 配置方式 | 操作 | 说明 |
|----------|------|------|
| 环境变量（推荐） | `export REDFOX_API_KEY=ak_xxxxxxxx` | 在当前终端会话生效 |
| Shell 配置文件 | 将上述 export 语句写入 `~/.bashrc` 或 `~/.zshrc`，执行 `source ~/.bashrc` | 永久生效，脚本自动读取 |

> 脚本获取 Key 的优先级：环境变量 `REDFOX_API_KEY` → Shell 配置文件自动扫描 → 提示用户配置

---

## 使用指南

### 基础使用

#### 方式一：直接粘贴文案
最常用的方式，适合快速检测草稿：

> **用户**：帮我看下这篇公众号草稿有没有违禁词：这款美白神器真的太有效了，用了三天就白了一个度
>
> **助手**：自动检测并输出违禁词标注、替换建议表和优化后文案

#### 方式二：上传文件
支持 TXT、DOC、DOCX 格式，直接上传即可自动读取检测。

#### 方式三：上传图片
上传海报截图或推文截图，系统自动提取图中文字进行检测（仅提取文字内容，不分析图片视觉风格）。

#### 方式四：粘贴网页链接
提供文章 URL，系统自动抓取页面正文内容进行检测。

**注意事项**：
- 平台固定为公众号，无需手动指定
- 单次建议不超过 3000 字，超过会询问你是否分批检测
- 超过 10000 字的内容暂不支持，建议手动分批
- PDF 文件不支持，请转为图片或文本文件后上传

### 命令速查

| 命令 | 用途 |
|------|------|
| `python scripts/check_sensitive_words.py --content="文案"` | 检测文本内容 |
| `python scripts/check_sensitive_words.py --file=/path/file.txt` | 检测文件内容 |
| `python scripts/check_sensitive_words.py --url=https://...` | 检测网页内容 |
| `python scripts/check_sensitive_words.py --file=/path/file.txt --extract-only` | 仅提取文本，不检测 |

---

## 使用场景

### 场景一：公众号推文发布前自查
**角色**：公众号运营

**需求**：推文发出前确认没有极限词、禁用宣传用语，避免被平台删改或封号

**使用方式**：
1. 写完推文后直接粘贴到对话中
2. 查看违禁词标注结果
3. 复制优化文案替换原文发布

**预期效果**：提前排除合规风险，降低删文概率

---

### 场景二：多篇短文案批量预审
**角色**：新媒体编辑

**需求**：日常产出多篇短文，需要在发布前统一过一遍合规检查

**使用方式**：
1. 将多篇文案合并为一个 TXT 文件上传
2. 系统自动分批检测全部内容
3. 下载合并后的优化文案文件

**预期效果**：一次完成多篇检测，提升审稿效率

---

### 场景三：活动落地页文案抽查
**角色**：品牌/市场团队

**需求**：H5 页面、活动落地页上线前确认文案无违规风险

**使用方式**：
1. 提供页面 URL
2. 系统自动抓取正文并检测
3. 按替换建议修正违规表述

**预期效果**：避免活动页面因违规词被举报或下架

---

### 场景四：海报/推文图文字合规检查
**角色**：设计师

**需求**：海报中的营销文案需要确保不触犯广告法

**使用方式**：
1. 上传海报截图
2. 系统提取图中文字进行检测
3. 确认替换方案后修改设计稿

**预期效果**：在设计阶段即排除文字风险，减少返工

---

## 项目架构

### 目录结构
```
wechat-prohibited-word/
├── SKILL.md                  # Skill 说明文档（本文件）
├── scripts/
│   └── check_sensitive_words.py  # 核心检测脚本
└── references/
    └── core_workflow.md      # Agent 执行规程（输出模板、格式铁律等）
```

### 技术栈

| 组件 | 技术 | 说明 |
|------|------|------|
| 运行环境 | Python 3.7+ | 脚本执行环境 |
| HTTP 请求 | requests | 标准 HTTP 库，调用检测 API |
| 文档解析 | python-docx | Word 文档 (.doc/.docx) 文本提取 |
| 网页解析 | beautifulsoup4 + playwright | 静态 HTML 解析 + JS 动态页面渲染 |
| API 服务 | 红狐Hub | 官方违禁词库，POST+JSON 方式调用 |

### 数据流转
```
用户输入（文本/文件/网页/图片）
    → 脚本提取文本内容
    → HTTPS POST 发送至红狐Hub API
    → API 匹配违禁词库，返回标注结果
    → 脚本过滤英文误匹配，格式化输出 JSON
    → Agent 按模板呈现三板块结果 + 写入优化文案文件
```

---

## 常见问答

### 安装配置

**Q: 安装依赖时报错怎么办？**
A: 请确认 Python 版本≥3.7，并依次执行：
```bash
pip install --upgrade pip
pip install requests python-docx beautifulsoup4 playwright
playwright install chromium
```

**Q: 提示 "未配置 REDFOX_API_KEY" 怎么办？**
A: 请按以下步骤处理：
1. 访问 [redfox.hk](https://redfox.hk/) 注册账号
2. 在个人中心复制 API Key（格式 `ak_xxxxxxxx`）
3. 执行 `export REDFOX_API_KEY=ak_xxxxxxxx` 或写入 `~/.bashrc`

---

### 功能使用

**Q: 支持检测哪些类型的违禁词？**
A: 覆盖广告法极限词（"最好""第一"等）、医疗美容禁宣用语、金融收益承诺、教育培训夸大宣传、虚假广告用语、诱导分享话术等 10+ 类目。

**Q: 长文案怎么处理？**
A: 3000 字以内直接检测；超过 3000 字会自动询问是否分批检测，在自然断句处切割保证语义完整；超过 10000 字建议手动分批。

**Q: 英文内容会被误判吗？**
A: 不会。脚本内置英文误匹配过滤，正常英文单词中的子串不会被标记为违禁词。

---

### 故障排除

**Q: 检测接口超时或报错？**
A: 脚本内置自动重试机制（最多 2 次），若仍然失败请稍后重试。持续异常请联系服务提供商。

**Q: 网页内容提取失败？**
A: 部分需要登录或有反爬机制的页面无法提取。建议直接复制页面文字后粘贴检测。

**Q: 上传的文件无法识别？**
A: 支持的文本文件格式：TXT、DOC、DOCX、CSV、MD、LOG、JSON、XML、HTML。PDF 不支持，请转为图片或文本文件。

---

### 获取帮助

如有其他问题，可通过以下方式获取支持：
- 🌐 访问 [红狐Hub](https://redfox.hk/) 查看文档
- 📧 邮件联系服务提供商

---

> **Agent 执行规程**：进行检测、格式化输出前，**必须先读取并严格遵循** [`references/core_workflow.md`](references/core_workflow.md) **全文**。该文档包含输出模板、格式铁律、分批询问话术、异常处理表等完整执行细节。
公众号违禁词检测

SKILL.md

related skills