检测文案、文件或网页中的小红书违禁词并加粗显示，提供违禁词替换建议和仅替换违禁词后的文案；当用户需要查询小红书平台违禁词、检查小红书笔记文案是否包含敏感词、或希望获得安全替换词和修改后文案时使用。
SKILL.md

---
name: xiaohongshu-prohibited-word
description: 检测文案、文件或网页中的小红书违禁词并加粗显示，提供违禁词替换建议和仅替换违禁词后的文案；当用户需要查询小红书平台违禁词、检查小红书笔记文案是否包含敏感词、或希望获得安全替换词和修改后文案时使用。
dependency:
  python:
    - python-docx==1.1.0
    - beautifulsoup4==4.12.3
    - playwright==1.58.0
  system:
    - playwright install chromium
---

# 小红书违禁词查询

## 简介

小红书违禁词查询是一款专为小红书内容创作者、品牌运营和营销人员设计的智能违禁词检测工具，基于 红狐Hub 违禁词检测 API，在笔记发布前快速扫描文案中的敏感词并提供上下文智能替换建议。

通过简单的文案输入，你可以：
- 🔍 **违禁词标记** —— 原文中命中词用加粗标出，一眼看到风险点
- 💡 **替换建议** —— 每个违禁词配一个结合上下文的替换词 + 更换理由
- ✏️ **优化文案** —— 直接给出一份替换后的可发布版本，复制粘贴就能用
- 📏 **长文案分批检测** —— 超过 3000 字自动提醒，支持分批检测后合并结果

触发关键词：`小红书违禁词` `笔记敏感词` `小红书审核` `限流词` `种草文案合规`

## 功能特性

### 🎯 核心功能

| 输入方式 | 能力说明 | 使用示例 |
|----------|----------|----------|
| 💬 直接贴文案 | 粘贴笔记文案，一键检测 | `帮我看下这段笔记有没有违禁词：这款美白神器真的太有效了……` |
| 📎 上传文件 | 支持 TXT、DOC、DOCX，自动读取检测 | 直接上传文档，无需手动复制 |
| 🖼️ 上传图片 | 自动提取图中文字进行检测 | 上传笔记截图/海报即可 |
| 🌐 粘贴链接 | 自动抓取网页内容检测 | `帮我检测这个网页：https://example.com/article` |

### ✨ 特色亮点

- **⚡ 一站式检测** —— 文本/文件/图片/网页四种输入方式，一次调用完成所有检测
- **🔗 跨平台内容提取** —— 内置 Playwright 无头浏览器，支持 JS 动态渲染的 SPA 页面内容提取
- **🌐 英文误匹配过滤** —— 自动识别英文单词内部子串误判（如 "Glasswing" 中的 "ass"），无需手动排查
- **🔒 数据安全** —— 检测内容通过加密 HTTPS 发送，不在本地存储
- **📄 一键导出** —— 自动生成纯文本优化文案文件并以卡片形式发送，可直接下载使用

**限制说明**：平台固定为小红书，无需指定。PDF 不支持，需转为图片或文本文件后上传。

## 一键安装

### 前置条件

- Python 3.8+
- 安装 Python 依赖：
  ```bash
  pip install python-docx==1.1.0 beautifulsoup4==4.12.3 playwright==1.58.0
  ```
- 安装 Chromium 浏览器：
  ```bash
  playwright install chromium
  ```

### 获取 API Key

1. 访问 [红狐Hub 官网](https://redfox.hk/) 了解服务详情
2. 前往 [注册页面](https://redfox.hk/login) 注册账号
3. **新注册用户将获赠免费积分**，可立即开始使用 API 服务
4. 注册登录后，在个人中心获取 API Key，格式为 `ak_xxxxxxxx`

### 配置 API Key

脚本按以下优先级自动获取密钥：

| 优先级 | 来源 | 说明 |
|--------|------|------|
| 1 | 环境变量 `REDFOX_API_KEY` | 直接读取当前设备环境变量 |
| 2 | Shell 配置文件 | 自动扫描 `~/.zshrc` `~/.bashrc` `~/.bash_profile` `~/.profile` `~/.zprofile` |
| 3 | 提示配置 | 以上均未找到时，提示用户手动配置 |

**配置示例**：

```bash
export REDFOX_API_KEY=ak_xxxxxxxx
```

### 环境变量参考

| 变量名 | 必填 | 说明 |
|--------|------|------|
| `REDFOX_API_KEY` | 是 | 红狐Hub API 访问密钥，格式 `ak_xxxxxxxx` |
| `XHS_SENSITIVE_WORD_API_URL` | 否 | 自定义 API 端点地址（默认使用 红狐Hub 官方） |
| `XHS_SENSITIVE_WORD_VERIFY_SSL` | 否 | SSL 证书校验开关，默认 `1`（开启） |

## 使用指南

### 基础使用

**💬 直接贴文案** —— 把笔记文案发给助手即可检测

> 用户：帮我看下这段笔记有没有违禁词：这款美白神器真的太有效了，用了三天就白了一个度
>
> 助手输出：🔍 **违禁词检测结果** → 💡 **修改建议** → ✏️ **优化文案** + 纯文本文件卡片

**📎 上传文件** —— 直接上传 TXT、DOC、DOCX 文件，助手自动提取内容检测

**🖼️ 上传图片** —— 上传笔记截图或海报，助手提取图中文字后检测（仅提取文字，不分析图片视觉）

**🌐 粘贴链接** —— 提供网页 URL，助手自动抓取页面文字内容检测

### 高级使用

**长文案分批检测**：超过 3000 字符时，助手会暂停并询问（回复 1=单次仅检测前3000字 / 2=分批检测全部 / 3=取消），分批时自动在自然断句处切割

**仅提取文字预览**：调用脚本 `--extract-only` 参数可仅提取文字不检测，返回文本内容和长度

**自定义 API 端点**：设置 `XHS_SENSITIVE_WORD_API_URL` 环境变量指向自建检测服务

### 命令速查

| 输入形态 | 助手动作 |
|---|---|
| 纯文本 | 计算字数 → 字数闸门 → `--content="..."` → 三板块输出 |
| 上传 TXT/DOC/DOCX | `--file=path --extract-only` 查字数 → 按规则检测 → 三板块输出 |
| 上传图片 | 仅提取图中文字 → 计算字数 → `--content="提取文字"` → 三板块输出 |
| 粘贴 `https://...` | `--url=... --extract-only` 查字数 → 按规则检测 → 三板块输出 |
| 超长文案 | 发出询问语，**收到用户明确回复后再继续** |

`--content`、`--file`、`--url` 三者互斥。

> **完整执行规程**（输出模板、格式铁律、示例）详见 [`references/core_workflow.md`](references/core_workflow.md)，调用脚本和格式化输出前必须读取并严格遵循。

## 使用场景

### 场景一：小红书创作者发布前自查

**角色**：小红书博主、内容创作者

**需求**：种草笔记发布前快速排查违禁词，避免因极限词、禁宣用语被限流或下架

**使用方式**：
1. 将笔记文案直接粘贴发给助手
2. 查看违禁词检测结果和替换建议
3. 复制优化后文案或下载纯文本文件直接发布

**预期收益**：一次改对，安心发布，减少反复修改和审核等待时间

### 场景二：品牌/电商运营批量扫雷

**角色**：品牌运营、电商运营

**需求**：活动海报文案、商品详情页、多篇推广文案批量检测

**使用方式**：
1. 将多段文案整理为 DOC/DOCX 文档上传
2. 助手自动提取内容，分批检测全部文案
3. 获取每批检测结果和汇总优化文件

**预期收益**：批量扫雷提升效率，避免活动上线后被投诉下架

### 场景三：投放/营销话术快速过筛

**角色**：广告投放、营销人员

**需求**：多条卖点话术、投放文案快速过审

**使用方式**：
1. 逐条或批量提交投放文案
2. 按助手替换建议修改违禁词
3. 下载优化后文案提交合规审核

**预期收益**：缩短审核周期，提高投放素材通过率

### 场景四：内容审核/增长团队抽查

**角色**：增长运营、内容审核

**需求**：落地页、H5 页面纯文本内容合规抽查

**使用方式**：
1. 粘贴落地页或 H5 URL
2. 助手自动抓取页面文字检测
3. 查看检测结果确认是否存在违规

**预期收益**：快速完成页面合规抽查，降低违规风险

## 项目架构

### 目录结构

```
xiaohongshu-prohibited-word/
├── SKILL.md                          # Skill 主文档（本文件）
├── skill-card.md                     # 技能市场卡片描述
├── _meta.json                        # 元数据
├── scripts/
│   └── check_sensitive_words.py      # 核心检测脚本
│       ├── _get_api_key()            #   API Key 获取（环境变量 → Shell配置 → 提示）
│       ├── _http_request()           #   HTTP 请求（urllib 原生，内置重试）
│       ├── extract_from_file()       #   文件文本提取（DOC/DOCX/TXT/CSV/MD 等）
│       ├── extract_from_web()        #   网页文本提取（Playwright → urllib 回退）
│       └── check_sensitive_words()   #   违禁词检测（API 调用 + 结果解析）
└── references/
    └── core_workflow.md              # 核心工作流（操作步骤、输出模板、格式铁律、示例）
```

### 技术栈

| 组件 | 技术 | 说明 |
|------|------|------|
| **运行环境** | Python 3.8+ | 标准 Python 环境 |
| **HTTP 请求** | `urllib.request`（标准库） | 原生 HTTP 请求，内置重试与超时处理 |
| **文档解析** | `python-docx` | Word 文档文本提取 |
| **网页解析** | `beautifulsoup4` + `playwright` | 静态 HTML + JS 动态渲染双引擎 |
| **API 服务** | 红狐Hub 违禁词检测 API | HTTPS POST，JSON 格式，X-API-KEY 鉴权 |


## 常见问答

### 安装相关

**Q1: 提示"缺少依赖库"怎么办？**

A: 运行以下命令安装：
```bash
pip install python-docx==1.1.0 beautifulsoup4==4.12.3 playwright==1.58.0
playwright install chromium
```

**Q2: 提示"缺少凭证配置"怎么办？**

A: 请按以下步骤操作：
1. 访问 https://redfox.hk/login 注册获取 API Key（新用户赠免费积分）
2. 配置环境变量：`export REDFOX_API_KEY=ak_xxxxxxxx`
3. 或在 `~/.bashrc` / `~/.zshrc` 中添加后执行 `source ~/.bashrc`

### 使用相关

**Q3: 单次能检测多少字？**

A: 建议单次 3000 字以内效果最佳。3001~10000 字会询问是否分批检测，超过 10000 字暂不支持。

**Q4: 支持 PDF 文件吗？**

A: 不支持 PDF。请将 PDF 转为图片或文本文件后重新上传。

**Q5: 检测结果能保证百分百准确吗？**

A: 检测结果基于红狐Hub违禁词库，仅供参考。请根据企业经营范围和产品实际效果自行核对，最终以小红书平台审核结果为准。

### 故障排除

**Q6: 提示"检测服务暂时不可用"？**

A: 脚本已内置自动重试机制。若持续失败，请检查网络、确认 API Key 未过期、或访问 红狐Hub 官网确认服务状态。

**Q7: 网页内容提取失败？**

A: 请检查网址是否可正常访问。部分需登录或有反爬保护的页面可能无法提取，建议改为复制文字后直接粘贴检测。

**Q8: 图片文字提取不准确？**

A: 文字提取依赖图片清晰度和字体。建议使用高清晰度截图，避免手写字体和艺术字体。

### 获取帮助

- 🌐 红狐Hub 官网：[https://redfox.hk/](https://redfox.hk/)
- 📧 联系邮箱：graves9758@gmail.com
小红书违禁词检测

SKILL.md

related skills