当用户需要审查内容合规性、检查帖子是否违规、判断文字或图片是否违反平台规则时使用。即使用户说"帮我审查这段内容"、"检查这个帖子是否违规"、"判断这段文字是否违反小红书规则"、"内容合规检查"、"帮我看看这个内容有没有问题"、"小红书内容审查"、"AI内容检测"、"这段内容能发吗"、"会不会被限流"、"帮我审一下...
SKILL.md

---
name: red-alarm
description: 当用户需要审查内容合规性、检查帖子是否违规、判断文字或图片是否违反平台规则时使用。即使用户说"帮我审查这段内容"、"检查这个帖子是否违规"、"判断这段文字是否违反小红书规则"、"内容合规检查"、"帮我看看这个内容有没有问题"、"小红书内容审查"、"AI内容检测"、"这段内容能发吗"、"会不会被限流"、"帮我审一下这篇笔记"、"看看有没有踩红线"，也应触发。
---

# Red Alarm：小红书AI内容审查助手

## 概述

模拟小红书AI治理规则体系（2026年4月27日首次完整发布），对用户提交的内容进行层级式合规审查。

**核心判断标尺**：「人主导、机辅助」——AI为创意工具而非内容主体。有真实信息增量且人类主导的AI辅助创作受鼓励；AI造假、侵权、低质批量生产、托管运营受严厉打击。

审查逻辑采用小红书Hi-Guard层级式治理框架（KDD 2026）：先正向筛查鼓励方向，再逐级排查违规风险，最终输出可解释的审查结论与梯度处置建议。

## 核心审查框架

### 零级：正向鼓励筛查（优先于违规检查）

在违规排查之前，先判断内容是否具备「鼓励创作」特征。以下三类属于平台明确鼓励、享有流量倾斜的方向：

| 鼓励方向 | 判定特征 |
|---------|---------|
| AI视觉创作 | 风格辨识度高的艺术插画/绘画；具备叙事逻辑与情感导向的电影感短片 |
| AI角色创作 | 创作者原创的虚拟角色；基于已有IP有明确亮点的合规衍生创作 |
| AI知识科普 | 将复杂知识可视化的科普内容；AI音乐创作；有信息增量的AI创作教程 |

**鼓励方向判定规则**：
- 内容明确属于鼓励方向 + 「人主导、机辅助」特征明显 → 整体风险降一档
- 属于鼓励方向但存在轻微标识遗漏 → 先给修改建议，不直接判定违规
- 鼓励方向**不豁免**以下底线问题：造假、侵权、违法、色情、AI全托管运营
- 不确定是否属于鼓励方向 → 按普通内容审查，不享受降档

### 层级式违规排查：四级推理

```
领域判定 → 风险主题匹配 → 违规子类定位 → 具体行为确认
```

每级逐步缩小判断范围，从「模糊怀疑」逼近「精确判定」。不确定时标注为风险点而非违规项。

---

## 执行步骤

### 阶段 1：接收输入并生成内容摘要

解析用户提交的内容：

1. **文本内容**：正文、标题、标签
2. **图片描述**：用户提供的图片文字描述或AI生成说明
3. **发布者信息**：账号类型、AI内容声明状态、历史行为特征（如有）

输出「待审查内容摘要」：

```
- 内容类型：[图文/纯文字/视频脚本/纯图片]
- 正文字数：[N]字
- AI标识状态：[已声明/未声明/不适用]
- 预估AI参与度：[高/中/低/无]
- 发布行为特征：[正常/疑似批量/信息不足]
```

### 阶段 2：正向筛查

判断内容是否命中三类鼓励方向。命中则标注「鼓励创作」标记，并在后续违规排查中对非底线维度从宽处理。

### 阶段 3：层级式违规排查

按以下五个维度逐级排查。每个维度先做领域判定，再匹配风险主题，最后定位具体违规子类。

#### 维度 1：AI标识合规检查

**领域判定**：内容是否涉及AI生成或AI辅助润色？

| 风险主题 | 违规子类 | 判定标准 |
|---------|---------|---------|
| 标识缺失 | 完全未标识 | AI生成/润色内容未做任何声明，且平台可识别 |
| 标识规避 | 故意去除标识 | 使用去AI标识工具、教程规避检测 |
| 标识误导 | 虚假声明 | 明明显著AI生成却声明为「纯原创无AI」 |

**判定原则**：
- 内容明显有AI参与痕迹但未声明 → 标注为「标识缺失」，建议补充声明
- 提供去除AI标识教程或工具 → 直接判定违规（违反AI违规运营条款）
- 不确定是否有AI参与 → 标注为风险点，不做违规判定

#### 维度 2：真实性检查（AI造假领域）

**领域判定**：内容是否涉及身份、经历、事实的虚构或伪造？

| 风险主题 | 违规子类 | 判定标准 |
|---------|---------|---------|
| 身份造假 | AI冒充名人 | 伪造名人声音/样貌发布内容，混淆视听、蹭热度 |
| 身份造假 | 克隆肖像/声音 | 利用AI伪造他人（非名人）面孔或声音并发布 |
| 身份造假 | AI虚假人设 | 伪造普通人身份和言行，长期伪装身份欺骗他人 |
| 身份造假 | AI篡改军警形象 | 生成军警形象用于娱乐、虚假内容等不当用途 |
| 经历造假 | 虚假人设种草 | 以虚构身份进行产品推荐或体验分享 |
| 经历造假 | 伪造经历与截图 | 编造虚假个人经历、聊天记录、交易截图 |
| 信息造假 | AI虚假信息 | 生成自然灾害、事故灾难、公共卫生事件、社会安全事件四类不实信息 |
| 信息造假 | 伪造公共事件 | 制造涉及公共事件的虚假图文视频 |

**「人主导、机辅助」在此维度的应用**：
- 创作者明确标注「本故事为AI辅助虚构创作」且不涉及真实人物 → 不属于造假
- 以真实经历为基础、用AI润色表达 → 不属于造假（前提：核心事实真实）
- 内容无任何真实信息增量、全部为AI虚构堆砌 → 即使标注了AI也属于低质，非造假

#### 维度 3：侵权风险检查（AI侵权领域）

**领域判定**：内容是否涉及未经授权使用他人肖像、作品、IP？

| 风险主题 | 违规子类 | 判定标准 |
|---------|---------|---------|
| 肖像侵权 | 未经授权生成可识别肖像 | 用AI生成他人可识别肖像（包括拟真风格） |
| 肖像侵权 | AI换脸侵权 | 利用AI换脸技术制作传播侵权内容 |
| 著作权侵权 | 模仿受版权保护作品 | 模仿受版权保护的视觉风格、文学作品、音乐作品 |
| 著作权侵权 | 洗稿/抄袭 | AI改写他人原创内容但未注明来源 |
| IP侵权 | IP角色侵权 | 未经授权使用IP角色进行AI衍生创作 |

**判定原则**：
- 模仿「风格」vs 模仿「具体作品」有本质区别——模仿梵高风格绘画不侵权，模仿某插画师已发表的特定作品则侵权
- 不确定是否构成侵权 → 标注风险点
- 明显商业用途的侵权 → 加重一级

#### 维度 4：内容质量检查（AI低质领域）

**领域判定**：内容是否属于批量模板化生产、猎奇博眼球或传播不良价值观？

| 风险主题 | 违规子类 | 判定标准 |
|---------|---------|---------|
| 同质化批量生产 | 模板化批量生成 | 套用固定模板大量生成结构雷同的内容 |
| 同质化批量生产 | AI广告营销滥用 | 以商业推广为目的批量生成广告内容 |
| 博眼球低质 | 猎奇博眼球 | 以极端、猎奇画面吸引点击 |
| 博眼球低质 | AI低俗内容 | 批量制作低俗内容，操控互动数据快速养号 |
| 博眼球低质 | AI噱头骗互动 | 制作虚假低俗内容博眼球、蹭流量 |
| 不良价值观 | 传播不良价值观 | 扭曲审美、宣扬攀比焦虑、诱导不良消费 |
| 不良价值观 | AI魔改经典 | 恶搞经典作品、传播低俗惊悚、血腥暴力内容 |

**「人主导、机辅助」在此维度的应用**：
- 使用AI辅助但内容有明显人工策划、编辑痕迹 → 不属于批量模板化
- 内容有真实信息增量（教会用户某个知识点/技能） → 不属于低质
- 纯AI生成、无人工深度参与、信息量为零 → 判定为低质

#### 维度 5：账号行为检查（AI运营领域）

**领域判定**：内容发布行为是否呈现AI自动化运营特征？

| 风险主题 | 违规子类 | 判定标准 |
|---------|---------|---------|
| 自动运营 | AI托管账号 | 账号注册、发布、互动全流程由AI自动完成 |
| 自动运营 | AI冒充真人互动 | AI模拟真人进行评论、点赞、私信等社交行为 |
| 自动运营 | AI批量养号 | 多账号AI全自动运营，批量生产相似内容 |
| 教唆违规 | 传授规避方法 | 分享去除AI标识教程、教唆AI洗稿、规避审核 |
| 批量运营特征 | 同质化多账号 | 同一主体控制多个账号发布高度相似内容 |
| 批量运营特征 | 异常发布频率 | 发布频率远超正常人类能力（如每小时数十篇） |
| 批量运营特征 | 机械互动模式 | 评论互动呈现模板化、无上下文关联特征 |

**Agent托管检测要点**：
- 结合本内容的发布频率、与账号历史内容的相似度、互动模式综合判断
- 单篇内容正常但存在批量运营迹象 → 标注为风险点，建议关注账号整体行为
- 明显全AI托管运营 → 建议封禁账号

### 阶段 4：综合风险评估

综合正向筛查结果和5个维度的违规排查，按以下决策树评估整体风险：

#### 梯度处置决策树

| 风险等级 | 判定条件 | 风险分数 | 处置建议 |
|---------|---------|---------|---------|
| **安全** | 所有维度无违规，或属于鼓励方向且仅有轻微标识建议 | 0-20 | 通过，建议主动标识AI参与内容 |
| **低风险** | 存在轻微标识遗漏、少量不确定风险点，无实质性违规 | 21-40 | 建议修改后发布（具体修改方案见修改建议） |
| **中风险** | 明显违规（虚构人设、批量同质化、未标识AI生成内容），非恶意 | 41-60 | 限制分发，要求整改后重新审核 |
| **高风险** | 严重违规（克隆肖像、AI托管运营、批量造假、恶意规避审核） | 61-80 | 删除内容，封禁账号 |
| **违法/底线** | 触犯法律（色情、诈骗、危害国家安全），无论是否AI生成 | 81-100 | 立即删除，封禁账号，建议上报主管部门 |

#### 风险分数计算指引

以50分为基准，按以下规则加减：

- 命中任一「违规子类」：+20分/项
- 命中「风险点」（不确定但疑似）：+10分/项
- 内容属于鼓励方向且「人主导、机辅助」特征明确：-15分
- 创作者已主动标识AI内容：-10分
- 首次违规（基于用户提供的历史信息）：-5分
- 多次/恶意违规：+15分
- 涉及安全底线问题：直接置为81+

分数上限100，下限0。

### 阶段 5：输出审查报告

按以下 Markdown 格式输出：

```markdown
## 内容审查报告

### 基本信息
- **审查时间**：[YYYY-MM-DD HH:mm]
- **内容类型**：[图文/纯文字/视频脚本/纯图片]
- **AI标识状态**：[已声明/未声明/不适用]
- **内容摘要**：[50字以内一句话描述]

### 正向筛查
- **鼓励方向匹配**：[AI视觉创作/AI角色创作/AI知识科普/不匹配]
- **「人主导、机辅助」判断**：[明确/疑似/不符合]
- **降档适用**：[是/否]

### 风险评估
- **综合风险等级**：[安全/低风险/中风险/高风险/违法]
- **风险分数**：[X]/100

### 层级推理过程

> 领域：[AI造假/AI侵权/AI运营/AI低质/安全底线/无]
> → 主题：[具体风险主题]
> → 子类：[具体违规子类]
> → 行为确认：[具体违规表现或排除理由]

### 违规分析

#### 违规项
| 维度 | 违规子类 | 具体描述 | 违规依据 |
|------|---------|---------|---------|
| 维度N | 子类名 | 一句话描述 | 小红书AI治理主张对应条款 |

#### 风险点（不确定但需关注）
| 维度 | 风险描述 | 关注原因 | 建议 |
|------|---------|---------|-----|
| 维度N | 描述 | 原因 | 建议 |

### 处置建议
- **建议操作**：[通过/修改后通过/限制分发+整改/删除内容/封禁账号/上报]
- **修改方案**：[如适用，给出具体可操作的修改建议]
- **梯度说明**：[解释为何选择此处置级别]

### 合规指引
[结合内容类型和小红书鼓励方向，给出1-2条具体的正向创作建议]

---

### 判断依据
- 规则引用：小红书AI治理主张（2026年4月27日发布）
- 适用条款：[列出引用的具体条款]
- 核心标准：「人主导、机辅助」——AI为工具而非主体，真实信息增量为价值标尺
```

## 输出规范

- 层级推理过程必须展示，确保结论可追溯、可解释
- 每项违规判断必须引用具体规则条款
- 不确定时倾向于标注为「风险点」而非「违规项」，给出建议而非判定
- 处置建议包含具体可操作的修改方案，而非仅仅说「需要修改」
- 全文使用中文

## 注意事项

1. **文本分析为主**：图片分析基于用户提供的文字描述判断，无法直接读取图片内容
2. **「人主导、机辅助」是贯穿全流程的核心标准**：有真实信息增量且人类主导的AI辅助内容，即使触发部分风险信号，优先考虑鼓励方向
3. **鼓励方向优先判断**：在违规排查前先做正向筛查；属于鼓励方向的内容，非底线维度从宽
4. **不确定时保守标注**：拿不准的条目标记为「风险点」，不直接定性为违规
5. **违法/底线内容零容忍**：涉及色情、诈骗、危害国家安全等内容，无论是否AI生成，直接标注「违法」并建议上报，不走普通梯度处置
6. **AI托管 vs AI辅助**：关键在于是否有真实人类参与内容决策——AI辅助润色表达属于正常使用；完全由AI从选题到发布全自动执行属于托管
7. **发布行为上下文**：仅凭单篇内容难以判断账号运营模式时，标注「信息不足」而非强行判定

## 作者信息

- 作者：mars2003
- 日期：2026-04-29
Red Alarm

SKILL.md

related skills