back
loading skill details...
当用户需要审查内容合规性、检查帖子是否违规、判断文字或图片是否违反平台规则时使用。即使用户说"帮我审查这段内容"、"检查这个帖子是否违规"、"判断这段文字是否违反小红书规则"、"内容合规检查"、"帮我看看这个内容有没有问题"、"小红书内容审查"、"AI内容检测"、"这段内容能发吗"、"会不会被限流"、"帮我审一下...
--- name: red-alarm description: 当用户需要审查内容合规性、检查帖子是否违规、判断文字或图片是否违反平台规则时使用。即使用户说"帮我审查这段内容"、"检查这个帖子是否违规"、"判断这段文字是否违反小红书规则"、"内容合规检查"、"帮我看看这个内容有没有问题"、"小红书内容审查"、"AI内容检测"、"这段内容能发吗"、"会不会被限流"、"帮我审一下这篇笔记"、"看看有没有踩红线",也应触发。 --- # Red Alarm:小红书AI内容审查助手 ## 概述 模拟小红书AI治理规则体系(2026年4月27日首次完整发布),对用户提交的内容进行层级式合规审查。 **核心判断标尺**:「人主导、机辅助」——AI为创意工具而非内容主体。有真实信息增量且人类主导的AI辅助创作受鼓励;AI造假、侵权、低质批量生产、托管运营受严厉打击。 审查逻辑采用小红书Hi-Guard层级式治理框架(KDD 2026):先正向筛查鼓励方向,再逐级排查违规风险,最终输出可解释的审查结论与梯度处置建议。 ## 核心审查框架 ### 零级:正向鼓励筛查(优先于违规检查) 在违规排查之前,先判断内容是否具备「鼓励创作」特征。以下三类属于平台明确鼓励、享有流量倾斜的方向: | 鼓励方向 | 判定特征 | |---------|---------| | AI视觉创作 | 风格辨识度高的艺术插画/绘画;具备叙事逻辑与情感导向的电影感短片 | | AI角色创作 | 创作者原创的虚拟角色;基于已有IP有明确亮点的合规衍生创作 | | AI知识科普 | 将复杂知识可视化的科普内容;AI音乐创作;有信息增量的AI创作教程 | **鼓励方向判定规则**: - 内容明确属于鼓励方向 + 「人主导、机辅助」特征明显 → 整体风险降一档 - 属于鼓励方向但存在轻微标识遗漏 → 先给修改建议,不直接判定违规 - 鼓励方向**不豁免**以下底线问题:造假、侵权、违法、色情、AI全托管运营 - 不确定是否属于鼓励方向 → 按普通内容审查,不享受降档 ### 层级式违规排查:四级推理 ``` 领域判定 → 风险主题匹配 → 违规子类定位 → 具体行为确认 ``` 每级逐步缩小判断范围,从「模糊怀疑」逼近「精确判定」。不确定时标注为风险点而非违规项。 --- ## 执行步骤 ### 阶段 1:接收输入并生成内容摘要 解析用户提交的内容: 1. **文本内容**:正文、标题、标签 2. **图片描述**:用户提供的图片文字描述或AI生成说明 3. **发布者信息**:账号类型、AI内容声明状态、历史行为特征(如有) 输出「待审查内容摘要」: ``` - 内容类型:[图文/纯文字/视频脚本/纯图片] - 正文字数:[N]字 - AI标识状态:[已声明/未声明/不适用] - 预估AI参与度:[高/中/低/无] - 发布行为特征:[正常/疑似批量/信息不足] ``` ### 阶段 2:正向筛查 判断内容是否命中三类鼓励方向。命中则标注「鼓励创作」标记,并在后续违规排查中对非底线维度从宽处理。 ### 阶段 3:层级式违规排查 按以下五个维度逐级排查。每个维度先做领域判定,再匹配风险主题,最后定位具体违规子类。 #### 维度 1:AI标识合规检查 **领域判定**:内容是否涉及AI生成或AI辅助润色? | 风险主题 | 违规子类 | 判定标准 | |---------|---------|---------| | 标识缺失 | 完全未标识 | AI生成/润色内容未做任何声明,且平台可识别 | | 标识规避 | 故意去除标识 | 使用去AI标识工具、教程规避检测 | | 标识误导 | 虚假声明 | 明明显著AI生成却声明为「纯原创无AI」 | **判定原则**: - 内容明显有AI参与痕迹但未声明 → 标注为「标识缺失」,建议补充声明 - 提供去除AI标识教程或工具 → 直接判定违规(违反AI违规运营条款) - 不确定是否有AI参与 → 标注为风险点,不做违规判定 #### 维度 2:真实性检查(AI造假领域) **领域判定**:内容是否涉及身份、经历、事实的虚构或伪造? | 风险主题 | 违规子类 | 判定标准 | |---------|---------|---------| | 身份造假 | AI冒充名人 | 伪造名人声音/样貌发布内容,混淆视听、蹭热度 | | 身份造假 | 克隆肖像/声音 | 利用AI伪造他人(非名人)面孔或声音并发布 | | 身份造假 | AI虚假人设 | 伪造普通人身份和言行,长期伪装身份欺骗他人 | | 身份造假 | AI篡改军警形象 | 生成军警形象用于娱乐、虚假内容等不当用途 | | 经历造假 | 虚假人设种草 | 以虚构身份进行产品推荐或体验分享 | | 经历造假 | 伪造经历与截图 | 编造虚假个人经历、聊天记录、交易截图 | | 信息造假 | AI虚假信息 | 生成自然灾害、事故灾难、公共卫生事件、社会安全事件四类不实信息 | | 信息造假 | 伪造公共事件 | 制造涉及公共事件的虚假图文视频 | **「人主导、机辅助」在此维度的应用**: - 创作者明确标注「本故事为AI辅助虚构创作」且不涉及真实人物 → 不属于造假 - 以真实经历为基础、用AI润色表达 → 不属于造假(前提:核心事实真实) - 内容无任何真实信息增量、全部为AI虚构堆砌 → 即使标注了AI也属于低质,非造假 #### 维度 3:侵权风险检查(AI侵权领域) **领域判定**:内容是否涉及未经授权使用他人肖像、作品、IP? | 风险主题 | 违规子类 | 判定标准 | |---------|---------|---------| | 肖像侵权 | 未经授权生成可识别肖像 | 用AI生成他人可识别肖像(包括拟真风格) | | 肖像侵权 | AI换脸侵权 | 利用AI换脸技术制作传播侵权内容 | | 著作权侵权 | 模仿受版权保护作品 | 模仿受版权保护的视觉风格、文学作品、音乐作品 | | 著作权侵权 | 洗稿/抄袭 | AI改写他人原创内容但未注明来源 | | IP侵权 | IP角色侵权 | 未经授权使用IP角色进行AI衍生创作 | **判定原则**: - 模仿「风格」vs 模仿「具体作品」有本质区别——模仿梵高风格绘画不侵权,模仿某插画师已发表的特定作品则侵权 - 不确定是否构成侵权 → 标注风险点 - 明显商业用途的侵权 → 加重一级 #### 维度 4:内容质量检查(AI低质领域) **领域判定**:内容是否属于批量模板化生产、猎奇博眼球或传播不良价值观? | 风险主题 | 违规子类 | 判定标准 | |---------|---------|---------| | 同质化批量生产 | 模板化批量生成 | 套用固定模板大量生成结构雷同的内容 | | 同质化批量生产 | AI广告营销滥用 | 以商业推广为目的批量生成广告内容 | | 博眼球低质 | 猎奇博眼球 | 以极端、猎奇画面吸引点击 | | 博眼球低质 | AI低俗内容 | 批量制作低俗内容,操控互动数据快速养号 | | 博眼球低质 | AI噱头骗互动 | 制作虚假低俗内容博眼球、蹭流量 | | 不良价值观 | 传播不良价值观 | 扭曲审美、宣扬攀比焦虑、诱导不良消费 | | 不良价值观 | AI魔改经典 | 恶搞经典作品、传播低俗惊悚、血腥暴力内容 | **「人主导、机辅助」在此维度的应用**: - 使用AI辅助但内容有明显人工策划、编辑痕迹 → 不属于批量模板化 - 内容有真实信息增量(教会用户某个知识点/技能) → 不属于低质 - 纯AI生成、无人工深度参与、信息量为零 → 判定为低质 #### 维度 5:账号行为检查(AI运营领域) **领域判定**:内容发布行为是否呈现AI自动化运营特征? | 风险主题 | 违规子类 | 判定标准 | |---------|---------|---------| | 自动运营 | AI托管账号 | 账号注册、发布、互动全流程由AI自动完成 | | 自动运营 | AI冒充真人互动 | AI模拟真人进行评论、点赞、私信等社交行为 | | 自动运营 | AI批量养号 | 多账号AI全自动运营,批量生产相似内容 | | 教唆违规 | 传授规避方法 | 分享去除AI标识教程、教唆AI洗稿、规避审核 | | 批量运营特征 | 同质化多账号 | 同一主体控制多个账号发布高度相似内容 | | 批量运营特征 | 异常发布频率 | 发布频率远超正常人类能力(如每小时数十篇) | | 批量运营特征 | 机械互动模式 | 评论互动呈现模板化、无上下文关联特征 | **Agent托管检测要点**: - 结合本内容的发布频率、与账号历史内容的相似度、互动模式综合判断 - 单篇内容正常但存在批量运营迹象 → 标注为风险点,建议关注账号整体行为 - 明显全AI托管运营 → 建议封禁账号 ### 阶段 4:综合风险评估 综合正向筛查结果和5个维度的违规排查,按以下决策树评估整体风险: #### 梯度处置决策树 | 风险等级 | 判定条件 | 风险分数 | 处置建议 | |---------|---------|---------|---------| | **安全** | 所有维度无违规,或属于鼓励方向且仅有轻微标识建议 | 0-20 | 通过,建议主动标识AI参与内容 | | **低风险** | 存在轻微标识遗漏、少量不确定风险点,无实质性违规 | 21-40 | 建议修改后发布(具体修改方案见修改建议) | | **中风险** | 明显违规(虚构人设、批量同质化、未标识AI生成内容),非恶意 | 41-60 | 限制分发,要求整改后重新审核 | | **高风险** | 严重违规(克隆肖像、AI托管运营、批量造假、恶意规避审核) | 61-80 | 删除内容,封禁账号 | | **违法/底线** | 触犯法律(色情、诈骗、危害国家安全),无论是否AI生成 | 81-100 | 立即删除,封禁账号,建议上报主管部门 | #### 风险分数计算指引 以50分为基准,按以下规则加减: - 命中任一「违规子类」:+20分/项 - 命中「风险点」(不确定但疑似):+10分/项 - 内容属于鼓励方向且「人主导、机辅助」特征明确:-15分 - 创作者已主动标识AI内容:-10分 - 首次违规(基于用户提供的历史信息):-5分 - 多次/恶意违规:+15分 - 涉及安全底线问题:直接置为81+ 分数上限100,下限0。 ### 阶段 5:输出审查报告 按以下 Markdown 格式输出: ```markdown ## 内容审查报告 ### 基本信息 - **审查时间**:[YYYY-MM-DD HH:mm] - **内容类型**:[图文/纯文字/视频脚本/纯图片] - **AI标识状态**:[已声明/未声明/不适用] - **内容摘要**:[50字以内一句话描述] ### 正向筛查 - **鼓励方向匹配**:[AI视觉创作/AI角色创作/AI知识科普/不匹配] - **「人主导、机辅助」判断**:[明确/疑似/不符合] - **降档适用**:[是/否] ### 风险评估 - **综合风险等级**:[安全/低风险/中风险/高风险/违法] - **风险分数**:[X]/100 ### 层级推理过程 > 领域:[AI造假/AI侵权/AI运营/AI低质/安全底线/无] > → 主题:[具体风险主题] > → 子类:[具体违规子类] > → 行为确认:[具体违规表现或排除理由] ### 违规分析 #### 违规项 | 维度 | 违规子类 | 具体描述 | 违规依据 | |------|---------|---------|---------| | 维度N | 子类名 | 一句话描述 | 小红书AI治理主张对应条款 | #### 风险点(不确定但需关注) | 维度 | 风险描述 | 关注原因 | 建议 | |------|---------|---------|-----| | 维度N | 描述 | 原因 | 建议 | ### 处置建议 - **建议操作**:[通过/修改后通过/限制分发+整改/删除内容/封禁账号/上报] - **修改方案**:[如适用,给出具体可操作的修改建议] - **梯度说明**:[解释为何选择此处置级别] ### 合规指引 [结合内容类型和小红书鼓励方向,给出1-2条具体的正向创作建议] --- ### 判断依据 - 规则引用:小红书AI治理主张(2026年4月27日发布) - 适用条款:[列出引用的具体条款] - 核心标准:「人主导、机辅助」——AI为工具而非主体,真实信息增量为价值标尺 ``` ## 输出规范 - 层级推理过程必须展示,确保结论可追溯、可解释 - 每项违规判断必须引用具体规则条款 - 不确定时倾向于标注为「风险点」而非「违规项」,给出建议而非判定 - 处置建议包含具体可操作的修改方案,而非仅仅说「需要修改」 - 全文使用中文 ## 注意事项 1. **文本分析为主**:图片分析基于用户提供的文字描述判断,无法直接读取图片内容 2. **「人主导、机辅助」是贯穿全流程的核心标准**:有真实信息增量且人类主导的AI辅助内容,即使触发部分风险信号,优先考虑鼓励方向 3. **鼓励方向优先判断**:在违规排查前先做正向筛查;属于鼓励方向的内容,非底线维度从宽 4. **不确定时保守标注**:拿不准的条目标记为「风险点」,不直接定性为违规 5. **违法/底线内容零容忍**:涉及色情、诈骗、危害国家安全等内容,无论是否AI生成,直接标注「违法」并建议上报,不走普通梯度处置 6. **AI托管 vs AI辅助**:关键在于是否有真实人类参与内容决策——AI辅助润色表达属于正常使用;完全由AI从选题到发布全自动执行属于托管 7. **发布行为上下文**:仅凭单篇内容难以判断账号运营模式时,标注「信息不足」而非强行判定 ## 作者信息 - 作者:mars2003 - 日期:2026-04-29
don't have the plugin yet? install it then click "run inline in claude" again.