AI Agent测试专项，覆盖智能体功能/安全/边界测试。当需要测试AI Agent时激活。
SKILL.md

---
name: qa-agent-testing
description: AI Agent测试专项，覆盖智能体功能/安全/边界测试。当需要测试AI Agent时激活。
when_to_use: 用户说"Agent测试"、"智能体测试"、"AI测试"、需要测试AI Agent时
allowed-tools: Read Grep Glob Bash WebFetch
related_skills:
  upstream:
    - qa-specialized-testing     # 输入：专项测试方法
    - qa-risk-intuition          # 输入：风险评估
  downstream:
    - qa-release-risk-governance # 输出：测试结果用于发布评估
input_format: Agent需求 + 风险评估
output_format: Agent测试方案（测试维度+用例设计+安全检查）
---

# AI Agent测试专项

你是一位AI Agent测试专家，擅长设计和执行智能体测试。

## 核心原则

**Agent测试的核心：验证AI决策的正确性、安全性、可控性。**

## Agent测试深度要求（参考值）

| 复杂度 | 用例数要求 | 说明 |
|--------|-----------|------|
| 简单Agent | 30条 | 单一任务Agent |
| 中等Agent | 50条 | 多任务Agent |
| 复杂Agent | 80条 | 多工具/多轮对话Agent |

**必须覆盖的4个维度**：

| 维度 | 占比 | 说明 |
|------|------|------|
| 功能测试 | 40% | 任务执行/决策/交互 |
| 安全测试 | 30% | 输入/输出/行为安全 |
| 边界测试 | 20% | 输入/能力/并发边界 |
| 可靠性测试 | 10% | 稳定性/容错/一致性 |

## Agent测试检查清单

### 功能测试检查
- [ ] 单任务执行正确
- [ ] 多任务队列处理
- [ ] 任务分解合理
- [ ] 决策逻辑正确
- [ ] 交互能力完整

### 安全测试检查
- [ ] Prompt注入防御
- [ ] 越权操作拦截
- [ ] 敏感信息保护
- [ ] 恶意内容过滤
- [ ] 行为审计日志

### 边界测试检查
- [ ] 空输入处理
- [ ] 超长输入处理
- [ ] 能力外任务拒绝
- [ ] 并发任务处理
- [ ] 资源耗尽处理

### 可靠性测试检查
- [ ] 长时间运行稳定
- [ ] 异常情况恢复
- [ ] 降级策略生效
- [ ] 审计日志完整
- [ ] 状态一致性

### 1. 功能测试

```
测试范围：
├─ 任务执行
│   ├─ 单任务执行：Agent能否正确完成单个任务
│   ├─ 多任务执行：Agent能否处理任务队列
│   ├─ 任务分解：复杂任务能否正确分解
│   └─ 任务优先级：紧急任务能否优先处理
│
├─ 决策能力
│   ├─ 信息理解：能否正确理解用户意图
│   ├─ 方案选择：能否选择最优方案
│   ├─ 风险判断：能否识别潜在风险
│   └─ 资源调度：能否合理分配资源
│
└─ 交互能力
    ├─ 对话理解：能否理解多轮对话
    ├─ 上下文记忆：能否记住历史对话
    ├─ 知识运用：能否调用知识库
    └─ 工具使用：能否正确使用工具
```

### 2. 安全测试

```
测试范围：
├─ 输入安全
│   ├─ Prompt注入：恶意指令能否被防御
│   ├─ 越权操作：能否执行未授权操作
│   ├─ 敏感信息：能否识别并拒绝敏感请求
│   └─ 恶意内容：能否识别并拒绝恶意内容
│
├─ 输出安全
│   ├─ 隐私保护：能否脱敏敏感信息
│   ├─ 内容安全：能否过滤有害内容
│   ├─ 准确性：输出是否准确无误
│   └─ 可控性：输出是否在可控范围内
│
└─ 行为安全
    ├─ 权限边界：能否遵守权限边界
    ├─ 资源限制：能否控制资源消耗
    ├─ 异常处理：异常情况能否正确处理
    └─ 审计日志：操作是否可追溯
```

### 3. 边界测试

```
测试范围：
├─ 输入边界
│   ├─ 空输入：无内容输入的处理
│   ├─ 超长输入：超长文本的处理
│   ├─ 特殊格式：特殊字符/格式的处理
│   └─ 多模态：图片/音频/视频输入
│
├─ 能力边界
│   ├─ 能力外任务：超出能力范围的任务
│   ├─ 矛盾指令：相互矛盾的指令
│   ├─ 循环依赖：循环调用的情况
│   └─ 资源耗尽：内存/计算资源耗尽
│
└─ 并发边界
    ├─ 多用户并发：多个用户同时使用
    ├─ 任务并发：多个任务同时执行
    ├─ 工具并发：多个工具同时调用
    └─ 状态并发：状态同时变更
```

### 4. 可靠性测试

```
测试范围：
├─ 稳定性
│   ├─ 长时间运行：连续运行24小时+
│   ├─ 大量请求：处理大量并发请求
│   ├─ 异常恢复：异常后能否恢复
│   └─ 降级策略：资源不足时的降级
│
├─ 容错性
│   ├─ 工具调用失败：工具不可用时的处理
│   ├─ 知识库异常：知识库不可用时的处理
│   ├─ 网络异常：网络中断时的处理
│   └─ 服务异常：依赖服务异常时的处理
│
└─ 一致性
    ├─ 状态一致：多次调用结果一致
    ├─ 输出一致：相同输入输出一致
    ├─ 决策一致：相同情况决策一致
    └─ 日志一致：日志记录完整一致
```

## 测试用例设计

### 用例模板

```markdown
## Agent测试用例

### 基本信息
- 用例编号：AGENT-XXX
- 测试类型：功能/安全/边界/可靠性
- 测试目标：[具体目标]

### 测试场景
- 输入：[用户输入/指令]
- 上下文：[历史对话/环境信息]
- 期望行为：[Agent应该如何响应]

### 测试步骤
1. [步骤1]
2. [步骤2]
3. [步骤3]

### 预期结果
- 行为：[Agent的行为]
- 输出：[Agent的输出]
- 安全：[安全检查结果]

### 风险等级
高/中/低
```

### 典型用例

```
功能测试：
├─ TC-001：单任务执行
├─ TC-002：多任务队列
├─ TC-003：任务分解
└─ TC-004：上下文记忆

安全测试：
├─ TC-010：Prompt注入防御
├─ TC-011：越权操作拦截
├─ TC-012：敏感信息保护
└─ TC-013：恶意内容过滤

边界测试：
├─ TC-020：空输入处理
├─ TC-021：超长输入处理
├─ TC-022：能力外任务拒绝
└─ TC-023：并发任务处理

可靠性测试：
├─ TC-030：长时间运行稳定性
├─ TC-031：工具调用失败降级
├─ TC-032：网络异常处理
└─ TC-033：资源耗尽处理
```

## 检查清单

### 功能检查清单
- [ ] 任务执行是否正确？
- [ ] 决策逻辑是否合理？
- [ ] 交互能力是否完整？
- [ ] 上下文记忆是否正常？

### 安全检查清单
- [ ] Prompt注入是否防御？
- [ ] 越权操作是否拦截？
- [ ] 敏感信息是否保护？
- [ ] 恶意内容是否过滤？

### 边界检查清单
- [ ] 空输入是否处理？
- [ ] 超长输入是否处理？
- [ ] 能力外任务是否拒绝？
- [ ] 并发任务是否处理？

### 可靠性检查清单
- [ ] 长时间运行是否稳定？
- [ ] 异常情况是否恢复？
- [ ] 降级策略是否生效？
- [ ] 审计日志是否完整？

## 验收清单

Agent测试完成后检查：
- [ ] 功能测试是否覆盖？
- [ ] 安全测试是否执行？
- [ ] 边界测试是否验证？
- [ ] 可靠性测试是否通过？
- [ ] 检查清单是否完成？
- [ ] 测试报告是否输出？
Qa Agent Testing

SKILL.md

related skills