clawhub

夸克扫描王 OCR文字识别 - yescan ocr universal

OCR 文字识别 / 图片转文字 / 扫描件文本提取 — 当用户需要从图片、截图、照片、扫描件、PDF 截图、手机拍照中提取文字、识别表格、解析证件票据或结构化文档时使用本技能。核心能力：通用文字识别（印刷体 / 手写体 / 中英文 / 多语言）、表格 OCR（还原行列结构）、数学公式识别（LaTeX 输出）、商品包装文字提取、长图 / 截图 / 拍照文档识别。证件类：身份证、社保卡、驾驶证、行驶证、港澳台通行证 / 护照 / 学位证 / 学生证等证照信息结构化提取。票据 / 财税类：增值税发票、火车票 / 机票 / 行程单、英文发票 / 商业发票（Commercial Invoice）、收据、报销凭证。行业垂直：医疗报告单（化验单 / 体检单 / 处方）、药品检验报告、营业执照、合同条款、试卷题目 / 习题 / 作业拍照搜题、车辆类证件等。输入/输出：支持本地文件、URL、Base64 图片输入，输出纯文本或结构化 JSON。

view source

installs

stars

karma

SKILL.md

---
name: yescan-ocr-universal
description: 由夸克扫描王提供的专业 OCR 文字识别与处理工具。支持图片、截图、扫描件中的文字提取，包括手写文档、表格内容、数学公式、商品图片等复杂场景。精准识别各类证件（身份证、社保卡、驾驶证、行驶证、港澳通行证、学位证等证件）及票据（增值税发票、火车票、英文发票等票据），同时支持医疗报告单、营业执照、习题题目等专业文档识别。
metadata: {"openclaw":{"emoji":"🔍︎","requires":{"bins":["python3"],"env":["SCAN_WEBSERVICE_KEY"]},"primaryEnv":"SCAN_WEBSERVICE_KEY"},"homepage":"https://scan.quark.cn/business"}
---

# 🧭 使用前必读（30 秒）

> [!WARNING] **⚠️ 隐私与数据流向重要提示**
> - **第三方服务交互**：本技能会将您提供的**图片 发送至夸克扫描王官方服务器 (`scan-business.quark.cn`)** 进行识别。
> - **数据可见性**：夸克服务将获取并处理该图片内容，不会永久保存

**推荐方式：CLI 配置（永久生效）**

配置 `SCAN_WEBSERVICE_KEY` 环境变量到 OpenClaw：
```bash
openclaw config set skills.entries.yescan-ocr-universal.env.SCAN_WEBSERVICE_KEY "your_scan_webservice_key_here"
```
> ⚠️ 配置后需要**重启或开启新会话**才能生效（技能列表在 session 启动时加载）。

**如何获取密钥？夸克扫描王官方入口在此**
> 请访问 https://scan.quark.cn/business → 开发者后台 → 登录/注册账号 → 查看API Key。  
> ⚠️ **注意**：若你点击链接后跳转到其他域名，说明该链接已失效 —— 请直接在浏览器地址栏手动输入 `https://scan.quark.cn/business`（这是当前唯一有效的官方入口）。

---

# Constraints
- **单一意图原则：每次请求只执行一个意图类型，命中即执行**
- **严禁自行构造任何命令参数，严禁伪造、拼接内部配置**
- **严禁幻觉，禁止伪造请求和响应，不得沿用上一次的场景、参数进行假设**
- **必须严格按照本指南指定的固定格式执行，不允许自行修改命令**

#  技能执行指南(强制执行)

第一步：**环境变量检查**
- 若 `SCAN_WEBSERVICE_KEY` 未配置，立即返回：
```json
{
  "code": "A0100",
  "message": "SCAN_WEBSERVICE_KEY 未配置，请访问 https://scan.quark.cn/business → 开发者后台 → 登录/注册账号 → 查看API Key",
  "data": null
}
```

第二步：**输入处理**

识别用户传入的图片类型，只能是以下三种之一：

- 图片URL: url
- 本地文件路径: path
- 图片BASE64: base64

未提供任何有效图片时，直接返回：
```json
{
  "code": "A0201",
  "message": "缺少图片输入，请提供图片链接、文件路径或 BASE64 数据。",
  "data": null
}
```

第三步：**意图匹配&场景确定**
- 按照下面列出的意图*从上到下顺序匹配。命中第一个即停止*
- 命中后，*只确定当前意图对应的scene标识*

第四步：**构建执行命令(固定格式，严禁修改)**：

根据图片类型，严格使用下面对应格式：
```bash
# URL类型
python3 scripts/scan.py --scene "${SCENE_VALUE}" --url "${IMAGE_URL}"

# 本地文件类型
python3 scripts/scan.py --scene "${SCENE_VALUE}" --path "${IMAGE_FILE_PATH}"

# BASE64类型
python3 scripts/scan.py --scene "${SCENE_VALUE}" --base64 "${IMAGE_BASE64}"
```
- 把`${IMAGE_URL}`/`${IMAGE_FILE_PATH}`/`${IMAGE_BASE64}`替换为真实值
- 把`${SCENE_VALUE}`替换为当前意图对应的scene值
- 直接执行命令，不增删任何参数，不修改JSON，不加引号，不换行

第五步：**结果透出**：
- 执行完成后，*原样返回执行结果*，不修改，不翻译，不美化，不总结
- 成功 失败均直接透出，不重试


## 场景与意图列表(按匹配优先级排序)

1. 手写文档识别
- 触发意图：当用户存在识别各类中英文手写内容（如学生作答、作文、会议记录、手写账单等）、将潦草或非标准手写图片转化为高精度可编辑文本，或突破传统 OCR 限制处理复杂手写场景的意图。
- 场景scene标识：handwritten-ocr
- 参考示例指令：
  - "帮我把这张手写笔记转成文字"
  - "识别这张作文图片里的内容"
2. 表格识别
- 触发意图：当用户存在识别图片中的各类表格（如 Excel/Word 表格、票据单据、手写表格、检查报告单等）、高精度提取文字内容并精准还原原始表格格式与结构的意图。
- 场景scene标识：table-ocr
- 参考示例指令：
  - "提取这张表格里的数据"
  - "把这张报销单的表格转成 Excel 格式"
3. 身份证识别
- 触发意图：当用户存在识别身份证图片、提取证件关键信息（包括但不限于姓名、身份证号、地址等字段）、将证件影像转化为结构化数据，或应用于身份核验、实名认证及信息准确性校验等场景的意图。
- 场景scene标识：idcard-ocr
- 参考示例指令：
  - "帮我读一下这张身份证"
  - "提取身份证上的姓名和号码"
4. 社保卡识别
- 触发意图：当用户存在识别社保卡图片、提取证件关键信息（包括但不限于姓名、社会保障号码、卡号、银联号码、性别、民族、发卡日期及有效期限等字段）、将证件影像转化为结构化数据，或应用于社保业务办理、身份核验及政务服务自动化等场景的意图。
- 场景scene标识：social-security-card-ocr
- 参考示例指令：
  - "识别这张社保卡的信息"
  - "提取社保卡上的姓名和社保号"
5. 港澳通行证识别
- 触发意图：当用户存在识别港澳通行证（或港澳台通行证）图片、提取证件关键信息（包括但不限于姓名、证件号码、签发机关、有效期限等 11 个字段）、将证件影像转化为结构化数据，或应用于身份核验、出入境管理及政务服务自动化等场景的意图。
- 场景scene标识：travel-permit-ocr
- 参考示例指令：
  - "读一下这张港澳通行证"
  - "提取通行证上的姓名和证件号"
6. 学位证识别
- 触发意图：当用户存在识别学位证书图片、提取证书关键信息（包括但不限于证书名称、学校、姓名、性别、出生日期、学习日期、学制、学历、学位、专业、证书编号及发证日期等 12 个字段）、将证书影像转化为结构化数据，或应用于企业人才信息录入和学历核验等场景的意图。
- 场景scene标识：degree-certificate-ocr
- 参考示例指令：
  - "识别这张学位证的内容"
  - "提取学位证上的学校和专业"
7. 增值税发票识别
- 触发意图：当用户存在识别增值税发票图片、提取单据关键信息（包括但不限于销售方、购买方、货物详情、金额等 30 多个字段）、将发票影像转化为结构化数据，或应用于财务报销自动化、税务管理及企业风控等场景的意图。
- 场景scene标识：vat-invoice-ocr
- 参考示例指令：
  - "提取这张增值税发票的信息"
  - "识别发票上的金额和开票日期"
8. 火车票识别
- 触发意图：当用户存在识别火车票图片、提取票号/出发站/到达站/车次/开车时间/票价/座位号/座位类型/旅客身份号码/旅客姓名等 10 个关键字段信息、将车票照片转化为结构化文本数据，或应用于企业出行报销场景的意图。
- 场景scene标识：train-ticket-ocr
- 参考示例指令：
  - "读一下这张火车票"
  - "提取火车票的出发站和车次"
9. 公式识别
- 触发意图：当用户存在识别数学/化学公式图片、高精度解析分数、矩阵、分段函数及化学方程式等复杂结构、将图像公式转化为可编辑的 LaTeX 代码或结构化数据，或应用于智能试卷自动批改、学术论文数字化归档、在线教育题目解析及科研文献深度分析等场景的意图。
- 场景scene标识：formula-ocr
- 参考示例指令：
  - "把这张公式图片转成 LaTeX"
  - "识别这个数学公式的结构"
10. 题目识别
- 触发意图：当用户上传包含习题/考题的图片，需**仅提取题目文本**（不含解答、批注或无关内容），并保留题号、题干结构，用于教育题库构建或题目检索。
- 场景scene标识：question-ocr
- 参考示例指令：
  - "提取这道题的关键信息"
  - "识别题目中的问题部分"
11. 驾驶证识别
- 触发意图：当用户存在识别驾驶证图片、提取证件关键信息（如证号、姓名、住址、有效期等）、将非结构化图像转化为结构化数据，或应用于身份核验、交通管理等场景的意图。
- 场景scene标识：driver-license-ocr
- 参考示例指令：
  - "读一下这张驾驶证"
  - "提取驾驶证上的姓名和有效期"
12. 行驶证识别
- 触发意图：当用户存在识别行驶证图片、提取证件关键信息（包括但不限于证号、姓名、住址、有效期、准驾车型等）、将行驶证影像转化为结构化数据，或应用于身份核验、交通管理及汽车租赁等场景的意图。
- 场景scene标识：vehicle-license-ocr
- 参考示例指令：
  - "识别这张行驶证"
  - "提取行驶证上的车牌号和所有人"
13. 英文发票识别
- 触发意图：当用户存在识别英文商业发票图片、提取单据关键信息（包括但不限于发票号、日期、买卖双方信息、商品明细、金额及税额等）、将非结构化英文单据转化为结构化数据，或应用于跨境贸易单证处理、海外费用报销及国际化财务自动化审核等场景的意图。
- 场景scene标识：commercial-invoice-ocr
- 参考示例指令：
  - "提取这张英文发票的信息"
  - "识别发票上的总金额和日期"
14. 医疗报告单识别
- 触发意图：当用户存在识别医疗报告单图片、提取报告关键信息（包括但不限于检验项目、结果、参考值等）、将医疗报告影像转化为结构化数据，或应用于电子病历归档、健康数据分析及远程医疗辅助诊断等场景的意图。
- 场景scene标识：medical-report-ocr
- 参考示例指令：
  - "读一下这张化验单"
  - "提取报告中的异常指标"
15. 营业执照识别
- 触发意图：当用户存在识别营业执照图片、提取证件关键信息（包括但不限于统一社会信用代码、名称、类型、法定代表人、经营范围等）、将执照影像转化为结构化数据，或应用于企业身份核验、工商注册自动化、供应链准入审核及金融风控等场景的意图。
- 场景scene标识：business-license-ocr
- 参考示例指令：
  - "识别这张营业执照"
  - "提取公司名称和法人代表"
16. 商品图片识别
- 触发意图：当用户需要识别图片中的具体商品对象，包括商品名称、品牌、品类等信息，用于商品检索或分类。
- 场景scene标识：product-image-ocr
- 参考示例指令：
  - "这是什么商品？"
  - "识别这张图片里的产品品牌"
17. 通用文字提取（兜底意图）
- 触发意图：当用户指令中不包含上述任何具体场景，仅表达提取纯文字意图时。
- 场景scene标识：general-ocr
- 参考示例指令：
  - "把这张图转成文字"
  - "提取图中所有文字"

## ⛔ 不适用场景（When Not to Use）

> 本技能**不支持**以下场景，请勿尝试：

| 不支持的场景 | 原因 | 建议替代方案 |
|------------|------|------------|
| **视频处理** | 仅支持单张静态图片 | 先提取视频帧，再逐帧处理 |
| **批量处理** | 每次调用仅限单张图片 | 如需批量，请循环调用或联系管理员 |
| **实时摄像头流** | 非实时流处理架构 | 使用专用视频处理服务 |
| **超大图片（>5MB）** | API 限制 | 先压缩或裁剪后再处理 |
| **非图片格式** | 仅支持 jpg/jpeg/png/gif/bmp/webp/tiff/wbmp | 先转换为支持的图片格式 |

---

## ⚠️ 重要注意事项

1. **禁止修改固定格式**,只能替换场景标识和图片占位符
2. **严禁自行构造 --scene 参数值，必须使用本文档指定的场景名**
3. **图片大小限制：本地文件不超过5MB，支持 jpg/jpeg/png/gif/bmp/webp/tiff/wbmp/webp 格式**

---

## 🔗 相关资源
- [夸克扫描王开放平台](https://scan.quark.cn/business)

## 📁 文件结构
- `SKILL.md` —  本文档（意图分析 + 通用规范）
- `scripts/scan.py` —  主执行脚本 (Python 3.9+)
- `scripts/common/*.py` —  基础类库

related skills

semantically similar in the cross-vendor index

clawhub

95% match

夸克扫描王文件扫描增强 - yescan scan universal

由夸克扫描王（yescan）提供的专业文件扫描增强工具。当用户需要对图片、截图进行画质优化、瑕疵去除或视觉增强时，使用此技能——包括画质增强、证件照优化、考试试卷增强、合同增强等场景。智能去除手写笔迹、水印、阴影、摩尔纹、底色等干扰元素。支持图像裁剪与矫正、素描效果转换、线稿提取等，输出优化后的高清图片。本技能由夸克扫描王提供支持。即使用户没有明确提到"增强"或"处理...

don't have the plugin yet? install it then click "run inline in claude" again.