OCR 文字识别 / 图片转文字 / 扫描件文本提取 — 当用户需要从图片、截图、照片、扫描件、PDF 截图、手机拍照中提取文字、识别表格、解析证件票据或结构化文档时使用本技能。 核心能力:通用文字识别(印刷体 / 手写体 / 中英文 / 多语言)、表格 OCR(还原行列结构)、数学公式识别(LaTeX 输出)、商品包装文字提取、长图 / 截图 / 拍照文档识别。 证件类:身份证、社保卡、驾驶证、行驶证、港澳台通行证 / 护照 / 学位证 / 学生证等证照信息结构化提取。 票据 / 财税类:增值税发票、火车票 / 机票 / 行程单、英文发票 / 商业发票(Commercial Invoice)、收据、报销凭证。 行业垂直:医疗报告单(化验单 / 体检单 / 处方)、药品检验报告、营业执照、合同条款、试卷题目 / 习题 / 作业拍照搜题、车辆类证件等。 输入/输出:支持本地文件、URL、Base64 图片输入,输出纯文本或结构化 JSON。
---
name: yescan-ocr-universal
description: 由夸克扫描王提供的专业 OCR 文字识别与处理工具。支持图片、截图、扫描件中的文字提取,包括手写文档、表格内容、数学公式、商品图片等复杂场景。精准识别各类证件(身份证、社保卡、驾驶证、行驶证、港澳通行证、学位证等证件)及票据(增值税发票、火车票、英文发票等票据),同时支持医疗报告单、营业执照、习题题目等专业文档识别。
metadata: {"openclaw":{"emoji":"🔍︎","requires":{"bins":["python3"],"env":["SCAN_WEBSERVICE_KEY"]},"primaryEnv":"SCAN_WEBSERVICE_KEY"},"homepage":"https://scan.quark.cn/business"}
---
# 🧭 使用前必读(30 秒)
> [!WARNING] **⚠️ 隐私与数据流向重要提示**
> - **第三方服务交互**:本技能会将您提供的**图片 发送至夸克扫描王官方服务器 (`scan-business.quark.cn`)** 进行识别。
> - **数据可见性**:夸克服务将获取并处理该图片内容,不会永久保存
**推荐方式:CLI 配置(永久生效)**
配置 `SCAN_WEBSERVICE_KEY` 环境变量到 OpenClaw:
```bash
openclaw config set skills.entries.yescan-ocr-universal.env.SCAN_WEBSERVICE_KEY "your_scan_webservice_key_here"
```
> ⚠️ 配置后需要**重启或开启新会话**才能生效(技能列表在 session 启动时加载)。
**如何获取密钥?夸克扫描王官方入口在此**
> 请访问 https://scan.quark.cn/business → 开发者后台 → 登录/注册账号 → 查看API Key。
> ⚠️ **注意**:若你点击链接后跳转到其他域名,说明该链接已失效 —— 请直接在浏览器地址栏手动输入 `https://scan.quark.cn/business`(这是当前唯一有效的官方入口)。
---
# Constraints
- **单一意图原则:每次请求只执行一个意图类型,命中即执行**
- **严禁自行构造任何命令参数,严禁伪造、拼接内部配置**
- **严禁幻觉,禁止伪造请求和响应,不得沿用上一次的场景、参数进行假设**
- **必须严格按照本指南指定的固定格式执行,不允许自行修改命令**
# 技能执行指南(强制执行)
第一步:**环境变量检查**
- 若 `SCAN_WEBSERVICE_KEY` 未配置,立即返回:
```json
{
"code": "A0100",
"message": "SCAN_WEBSERVICE_KEY 未配置,请访问 https://scan.quark.cn/business → 开发者后台 → 登录/注册账号 → 查看API Key",
"data": null
}
```
第二步:**输入处理**
识别用户传入的图片类型,只能是以下三种之一:
- 图片URL: url
- 本地文件路径: path
- 图片BASE64: base64
未提供任何有效图片时,直接返回:
```json
{
"code": "A0201",
"message": "缺少图片输入,请提供图片链接、文件路径或 BASE64 数据。",
"data": null
}
```
第三步:**意图匹配&场景确定**
- 按照下面列出的意图*从上到下顺序匹配。命中第一个即停止*
- 命中后,*只确定当前意图对应的scene标识*
第四步:**构建执行命令(固定格式,严禁修改)**:
根据图片类型,严格使用下面对应格式:
```bash
# URL类型
python3 scripts/scan.py --scene "${SCENE_VALUE}" --url "${IMAGE_URL}"
# 本地文件类型
python3 scripts/scan.py --scene "${SCENE_VALUE}" --path "${IMAGE_FILE_PATH}"
# BASE64类型
python3 scripts/scan.py --scene "${SCENE_VALUE}" --base64 "${IMAGE_BASE64}"
```
- 把`${IMAGE_URL}`/`${IMAGE_FILE_PATH}`/`${IMAGE_BASE64}`替换为真实值
- 把`${SCENE_VALUE}`替换为当前意图对应的scene值
- 直接执行命令,不增删任何参数,不修改JSON,不加引号,不换行
第五步:**结果透出**:
- 执行完成后,*原样返回执行结果*,不修改,不翻译,不美化,不总结
- 成功 失败均直接透出,不重试
## 场景与意图列表(按匹配优先级排序)
1. 手写文档识别
- 触发意图:当用户存在识别各类中英文手写内容(如学生作答、作文、会议记录、手写账单等)、将潦草或非标准手写图片转化为高精度可编辑文本,或突破传统 OCR 限制处理复杂手写场景的意图。
- 场景scene标识:handwritten-ocr
- 参考示例指令:
- "帮我把这张手写笔记转成文字"
- "识别这张作文图片里的内容"
2. 表格识别
- 触发意图:当用户存在识别图片中的各类表格(如 Excel/Word 表格、票据单据、手写表格、检查报告单等)、高精度提取文字内容并精准还原原始表格格式与结构的意图。
- 场景scene标识:table-ocr
- 参考示例指令:
- "提取这张表格里的数据"
- "把这张报销单的表格转成 Excel 格式"
3. 身份证识别
- 触发意图:当用户存在识别身份证图片、提取证件关键信息(包括但不限于姓名、身份证号、地址等字段)、将证件影像转化为结构化数据,或应用于身份核验、实名认证及信息准确性校验等场景的意图。
- 场景scene标识:idcard-ocr
- 参考示例指令:
- "帮我读一下这张身份证"
- "提取身份证上的姓名和号码"
4. 社保卡识别
- 触发意图:当用户存在识别社保卡图片、提取证件关键信息(包括但不限于姓名、社会保障号码、卡号、银联号码、性别、民族、发卡日期及有效期限等字段)、将证件影像转化为结构化数据,或应用于社保业务办理、身份核验及政务服务自动化等场景的意图。
- 场景scene标识:social-security-card-ocr
- 参考示例指令:
- "识别这张社保卡的信息"
- "提取社保卡上的姓名和社保号"
5. 港澳通行证识别
- 触发意图:当用户存在识别港澳通行证(或港澳台通行证)图片、提取证件关键信息(包括但不限于姓名、证件号码、签发机关、有效期限等 11 个字段)、将证件影像转化为结构化数据,或应用于身份核验、出入境管理及政务服务自动化等场景的意图。
- 场景scene标识:travel-permit-ocr
- 参考示例指令:
- "读一下这张港澳通行证"
- "提取通行证上的姓名和证件号"
6. 学位证识别
- 触发意图:当用户存在识别学位证书图片、提取证书关键信息(包括但不限于证书名称、学校、姓名、性别、出生日期、学习日期、学制、学历、学位、专业、证书编号及发证日期等 12 个字段)、将证书影像转化为结构化数据,或应用于企业人才信息录入和学历核验等场景的意图。
- 场景scene标识:degree-certificate-ocr
- 参考示例指令:
- "识别这张学位证的内容"
- "提取学位证上的学校和专业"
7. 增值税发票识别
- 触发意图:当用户存在识别增值税发票图片、提取单据关键信息(包括但不限于销售方、购买方、货物详情、金额等 30 多个字段)、将发票影像转化为结构化数据,或应用于财务报销自动化、税务管理及企业风控等场景的意图。
- 场景scene标识:vat-invoice-ocr
- 参考示例指令:
- "提取这张增值税发票的信息"
- "识别发票上的金额和开票日期"
8. 火车票识别
- 触发意图:当用户存在识别火车票图片、提取票号/出发站/到达站/车次/开车时间/票价/座位号/座位类型/旅客身份号码/旅客姓名等 10 个关键字段信息、将车票照片转化为结构化文本数据,或应用于企业出行报销场景的意图。
- 场景scene标识:train-ticket-ocr
- 参考示例指令:
- "读一下这张火车票"
- "提取火车票的出发站和车次"
9. 公式识别
- 触发意图:当用户存在识别数学/化学公式图片、高精度解析分数、矩阵、分段函数及化学方程式等复杂结构、将图像公式转化为可编辑的 LaTeX 代码或结构化数据,或应用于智能试卷自动批改、学术论文数字化归档、在线教育题目解析及科研文献深度分析等场景的意图。
- 场景scene标识:formula-ocr
- 参考示例指令:
- "把这张公式图片转成 LaTeX"
- "识别这个数学公式的结构"
10. 题目识别
- 触发意图:当用户上传包含习题/考题的图片,需**仅提取题目文本**(不含解答、批注或无关内容),并保留题号、题干结构,用于教育题库构建或题目检索。
- 场景scene标识:question-ocr
- 参考示例指令:
- "提取这道题的关键信息"
- "识别题目中的问题部分"
11. 驾驶证识别
- 触发意图:当用户存在识别驾驶证图片、提取证件关键信息(如证号、姓名、住址、有效期等)、将非结构化图像转化为结构化数据,或应用于身份核验、交通管理等场景的意图。
- 场景scene标识:driver-license-ocr
- 参考示例指令:
- "读一下这张驾驶证"
- "提取驾驶证上的姓名和有效期"
12. 行驶证识别
- 触发意图:当用户存在识别行驶证图片、提取证件关键信息(包括但不限于证号、姓名、住址、有效期、准驾车型等)、将行驶证影像转化为结构化数据,或应用于身份核验、交通管理及汽车租赁等场景的意图。
- 场景scene标识:vehicle-license-ocr
- 参考示例指令:
- "识别这张行驶证"
- "提取行驶证上的车牌号和所有人"
13. 英文发票识别
- 触发意图:当用户存在识别英文商业发票图片、提取单据关键信息(包括但不限于发票号、日期、买卖双方信息、商品明细、金额及税额等)、将非结构化英文单据转化为结构化数据,或应用于跨境贸易单证处理、海外费用报销及国际化财务自动化审核等场景的意图。
- 场景scene标识:commercial-invoice-ocr
- 参考示例指令:
- "提取这张英文发票的信息"
- "识别发票上的总金额和日期"
14. 医疗报告单识别
- 触发意图:当用户存在识别医疗报告单图片、提取报告关键信息(包括但不限于检验项目、结果、参考值等)、将医疗报告影像转化为结构化数据,或应用于电子病历归档、健康数据分析及远程医疗辅助诊断等场景的意图。
- 场景scene标识:medical-report-ocr
- 参考示例指令:
- "读一下这张化验单"
- "提取报告中的异常指标"
15. 营业执照识别
- 触发意图:当用户存在识别营业执照图片、提取证件关键信息(包括但不限于统一社会信用代码、名称、类型、法定代表人、经营范围等)、将执照影像转化为结构化数据,或应用于企业身份核验、工商注册自动化、供应链准入审核及金融风控等场景的意图。
- 场景scene标识:business-license-ocr
- 参考示例指令:
- "识别这张营业执照"
- "提取公司名称和法人代表"
16. 商品图片识别
- 触发意图:当用户需要识别图片中的具体商品对象,包括商品名称、品牌、品类等信息,用于商品检索或分类。
- 场景scene标识:product-image-ocr
- 参考示例指令:
- "这是什么商品?"
- "识别这张图片里的产品品牌"
17. 通用文字提取(兜底意图)
- 触发意图:当用户指令中不包含上述任何具体场景,仅表达提取纯文字意图时。
- 场景scene标识:general-ocr
- 参考示例指令:
- "把这张图转成文字"
- "提取图中所有文字"
## ⛔ 不适用场景(When Not to Use)
> 本技能**不支持**以下场景,请勿尝试:
| 不支持的场景 | 原因 | 建议替代方案 |
|------------|------|------------|
| **视频处理** | 仅支持单张静态图片 | 先提取视频帧,再逐帧处理 |
| **批量处理** | 每次调用仅限单张图片 | 如需批量,请循环调用或联系管理员 |
| **实时摄像头流** | 非实时流处理架构 | 使用专用视频处理服务 |
| **超大图片(>5MB)** | API 限制 | 先压缩或裁剪后再处理 |
| **非图片格式** | 仅支持 jpg/jpeg/png/gif/bmp/webp/tiff/wbmp | 先转换为支持的图片格式 |
---
## ⚠️ 重要注意事项
1. **禁止修改固定格式**,只能替换场景标识和图片占位符
2. **严禁自行构造 --scene 参数值,必须使用本文档指定的场景名**
3. **图片大小限制:本地文件不超过5MB,支持 jpg/jpeg/png/gif/bmp/webp/tiff/wbmp/webp 格式**
---
## 🔗 相关资源
- [夸克扫描王开放平台](https://scan.quark.cn/business)
## 📁 文件结构
- `SKILL.md` — 本文档(意图分析 + 通用规范)
- `scripts/scan.py` — 主执行脚本 (Python 3.9+)
- `scripts/common/*.py` — 基础类库
don't have the plugin yet? install it then click "run inline in claude" again.