back
loading skill details...
四引擎本地轻量CPU TTS语音播报系统。让 QClaw/OpenClaw 像豆包一样自然开口说话。 引擎:Edge TTS(在线微软神经)→ sherpa-onnx Piper(离线13MB ONNX)→ Windows SAPI(离线原生)。 支持 11 款中文音色、自动语音播报、引擎智能降级、一键安装。 U...
--- name: qclaw-speaker description: | 四引擎本地轻量CPU TTS语音播报系统。让 QClaw/OpenClaw 像豆包一样自然开口说话。 引擎:Edge TTS(在线微软神经)→ sherpa-onnx Piper(离线13MB ONNX)→ Windows SAPI(离线原生)。 支持 11 款中文音色、自动语音播报、引擎智能降级、一键安装。 Use when: 用户说"语音播报"/"说话"/"开口"/"读出来"/"念给我听"/"tts", 要求文字转语音, 需要自动语音回复, 无障碍/驾车/做饭场景。 --- # 🎙️ QClaw Speaker — 让 AI 自然开口说话 **四引擎本地轻量 CPU TTS 语音播报系统**。无需 GPU,无需云 API,13MB 模型即可在 CPU 上实时合成中文语音,流畅度媲美云服务。 > 如果说 `video-subtitle-extractor` 是给大模型装上了"视频字幕眼睛", > 那么 `qclaw-speaker` 就是给它装上了"嘴巴",像豆包一样自然开口! --- ## 🚀 Quick Start ```bash # 一键安装(2引擎 + 默认音色) python scripts/install.py # 说话! python scripts/speak.py "你好,我是QClaw,很高兴为你服务!" python scripts/speak.py "大家好" --voice yunxi # 男声 python scripts/speak.py "离线播报" --engine sherpa # 本地离线 python scripts/speak.py "系统原生" --engine win # Windows自带 # 切换默认音色 python scripts/speak.py --set-voice xiao_ya # 开启自动播报 python scripts/speak.py --auto-speak on ``` --- ## 📊 2025-2026 本地轻量 CPU 中文 TTS 模型全景对比 ### 技能内置引擎对比 | 排名 | 引擎 | 大小 | RAM | 中文 | CPU速度 | 流式 | 离线 | 说明 | |:----:|------|-----:|----:|:----:|--------|:----:|:----:|------| | 🥇 | **Edge TTS** | 0 | ~50MB | ⭐⭐⭐⭐⭐ | <1s | ✅ | ❌ | 微软神经TTS,免费在线 | | 🥈 | **Sherpa+Piper** | 13MB | ~200MB | ⭐⭐⭐⭐ | RTF 0.05 | ✅ | ✅ | ONNX推理,CPU极快 | | 🥉 | **Windows SAPI** | 0 | ~50MB | ⭐⭐⭐ | <0.1s | ❌ | ✅ | 系统原生,零配置 | ### 其他值得关注的候选(可扩展) | 模型 | 大小 | RAM | 中文 | CPU速度 | 流式 | 优势 | |------|-----:|----:|:----:|--------|:----:|------| | **Kokoro v1.0** | 85MB | ~500MB | ⭐⭐⭐⭐ | RTF 0.04 | ✅ | 多语言,极快,ONNX | | **Piper C++ 原生** | 30MB | ~300MB | ⭐⭐⭐⭐ | RTF 0.03 | ✅ | 纯C++,最快,独立 | | **Matcha-TTS** | 72MB | ~500MB | ⭐⭐⭐⭐⭐ | RTF 0.05 | ✅ | 中文轻量最优质量 | | **ChatTTS 2.0** | 600MB | ~2GB | ⭐⭐⭐⭐⭐ | RTF 0.5 | ❌ | 最自然人声(非实时) | | **MeloTTS** | 160MB | ~1GB | ⭐⭐⭐⭐ | 快 | ❌ | MIT开源,微软出品 | | **ZipVoice(int8)** | 104MB | ~600MB | ⭐⭐⭐⭐⭐ | RTF 0.08 | ✅ | 中英混合极好 | | **espeak-ng** | 6MB | ~100MB | ⭐⭐ | 闪电 | ✅ | 超轻量,全语言 | ### 决策指南 ``` 需要离线? ─YES→ 选择 Sherpa+Piper (13MB) 或 Windows SAPI (0MB) 需要实时流式? ─YES→ Edge TTS / Sherpa / Kokoro 最小RAM? ─→ Windows SAPI (50MB) / Sherpa (200MB) 最佳中文? ─→ Edge TTS (在线) / Matcha-TTS (离线72MB) 最快速度? ─→ Piper C++ 原生 (RTF 0.03) / Kokoro (RTF 0.04) ``` --- ## 🎤 四引擎详解 | 特性 | ☁️ Edge TTS | 🏠 Sherpa+Piper | 💻 Win SAPI | |------|-------------|----------------|-------------| | 网络 | 需要 | **无需** ✅ | **无需** ✅ | | 模型下载 | 零 | 13MB | 零 | | RAM占用 | ~50MB | ~200MB | ~50MB | | 首字延迟 | ~0.5s | **<0.1s** | **<0.05s** | | 中文音色 | 6款 | 3款 | 1款 | | 流式输出 | ✅ | ✅ | ❌ | | 隐私 | 数据上云 | 本地处理 | 本地处理 | | 安装 | `pip edge-tts` | `pip sherpa-onnx` | 系统自带 | ### 自动降级逻辑 ``` 请求播报 ├── 1. Edge TTS (品质最优) ├── 2. Sherpa-onnx (本地离线) ← 网络不佳时 └── 3. Windows SAPI (终极兜底) ← 都不行时 ``` --- ## 🎨 内置音色库(11款) ### Edge TTS — 6款在线微软神经语音 | 音色 | 风格 | 推荐场景 | |------|------|---------| | `xiaoxiao` ⭐ | 晓晓,标准女声 | **默认通用** | | `yunxi` | 云希,活泼男声 | 讲解/教程 | | `xiaoyi` | 晓依,温柔女声 | 情感内容 | | `xiaochen` | 晓辰,自然男声 | 新闻播报 | | `yunyang` | 云扬,沉稳男声 | 正式场合 | | `xiaohan` | 晓涵,少女声 | 轻快内容 | ### Sherpa-onnx Piper — 3款本地离线 | 音色 | 大小 | 风格 | RTF | |------|-----:|------|-----| | `xiao_ya` ⭐ | 13MB | 小雅,温暖女声 | 0.05 | | `chaowen` | 13MB | 超稳,沉稳男声 | 0.05 | | `huayan` | 64MB | 花颜,柔和女声 | 0.10 | ### Windows SAPI — 1款系统原生 | 音色 | 大小 | 风格 | |------|-----:|------| | `huihui` | 0 | 慧慧,系统中文语音 | --- ## 🏗️ 技术架构 ``` ┌─────────────────────────────────────────────────────────┐ │ QClaw / OpenClaw │ │ │ │ ┌──────────┐ ┌──────────────┐ ┌─────────────┐ │ │ │ LLM 输出 │ → │ speak.py │ → │ 音频输出 │ │ │ │ (文本) │ │ 引擎调度器 │ │ (WAV/MP3) │ │ │ └──────────┘ └──────┬───────┘ └─────────────┘ │ │ │ │ │ ┌─────────────┼─────────────┐ │ │ ▼ ▼ ▼ │ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │ │ Edge TTS │ │ Sherpa │ │ Win SAPI │ │ │ │ (在线) │ │ (ONNX) │ │ (原生) │ │ │ │ 0MB │ │ 13MB │ │ 0MB │ │ │ └──────────┘ └────┬─────┘ └──────────┘ │ │ │ │ │ ┌──────▼──────┐ │ │ │ Piper VITS │ │ │ │ (int8量化) │ 纯CPU, <0.1s延迟 │ │ └─────────────┘ │ └─────────────────────────────────────────────────────────┘ ``` ### 技术栈 | 层 | 技术 | 版本 | 说明 | |----|------|------|------| | 在线引擎 | edge-tts | latest | 微软神经网络,免费 | | 离线引擎 | sherpa-onnx | 1.13.2 | C++ ONNX Runtime | | 模型 | Piper VITS (int8) | - | 13MB, 中文, CPU | | 本地引擎 | pyttsx3 (SAPI) | latest | Win原生语音 | | 音频 | soundfile | latest | WAV 读写 | | ORT修复 | onnxruntime | 1.26+ | 自动覆盖sherpa内置旧版DLL | --- ## 🧠 Auto-Speak 自动语音播报 开启后,每次 AI 回复自动朗读: ``` 用户: 开启语音播报 → config.json: auto_speak = true → 后续每次回复自动调用 TTS → 语音消息发送至当前聊天 ``` 关闭: ``` 用户: 关闭语音播报 / 安静 / 别说了 → config.json: auto_speak = false ``` 一个答案只会开一次口,工具调用/系统消息不会触发朗读。 --- ## 📦 安装 ```bash # 全自动安装(edge-tts + pyttsx3 + sherpa-onnx) python scripts/install.py # 仅安装在线引擎 python scripts/install.py --edge-only # 仅安装离线引擎 python scripts/install.py --win-only # 下载 sherpa-onnx 模型 python scripts/install.py --sherpa xiao_ya # 检查安装状态 python scripts/install.py --check ``` --- ## 🔧 CLI 参考 ```bash python scripts/speak.py "文本" [选项] 选项: --voice, -v NAME 音色名称 --engine, -e ENGINE 引擎: auto / edge / sherpa / win --speed, -s FLOAT 语速 (0.5-2.0, 默认 1.0) --output, -o PATH 输出音频文件 --list-voices 列出全部音色 --set-voice NAME 设置默认音色 --set-speed FLOAT 设置默认语速 --auto-speak on|off 开启/关闭自动语音播报 --config 显示当前配置 --config-path 显示配置文件路径 ``` --- ## 📊 实测性能(Win 11, i7, 16GB) | 引擎 | 模型 | 首句 | RTF | RAM | |------|------|------|-----|-----| | edge | xiaoxiao | 0.5s | — | 50MB | | sherpa | xiao_ya (int8) | 0.08s | 0.05 | 200MB | | win | huihui | 0.03s | — | 50MB | --- ## 🔧 Troubleshooting | 问题 | 解决 | |------|------| | `No module named 'edge_tts'` | `pip install edge-tts` | | `No module named 'pyttsx3'` | `pip install pyttsx3` | | `sherpa-onnx ORT version mismatch` | 已自动修复:skills/scripts 自动覆盖旧版 ORT DLL | | 模型未找到 | `python scripts/install.py --sherpa xiao_ya` | | Edge TTS 超时 | 网络问题,自动降级到 sherpa/win | | 中文 SAPI 不可用 | 安装 Windows 中文语言包 | --- ## 🆚 与现有 TTS 技能对比 | 维度 | 本技能 | qwen-tts | edge-tts | sherpa-onnx-tts | |------|--------|----------|----------|-----------------| | 引擎数 | **4个** | 1个 | 1个 | 1个 | | 模型大小 | 13MB | 1.7GB | 0 | 需自行下载 | | 中文支持 | ✅ | ✅ | ✅ | ❌(英文为主) | | 智能降级 | ✅ | ❌ | ❌ | ❌ | | 自动播报 | ✅ | ❌ | ❌ | ❌ | | 离线可用 | ✅ | ✅ | ❌ | ✅ | --- ## 📝 Changelog ### v1.1.0 — 四引擎 + Sherpa打通 - **New**: Windows SAPI (pyttsx3) 本地引擎,零配置离线 - **Fix**: sherpa-onnx ORT DLL 自动覆盖(系统 1.26→覆盖sherpa内置1.17) - **Fix**: Piper 模型 lexicon 路径显式传入 - **Change**: 引擎自动降级 edge → sherpa → win - **New**: 6款 Edge TTS 音色(+yunyang/xiaohan) - **New**: ORT auto-fix (_ensure_ort_fix) - **Docs**: 2025-2026 本地轻量 CPU 中文 TTS 模型全景对比 ### v1.0.0 — Initial Release - Edge TTS + sherpa-onnx 双引擎 - 3款 Piper 中文音色 (xiao_ya/chaowen/huayan) - 3款 Edge 中文音色 (xiaoxiao/yunxi/xiaoyi) - Auto-speak 自动语音播报模式 - 流式 TTS 支持 - 一键安装脚本
don't have the plugin yet? install it then click "run inline in claude" again.