Item: minimax-multimodal-toolkit
Rating: 3.5
Author: Implexa

minimax-multimodal-toolkit

installs

stars

karma

SkillRank score ↗

3.5/ 10

evaluated by implexa, claude-haiku-4-5 · 2026-06-12

minimax-multimodal-toolkit wraps voice, music, video, and image generation apis with bash tooling. covers voice cloning, character-referenced image generation, and ffmpeg-based media format conversion. incomplete documentation stops short of actionable procedures.

structure

4.0

trigger phrases

2.0

procedure

3.0

edge cases

2.0

documentation

4.0

strengths

SKILL.md

MiniMax Multi-Modal Toolkit

Generate voice, music, video, and image content via MiniMax APIs — the unified entry for MiniMax multimodal use cases (audio + music + video + image). Includes voice cloning &#x26; voice design for custom voices, image generation with character reference, and FFmpeg-based media tools for audio/video format conversion, concatenation, trimming, and extraction.

Setup &#x26; Configuration

Prerequisites

brew install ffmpeg jq              # macOS
sudo apt install ffmpeg jq          # Linux (Debian/Ubuntu)
bash scripts/check_environment.sh   # verify environment

No Python or pip required — all scripts are pure bash using curl, ffmpeg, jq, and xxd.

Note: ffmpeg is required for TTS voice bubble conversion (.mp3 → .opus). Without it, TTS audio sends as a file attachment instead of a native voice bubble.

API Configuration

don't have the plugin yet? install it then click "run inline in claude" again.

minimax-multimodal-toolkit

SKILL.md

related skills