Item: hqq-quantization
Rating: 5.1
Author: Implexa

hqq-quantization

Half-Quadratic Quantization for LLMs without calibration data. Use when quantizing models to 4/3/2-bit precision without needing calibration datasets, for fast…

installs

stars

karma

SkillRank score ↗

5.1/ 10

evaluated by implexa, claude-haiku-4-5 · 2026-06-19

hqq-quantization enables calibration-free weight quantization across 8/4/3/2/1-bit precision levels with multiple backend optimizations, designed for rapid model compression without sample datasets.

structure

4.0

trigger phrases

7.0

procedure

3.0

edge cases

2.0

documentation

6.0

strengths

SKILL.md

HQQ - Half-Quadratic Quantization

Fast, calibration-free weight quantization supporting 8/4/3/2/1-bit precision with multiple optimized backends.

When to use HQQ

Use HQQ when:

Quantizing models without calibration data (no dataset needed)

Need fast quantization (minutes vs hours for GPTQ/AWQ)

Deploying with vLLM or HuggingFace Transformers

Fine-tuning quantized models with LoRA/PEFT

Experimenting with extreme quantization (2-bit, 1-bit)

Key advantages:

No calibration: Quantize any model instantly without sample data

Multiple backends: PyTorch, ATEN, TorchAO, Marlin, BitBlas for optimized inference

Flexible precision: 8/4/3/2/1-bit with configurable group sizes

Framework integration: Native HuggingFace and vLLM support

PEFT compatible: Fine-tune quantized models with LoRA

don't have the plugin yet? install it then click "run inline in claude" again.

hqq-quantization

SKILL.md

related skills