Quantization

PMetal provides GGUF quantization with 13 format options and importance matrix support for quality-preserving compression.

Quantization Formats

Use --imatrix with a calibration dataset to preserve quality on important weights:

pmetal quantize \
  --model ./output \
  --output model.gguf \
  --type q4km \
  --imatrix calibration.jsonl

For inference-time memory reduction without GGUF conversion:

pmetal infer --model Qwen/Qwen3-4B --fp8 --chat

Converts to FP8 (E4M3) at load time for approximately 2× memory reduction.