Quantization
Technique
Definition
A model compression technique that reduces numerical precision of weights and activations, enabling faster inference and lower memory usage. Quantization (4-bit, 8-bit) makes it possible to run billion-parameter models on consumer hardware.
In French
Quantification — Technique de compression d’un modèle en réduisant la précision numérique de ses poids pour accélérer l’inférence. La quantification (4-bit, 8-bit) permet d’exécuter des modèles de milliards de paramètres sur du matériel grand public.
Related terms
Explore the full glossary
Discover all artificial intelligence terms in our glossary.