Skip to main content
⚙️

Quantization

Technique

⚙️ Technique 🌐 Quantification

Definition

A model compression technique that reduces numerical precision of weights and activations, enabling faster inference and lower memory usage. Quantization (4-bit, 8-bit) makes it possible to run billion-parameter models on consumer hardware.

In French

Quantification — Technique de compression d’un modèle en réduisant la précision numérique de ses poids pour accélérer l’inférence. La quantification (4-bit, 8-bit) permet d’exécuter des modèles de milliards de paramètres sur du matériel grand public.

Related terms

⚙️
Reinforcement Learning
⚙️
Deep Learning
⚙️
Attention Mechanism
⚙️
Benchmark
⚙️
Classification
⚙️
Clustering

Explore the full glossary

Discover all artificial intelligence terms in our glossary.