Quantification
Technique
Définition
Technique de compression d’un modèle en réduisant la précision numérique de ses poids pour accélérer l’inférence. La quantification (4-bit, 8-bit) permet d’exécuter des modèles de milliards de paramètres sur du matériel grand public.
En anglais
Quantization — A model compression technique that reduces numerical precision of weights and activations, enabling faster inference and lower memory usage. Quantization (4-bit, 8-bit) makes it possible to run billion-parameter models on consumer hardware.
Termes associés
Apprentissage par renforcement
Apprentissage profond
Attention (mécanisme d’)
Benchmark
Classification
Clustering
Explorer le glossaire complet
Découvrez tous les termes de l’intelligence artificielle dans notre glossaire.