RLHF
Technique
Définition
Méthode d’entraînement où les préférences humaines guident l’amélioration du comportement d’un modèle IA. Le RLHF est la technique clé utilisée par OpenAI et Anthropic pour aligner les LLM avec les valeurs et attentes humaines.
En anglais
RLHF — Reinforcement Learning from Human Feedback — a technique for aligning language models with human preferences by training a reward model from human evaluations. RLHF is the key technique used by OpenAI and Anthropic for LLM alignment.
Termes associés
Apprentissage par renforcement
Apprentissage profond
Attention (mécanisme d’)
Benchmark
Classification
Clustering
Explorer le glossaire complet
Découvrez tous les termes de l’intelligence artificielle dans notre glossaire.