Skip to main content
⚙️

RLHF

Technique

⚙️ Technique 🌐 RLHF

Definition

Reinforcement Learning from Human Feedback — a technique for aligning language models with human preferences by training a reward model from human evaluations. RLHF is the key technique used by OpenAI and Anthropic for LLM alignment.

In French

RLHF — Méthode d’entraînement où les préférences humaines guident l’amélioration du comportement d’un modèle IA. Le RLHF est la technique clé utilisée par OpenAI et Anthropic pour aligner les LLM avec les valeurs et attentes humaines.

Related terms

⚙️
Reinforcement Learning
⚙️
Deep Learning
⚙️
Attention Mechanism
⚙️
Benchmark
⚙️
Classification
⚙️
Clustering

Explore the full glossary

Discover all artificial intelligence terms in our glossary.