Jailbreak
Core Concept
Definition
Techniques to bypass safety restrictions and guardrails implemented in an AI model. Jailbreaks exploit system prompt vulnerabilities to obtain normally prohibited responses. Securing models against such attacks is an ongoing challenge.
In French
Jailbreak — Technique pour contourner les restrictions et garde-fous de sécurité implémentés dans un modèle IA. Les jailbreaks exploitent des failles dans les instructions système pour obtenir des réponses normalement interdites. La sécurisation des modèles contre ces attaques est un défi permanent.
Related terms
Explore the full glossary
Discover all artificial intelligence terms in our glossary.