Prompt injection = injection d'instructions malveillantes dans le contexte d'un LLM pour détourner son comportement.
2 catégories majeures :
- 🎯 Direct : l'utilisateur tape l'attaque dans le chat (ex: "Ignore les instructions précédentes")
- 🪤 Indirect : l'attaque vient d'une source externe lue par le LLM (email empoisonné, page web, document)
Pourquoi c'est critique en 2026 :
- Classé #1 OWASP Top 10 LLM 3 années consécutives
- Aucune défense parfaite existe (problème fondamental)
- Agents IA (qui exécutent des actions) multiplient l'impact par 100
- Cas réels documentés : exfiltration emails Bing Chat, contournement Claude/GPT, RCE via copilots dev
Mitigation :
- Defense-in-depth (jamais une seule couche)
- Sandboxing strict des actions
- Validation humaine pour actions critiques
- Détection d'anomalies + monitoring
- JAMAIS faire confiance au LLM pour des décisions sécurité-critiques sans contrôle externe
🧠 Quiz
Question 1 sur 3