En une phrase
Le RAG (Retrieval Augmented Generation) c'est une technique qui branche un LLM sur ta base de connaissances : au lieu d'inventer, le modèle cherche les infos dans tes documents puis répond en s'appuyant dessus. C'est devenu LA brique technique des chatbots d'entreprise en 2026.
🔍 Tu veux voir un RAG en action ?
Compare les solutions RAG no-code (NotebookLM Google, Claude Projects) et code (LangChain, LlamaIndex).
Le problème que résout le RAG
Sans RAG, un LLM "classique" a 2 limites majeures :
LLM classique vs LLM avec RAG
| 🧠LLM seul | 📚LLM + RAG | |
|---|---|---|
| Source des connaissances | Mémorisée dans les poids | Tes docs en temps réel |
| Hallucinations | Fréquentes (3-25%) | Très rares (~1%) |
| Mise à jour des infos | Nécessite ré-entraînement | Modifie tes docs, c'est fait |
| Citations / sources | Souvent inventées | Vérifiables, vraies |
| Personnalisation métier | Limité (fine-tuning cher) | Total (juste tes docs) |
| Coût de mise en œuvre | Faible (API direct) | Moyen (infra vectorielle) |
Comment fonctionne le RAG concrètement
Le RAG se découpe en 2 phases : l'indexation (une seule fois) et la requête (à chaque question).
Phase 1 : Indexation des documents
Préparation de la base de connaissances
Collecte des documents
PDF, Word, pages web, base de données. Tout le contenu pertinent.
Chunking
Découpage en morceaux de 200-1000 tokens. Trop petit = manque de contexte. Trop grand = bruit.
Embedding (vectorisation)
Chaque chunk est transformé en vecteur (liste de nombres) qui capture son sens sémantique.
Stockage en base vectorielle
Les vecteurs sont stockés dans Pinecone, Qdrant, Weaviate, ou pgvector pour une recherche rapide.
Phase 2 : Requête utilisateur
Cycle d'une question
Question utilisateur
'Quelle est notre politique de remboursement ?'
Vectorisation de la question
La question devient un vecteur, comme les chunks indexés.
Recherche sémantique
On trouve les 5-10 chunks les plus 'proches' du vecteur question.
Construction du prompt
On injecte les chunks trouvés dans le prompt du LLM avec la question.
Réponse ancrée
Le LLM répond en s'appuyant sur les chunks fournis, avec citations.
Pourquoi ça marche : la magie des embeddings
L'embedding (vectorisation) est le secret du RAG. Le principe : transformer du texte en nombres qui capturent son sens.
Les composants techniques d'un RAG
Stack RAG typique 2026
| 🔧Composant | ✨Choix populaires | |
|---|---|---|
| Modèle d'embedding | OpenAI ada-002, Voyage AI, Cohere | OpenAI ($0.10/1M tokens) |
| Base vectorielle managée | Pinecone, Weaviate Cloud | Pinecone (~$50-500/mois) |
| Base vectorielle self-hosted | Qdrant, Milvus, pgvector | pgvector (gratuit, sur Postgres) |
| Framework orchestration | LangChain, LlamaIndex | LlamaIndex (plus simple pour RAG) |
| LLM pour génération | Claude, GPT, Mistral, Llama | Claude Sonnet (rapport qualité/prix) |
| Reranker (optionnel) | Cohere Rerank, Jina | Cohere ($1/1k requêtes) |
Les 5 défis du RAG en production
📚Ce qui va mal en vrai (et comment résoudre)
1. Le chunking est crucial
Trop petit (100 tokens) → tu perds le contexte. Trop grand (2000 tokens) → tu introduis du bruit.
Bonne pratique : 500-800 tokens avec overlap de 100-200 tokens entre chunks. Garde la structure logique (paragraphes, sections).
2. La qualité des embeddings varie
Tous les modèles d'embedding ne se valent pas. Pour le français, Voyage AI ou Cohere sont meilleurs que OpenAI Ada.
Bonne pratique : tester 2-3 modèles d'embedding sur tes propres données et mesurer la précision (% de bonnes réponses).
3. La recherche pure sémantique a des limites
Si tu cherches "Apple" (la marque), la recherche sémantique peut te ramener des passages sur "pomme" (le fruit).
Bonne pratique : combiner recherche sémantique + recherche par mots-clés (BM25). C'est le hybrid search, qui améliore beaucoup les résultats.
4. Le reranking change tout
Après la recherche initiale (top 20), un reranker (Cohere Rerank, Jina) re-classe les résultats avec un modèle plus précis. Énorme gain de précision pour ~$1/1000 requêtes.
5. Évaluer un RAG est difficile
Comment savoir si ton RAG est bon ? Métriques utiles :
- Faithfulness : la réponse est-elle fidèle aux chunks fournis ?
- Answer relevance : la réponse répond-elle à la question ?
- Context precision : les chunks récupérés étaient-ils pertinents ?
Outils : RAGAS, TruLens, LangSmith.
RAG : avancé vs basique
Performance RAG : impact de chaque optimisation
Lecture : entre un RAG basique et un RAG optimisé, tu peux gagner +27 points de précision. Sur des questions critiques (juridique, médical), ça change tout.
Cas d'usage réels
RAG vs Fine-tuning : que choisir ?
Beaucoup confondent. Les 2 sont complémentaires, mais font des choses différentes :
RAG vs Fine-tuning
| 📚RAG | 🎯Fine-tuning | |
|---|---|---|
| But principal | Donner accès à de nouvelles infos | Changer le style ou comportement |
| Mise à jour du contenu | Facile (modifier les docs) | Lourd (ré-entraîner) |
| Coût | Modéré (infra vectorielle) | Élevé (GPU pour training) |
| Hallucinations | Réduites fortement | Pas particulièrement |
| Personnalisation style/ton | Limitée | Excellente |
| Domaine ultra-spécialisé | OK pour faits | OK pour vocabulaire/raisonnement |
Règle d'or 2026 : RAG d'abord (90% des besoins). Fine-tuning seulement si RAG ne suffit pas (style très spécifique, performance latence critique).
La métaphore qui résume tout
À retenir absolument
- ✅ Le RAG réduit drastiquement les hallucinations (de 25% à 1-3%)
- ✅ Il permet d'utiliser un LLM sur tes propres données sans fine-tuning
- ✅ Stack typique 2026 : Embedding (OpenAI/Voyage) + Base vectorielle (Pinecone/pgvector) + LLM (Claude/GPT) + Framework (LlamaIndex)
- ✅ Optimisations qui changent tout : hybrid search, reranking
- ✅ RAG d'abord, fine-tuning ensuite (90% des besoins se règlent en RAG)
Le RAG est devenu la technique IA d'entreprise. Si tu construis un chatbot pro en 2026, c'est par là que tu commences.
Que fait principalement le RAG ?
Pour aller plus loin
- 🌀 Comprendre les hallucinations IA — pourquoi le RAG est crucial
- 🤖 Agents IA : la prochaine révolution
- ⚖️ Open source vs propriétaire