Débutant🧠

C'est quoi un LLM ?

Comprendre en 5 minutes ce qui fait tourner ChatGPT, Claude, Gemini et tous les autres. De l'analogie simple à l'architecture Transformer, tout ce qu'il faut savoir.

10 min de lecturePublié le 3 mai 2026

En une phrase

Un LLM (Large Language Model, ou "grand modèle de langage") est un programme d'intelligence artificielle entraîné sur des milliards de phrases pour prédire le mot suivant. C'est ce qui fait tourner ChatGPT, Claude, Gemini, Mistral et tous les autres.

🦜
L'analogie qui marche
Imagine un perroquet ultra cultivé qui aurait lu Wikipedia, Reddit, des millions de livres et tout Internet. Quand tu lui parles, il devine quel mot devrait venir après, encore et encore, jusqu'à former une réponse cohérente. C'est ça, un LLM.

🚀 Tu veux comparer les LLM ?

30 modèles comparés : Claude, GPT-5, Gemini, Mistral, DeepSeek... Filtre par prix, performance, langue.

Voir le comparatif

Comment ça marche, vraiment ?

Quand tu écris à un LLM "Le ciel est…", il calcule la probabilité de chaque mot possible :

Probabilités du mot suivant après 'Le ciel est'

bleu42%
gris18%
autres14%
magnifique12%
couvert9%
étoilé5%

Il pioche un mot (souvent le plus probable, mais pas toujours pour rester créatif), l'ajoute à la phrase, et recommence pour le mot d'après. C'est tout.

Ce processus s'appelle l'inférence ou la génération autorégressive. À chaque mot généré, le LLM relit toute la conversation pour deviner le suivant.

Pourquoi 'Large' ?
"Large" fait référence à la taille du modèle : son nombre de paramètres. Un paramètre, c'est une sorte de bouton qu'on règle pendant l'entraînement. GPT-5 a environ 1800 milliards de paramètres. Plus c'est grand, plus c'est puissant — et plus ça coûte cher à faire tourner.

Les ingrédients d'un LLM

Trois choses font un bon LLM :

  1. Une architecture : la "forme" du réseau de neurones. Aujourd'hui, presque tous utilisent l'architecture Transformer, inventée par Google en 2017.
  2. Des données d'entraînement : des milliers de milliards de mots provenant du web, livres, code, articles scientifiques.
  3. De la puissance de calcul : entraîner GPT-5 a coûté plus de 500 millions de dollars et nécessité des dizaines de milliers de cartes graphiques (GPU) pendant des mois.
🧠
Le secret du Transformer
Le Transformer utilise un mécanisme appelé attention : à chaque mot généré, le modèle "regarde" tous les mots précédents et décide lesquels sont importants pour deviner le mot suivant. C'est ce qui lui permet de gérer le contexte sur de longues distances.

La taille des modèles aujourd'hui

Voici la taille approximative des modèles majeurs en 2026 :

Taille des modèles (en milliards de paramètres)

GPT-5 (OpenAI)1 800B
Claude Opus 4.7 (Anthropic)1 500B
Gemini 3 Pro (Google)1 200B
Llama 4 Behemoth (Meta)800B
DeepSeek V3 (DeepSeek)671B
Mistral Large 3 (Mistral)123B

⚠️ Attention : un modèle plus gros n'est pas toujours meilleur. Beaucoup utilisent une astuce appelée MoE (Mixture of Experts) où seule une partie des paramètres s'active à chaque requête. C'est plus rapide et moins coûteux. Mistral Large 3 par exemple, avec "seulement" 123 milliards de paramètres, est compétitif avec des modèles 10x plus gros.

📚Pour aller plus loin : Dense vs MoE

Architecture Dense (classique)

Tous les paramètres du modèle sont activés à chaque requête. C'est précis mais coûteux. Exemple : GPT-3, Claude 2.

Architecture Mixture of Experts (MoE)

Le modèle est divisé en plusieurs "experts" (sous-réseaux). Pour chaque mot généré, un router décide quels experts activer (typiquement 2 sur 8). Résultat : on a un modèle énorme (centaines de milliards de paramètres) mais on n'utilise qu'une fraction à chaque fois.

Avantages MoE :

  • Performance similaire à un Dense équivalent
  • 3-5x moins cher à faire tourner
  • Latence plus faible

Inconvénients MoE :

  • Plus difficile à entraîner
  • Mémoire GPU énorme requise pour le servir
  • Routing des experts parfois sous-optimal

Tous les modèles "frontier" récents (GPT-5, Gemini 3, DeepSeek V3, Mistral Large 3) sont des MoE.

Dense vs MoE

 🧱Dense🧠MoE
Coût d'inférenceÉlevéFaible
LatenceMoyenneFaible
QualitéExcellenteExcellente
Facilité d'entraînementPlus simpleComplexe
Mémoire GPU pour servirModéréeÉnorme

L'évolution depuis 2017

Les grandes étapes des LLM

  1. Le Transformer naît

    Google publie 'Attention Is All You Need', l'article qui changera tout.

  2. BERT et GPT-1

    Premiers gros modèles. BERT comprend, GPT génère.

  3. GPT-3 (175B params)

    Premier modèle 'qui comprend tout'. La hype démarre dans les labos IA.

  4. ChatGPT

    L'IA devient grand public. 100 millions d'utilisateurs en 2 mois.

  5. GPT-4, Claude, Llama

    Course à la puissance. Llama lance la vague open-source.

  6. Modèles raisonnement

    OpenAI o1, Claude Sonnet : les LLM apprennent à 'réfléchir' avant de répondre.

  7. Multimodal partout

    Texte + image + audio + vidéo dans le même modèle. Gemini, GPT-4o.

  8. Frontière actuelle

    GPT-5, Claude Opus 4.7, Gemini 3. Modèles à 1500-1800B params, MoE généralisé, agents autonomes.

Les limites des LLM

Maintenant que tu sais comment ça marche, voici ce qu'un LLM ne peut pas faire (encore) :

Les hallucinations
Un LLM peut inventer des faits faux mais plausibles : citer un livre qui n'existe pas, attribuer une phrase à la mauvaise personne, inventer des chiffres. C'est inévitable parce qu'il prédit du texte, il ne vérifie rien. Toujours vérifier les infos importantes auprès d'une source fiable.
Pas de connaissance temps réel
Un LLM ne sait rien de ce qui s'est passé après sa date de cutoff (date limite de ses données d'entraînement). Si tu lui demandes "qui a gagné la dernière Coupe du Monde ?", il pourrait te donner une mauvaise réponse, ou pire, inventer. Solution : certains LLM (Claude, Gemini, ChatGPT) sont maintenant connectés au web et peuvent chercher en temps réel.
Pas de raisonnement profond
Les LLM "classiques" sont mauvais en maths complexes, en logique multi-étapes, et en planification. Les nouveaux modèles "raisonnement" (Claude Opus, GPT-5 thinking, DeepSeek R2) sont bien meilleurs : ils prennent le temps de "réfléchir" avant de répondre. Mais ils restent imparfaits.

Cas d'usage réels

Concrètement, voici ce que les LLM font vraiment bien aujourd'hui :

  • Écrire : emails, articles, résumés, traductions
  • Coder : générer du code, débugger, expliquer
  • Synthétiser : résumer un rapport de 100 pages en 5 puces
  • Reformuler : adapter un texte pour différents publics
  • Brainstormer : lancer 10 idées sur un sujet
  • Apprendre : expliquer un concept à différents niveaux
  • Convertir : transformer du texte non-structuré en JSON, tableau, etc.

Et ce qui reste hasardeux :

  • ⚠️ Calculs précis (utiliser une calculatrice ou un outil)
  • ⚠️ Faits récents (sans connexion web)
  • ⚠️ Opinions politiques nuancées
  • ⚠️ Conseils médicaux/juridiques (toujours valider avec un pro)

Comment choisir ton LLM ?

Bonne question — il y en a 30+ disponibles, tous différents.

Pour quel usage, quel modèle ?

 Si tu cherches…Recommandation 2026
Le meilleur pour écrireQualité littéraire, français impeccableClaude Opus 4.7
Le meilleur pour coderGénération de code complexeClaude Opus 4.7 ou GPT-5
Multimodal (image, vidéo)Analyse d'images, contexte énormeGemini 3 Pro (1M tokens)
Souverain et RGPDHébergé en EuropeMistral Large 3 (FR)
Auto-hébergeable gratuitFaire tourner chez soiDeepSeek V3 ou Llama 4
Très bon marchéAPI à petit prixClaude Sonnet ou Gemini Flash

🎯 Compare les 30 modèles maintenant

Filtre par prix, qualité du français, conformité RGPD, open-source... Trouve celui qui te correspond.

Aller au comparatif

Quiz : as-tu compris ?

🧠 Quiz
Question 1 sur 5

Que signifie LLM ?

Pour aller plus loin

Maintenant que tu sais ce qu'est un LLM, tu peux explorer :

  • 🎯 Le comparatif des modèles : voir lequel correspond à ton usage
  • Le prompt engineering : apprendre à bien parler aux LLM
  • 💰 Payer ou pas : choisir entre les versions gratuites et payantes

Et garde en tête : un LLM, c'est un outil très puissant, mais c'est toi qui as le cerveau. Utilise-le comme un copilote, pas comme un oracle. ✨

Tags
LLMFondamentauxTransformerIA générative

À lire ensuite