🔬 Méthodologie

Tout ce que nous comparons, comment nous classons, et d'où viennent nos données. Transparence totale : aucun chiffre que nous ne puissions justifier par une source officielle.

📋 Ce que nous comparons

Chaque modèle est documenté sur une quinzaine de dimensions, regroupées en cinq familles. Toutes sont visibles dans le comparateur côte à côte.

Performance

Arena Elo
Classement par préférence humaine (LMArena).
MMLU
Connaissance générale, 57 sujets.
SWE-Bench
Résolution de vrais bugs GitHub.
HumanEval
Génération de code fonctionnel.

Technique

Fenêtre de contexte
Tokens traitables en une fois (32k → 2M).
Vitesse
Débit de génération en tokens/seconde.
Date de sortie
Ancienneté du modèle.
Spécialité
Domaine de force principal.

Économique

Prix entrée/sortie
Coût en $ par million de tokens.
Offre gratuite
Existence d'un tier gratuit.

Souveraineté & conformité

Conformité RGPD
Respect du règlement européen.
Open source
Poids du modèle disponibles, self-hostable.
Origine
Pays / entreprise éditrice.

Qualité perçue

Qualité française
Aisance et nuance en français (évaluation éditoriale).
Profondeur de raisonnement
Enchaînement d'étapes logiques complexes (évaluation éditoriale).
Créativité
Originalité et richesse des productions (évaluation éditoriale).
Fiabilité factuelle
Tendance à éviter les hallucinations (évaluation éditoriale).

🧮 Comment nous classons (Podium)

Le podium est un sous-ensemble : un score pondéré par catégorie. Les poids ci-dessous sont ceux réellement utilisés par l'algorithme. Ils diffèrent selon ce qui compte dans chaque domaine.

Généralistes

MMLU
30%
GPQA
20%
HellaSwag
10%
Prix
20%
Contexte
10%
Fraîcheur
10%

Code

SWE-bench
50%
HumanEval
30%
Prix
10%
Fraîcheur
10%

Vision

MMBench
45%
MMMU
25%
Prix
15%
Fraîcheur
15%

Multilingue

MMLU-multi
40%
FLORES
25%
Culturel
15%
Prix
10%
Fraîcheur
10%

Open Source

Licence
30%
Benchmarks
30%
Communauté
20%
Self-host
20%

Comment les valeurs sont normalisées

Prixinversé : moins cher = meilleur score. Gratuit = 100, <1$/M = 95, <5$ = 85, <20$ = 70, <50$ = 50, <100$ = 30, au-delà = 15.

Contextepar paliers : ≥1M = 100, ≥500k = 90, ≥200k = 80, ≥128k = 70, ≥32k = 50.

Fraîcheur<1 mois = 100, <3 mois = 90, <6 mois = 75, <1 an = 55, au-delà décroît.

LicenceApache/MIT = 100, BSD = 95, GPL = 85, Llama (restrictions) = 60.

Self-hostselon la taille : ≤8B = 100 (tourne sur Mac), ≤30B = 85, ≤70B = 70, au-delà nécessite un cluster.

Fiabilité & sources

C'est ce qui distingue ce comparateur d'un simple tableau. Notre engagement sur la donnée :

Sources officielles uniquement
Prix et benchmarks vérifiés sur les pages des éditeurs (Anthropic, OpenAI, Google, Mistral, Moonshot…), pas sur des agrégateurs tiers.
Traçabilité par modèle
Chaque prix porte une URL source et une date de vérification. Ce qui n'est pas vérifié n'est pas présenté comme tel.
Vérification mensuelle
Le 1er de chaque mois, un contrôle est effectué. L'historique des changements est public.
Sourced or excluded
Un modèle dont les benchmarks ne sont pas vérifiables indépendamment (ex : modèle non public) n'est pas classé comme les autres et porte la mention « accès restreint ».

⚖️ Limites assumées

Le prix entre dans le score : un modèle peut être bien classé surtout parce qu'il est économique. Notre classement reflète un rapport qualité/prix, pas seulement la puissance brute.

La fraîcheur est valorisée : un modèle récent gagne quelques points. C'est un choix, car le domaine évolue vite — mais cela peut surpondérer la nouveauté.

Les benchmarks ne disent pas tout : un modèle peut bien scorer et décevoir à l'usage. C'est pourquoi chaque classement est revu par un humain avant publication.