🔬 Méthodologie

Tout ce que nous comparons, comment nous classons, et d'où viennent nos données. Transparence totale : aucun chiffre que nous ne puissions justifier par une source officielle.

📋 Ce que nous comparons

Chaque modèle est documenté sur une quinzaine de dimensions, regroupées en cinq familles. Toutes sont visibles dans le comparateur côte à côte.

Performance

Arena Elo

Classement par préférence humaine (LMArena).

MMLU

Connaissance générale, 57 sujets.

SWE-Bench

Résolution de vrais bugs GitHub.

HumanEval

Génération de code fonctionnel.

Technique

Fenêtre de contexte

Tokens traitables en une fois (32k → 2M).

Vitesse

Débit de génération en tokens/seconde.

Date de sortie

Ancienneté du modèle.

Spécialité

Domaine de force principal.

Économique

Prix entrée/sortie

Coût en $ par million de tokens.

Offre gratuite

Existence d'un tier gratuit.

Souveraineté & conformité

Conformité RGPD

Respect du règlement européen.

Open source

Poids du modèle disponibles, self-hostable.

Origine

Pays / entreprise éditrice.

Qualité perçue

Qualité française

Aisance et nuance en français (évaluation éditoriale).

Profondeur de raisonnement

Enchaînement d'étapes logiques complexes (évaluation éditoriale).

Créativité

Originalité et richesse des productions (évaluation éditoriale).

Fiabilité factuelle

Tendance à éviter les hallucinations (évaluation éditoriale).

🧮 Comment nous classons (Podium)

Le podium est un sous-ensemble : un score pondéré par catégorie. Les poids ci-dessous sont ceux réellement utilisés par l'algorithme. Ils diffèrent selon ce qui compte dans chaque domaine.

Généralistes

MMLU

30%

GPQA

20%

HellaSwag

10%

Prix

20%

Contexte

10%

Fraîcheur

10%

Code

SWE-bench

50%

HumanEval

30%

Prix

10%

Fraîcheur

10%

Vision

MMBench

45%

MMMU

25%

Prix

15%

Fraîcheur

15%

Multilingue

MMLU-multi

40%

FLORES

25%

Culturel

15%

Prix

10%

Fraîcheur

10%

Open Source

Licence

30%

Benchmarks

30%

Communauté

20%

Self-host

20%

Comment les valeurs sont normalisées

Prix — inversé : moins cher = meilleur score. Gratuit = 100, <1$/M = 95, <5$ = 85, <20$ = 70, <50$ = 50, <100$ = 30, au-delà = 15.

Contexte — par paliers : ≥1M = 100, ≥500k = 90, ≥200k = 80, ≥128k = 70, ≥32k = 50.

Fraîcheur — <1 mois = 100, <3 mois = 90, <6 mois = 75, <1 an = 55, au-delà décroît.

Licence — Apache/MIT = 100, BSD = 95, GPL = 85, Llama (restrictions) = 60.

Self-host — selon la taille : ≤8B = 100 (tourne sur Mac), ≤30B = 85, ≤70B = 70, au-delà nécessite un cluster.

✅ Fiabilité & sources

C'est ce qui distingue ce comparateur d'un simple tableau. Notre engagement sur la donnée :

Sources officielles uniquement

Prix et benchmarks vérifiés sur les pages des éditeurs (Anthropic, OpenAI, Google, Mistral, Moonshot…), pas sur des agrégateurs tiers.

Traçabilité par modèle

Chaque prix porte une URL source et une date de vérification. Ce qui n'est pas vérifié n'est pas présenté comme tel.

Vérification mensuelle

Le 1er de chaque mois, un contrôle est effectué. L'historique des changements est public.

Sourced or excluded

Un modèle dont les benchmarks ne sont pas vérifiables indépendamment (ex : modèle non public) n'est pas classé comme les autres et porte la mention « accès restreint ».

⚖️ Limites assumées

Le prix entre dans le score : un modèle peut être bien classé surtout parce qu'il est économique. Notre classement reflète un rapport qualité/prix, pas seulement la puissance brute.

La fraîcheur est valorisée : un modèle récent gagne quelques points. C'est un choix, car le domaine évolue vite — mais cela peut surpondérer la nouveauté.

Les benchmarks ne disent pas tout : un modèle peut bien scorer et décevoir à l'usage. C'est pourquoi chaque classement est revu par un humain avant publication.

← Retour au podium

📋 Ce que nous comparons

⚡ Performance

🔧 Technique

💰 Économique

🛡️ Souveraineté & conformité

🎨 Qualité perçue

🧮 Comment nous classons (Podium)

Généralistes

Code

Vision

Multilingue

Open Source

Comment les valeurs sont normalisées

✅ Fiabilité & sources

⚖️ Limites assumées

Performance

Technique

Économique

Souveraineté & conformité

Qualité perçue