L'équipe DeepSeek a publié sur arXiv un paper détaillant l'architecture de R2, son modèle de raisonnement de nouvelle génération. La contribution principale est une architecture hybride combinant Mixture-of-Experts et un mécanisme de raisonnement itératif compact qui réduit d'un facteur 10 le nombre de tokens de pensée internes nécessaires pour atteindre des performances comparables à o3 ou Claude Opus 4.7 sur les benchmarks de raisonnement.
Concrètement, sur GPQA Diamond, R2 atteint des scores similaires à la concurrence américaine en consommant dix fois moins de tokens en inférence, ce qui se traduit par un coût d'exploitation drastiquement inférieur. Le modèle reste open-source sous licence MIT, dans la continuité de la stratégie de la société chinoise.
La publication a déclenché une vague d'analyses chez les acteurs occidentaux, certains chercheurs d'Anthropic et OpenAI reconnaissant sur X que l'approche pourrait représenter un vrai saut qualitatif pour le raisonnement à grande échelle en production.