avril 28, 2025

Qwen 3

La sortie de mai 2025 d Alibaba — première famille ouverte avec raisonnement hybride (chaîne de pensée activable), Apache 2.0 à travers toutes les tailles.

mars 12, 2025

Gemma 3

La famille Gemma de Google DeepMind de mars 2025 — capacité vision (4B+), contexte 128K, avec variantes officielles 4-bits conscientes de la quantification.

janvier 30, 2025

Mistral Small 3

Le modèle 24B de Mistral AI de janvier 2025 — Apache 2.0, compétitif avec Llama 3.3 70B, tient sur un seul GPU 24 Go.

janvier 20, 2025

DeepSeek R1

Le modèle de raisonnement de DeepSeek de janvier 2025 — qualité chaîne de pensée de frontière, plus six distills sous licence MIT de 1,5B à 70B.

décembre 26, 2024

DeepSeek V3

Le MoE à l échelle frontière de DeepSeek de décembre 2024 — 671B total, 37B actifs, entraîné pour ~5,6 M$ en compute.

IA décembre 12, 2024

Phi-4

Phi-4 de Microsoft Research de décembre 2024 — un modèle dense 14B sous licence MIT qui cogne bien au-dessus de sa catégorie en maths et raisonnement.

décembre 6, 2024

Llama 3.3

Un seul modèle 70B publié en décembre 2024, comblant la majeure partie de l écart avec Llama 3.1 405B par post-entraînement amélioré seul.

septembre 19, 2024

Qwen 2.5

La famille Qwen de septembre 2024 d Alibaba s étend de 0,5B à 72B, plus des spécialistes coding et math — majoritairement Apache 2.0.

juillet 23, 2024

Llama 3.1

La famille LLM ouverte phare de Meta de 2024 — 8B, 70B et 405B paramètres avec contexte 128K. Le 405B a été le premier modèle ouvert à une véritable échelle de frontière.

IA juin 27, 2024

Gemma 2

La famille de modèles ouverts et légers de Google DeepMind lancée en juin 2024 — 2B, 9B et 27B avec attention locale/globale entrelacée.

décembre 11, 2023

Mixtral 8x7B

Le modèle mixture-of-experts de Mistral AI de décembre 2023 — 8 experts, 2 actifs par token, Apache 2.0, tournant à la vitesse de Llama-13B avec la qualité de Llama-70B.

septembre 27, 2023

Mistral 7B

Le début de Mistral AI en septembre 2023 — un modèle 7B Apache-2.0 qui a popularisé la Grouped-Query et la Sliding Window Attention.

Ressources D-Central : MATH