Passer au contenu

Nous améliorons nos opérations pour mieux vous servir. Les commandes sont expédiées normalement depuis Laval, QC. Questions? Contactez-nous

Bitcoin accepté au paiement  |  Expédié depuis Laval, QC, Canada  |  Soutien expert depuis 2016

Current

Mistral Small 3

Mistral AI · Mistral family · Released janvier 2025

Le modèle 24B de Mistral AI de janvier 2025 — Apache 2.0, compétitif avec Llama 3.3 70B, tient sur un seul GPU 24 Go.

Model card

DeveloperMistral AI
FamilyMistral
LicenseApache-2.0
Modalitytext
Parameters (B)24
Context window32768
Release datejanvier 2025
Primary languagesen,fr,de,es,it,pt
Hugging Facemistralai/Mistral-Small-24B-Instruct-2501
Ollamaollama pull mistral-small

Mistral Small 3 débarque : Apache-2.0 24B visant le pleb mono-GPU

Mistral vient de publier Mistral Small 3 — un transformer dense de 24 milliards de paramètres sous licence Apache 2.0, variantes base et instruct sur Hugging Face aujourd’hui. Le positionnement est explicite dans le billet de lancement : égaler ou dépasser Llama 3.3 70B sur la plupart des benchmarks, à environ trois fois la vitesse d’inférence, tout en tenant confortablement sur un seul GPU 32 Go. Le client cible est le pleb souverain tournant l’inférence locale à la maison, pas un locataire cloud brûlant la VRAM de quelqu’un d’autre.

C’est Mistral qui revient à ses racines. Après avoir dérivé vers Mistral Large sous licence propriétaire au cours de 2024, Small 3 est un rappel pointu qu’Apache-2.0 est toujours la posture de sortie signature de la compagnie pour la ligne ouverte. Les poids sont sur mistralai/Mistral-Small-24B-Instruct-2501 dès aujourd’hui. Voici ce qu’il y a dans le modèle, le cliché de benchmarks et les maths VRAM pleb pour le faire tourner sur un vrai rig maison.

Ce qu’il y a dans les poids

Mistral Small 3 est un transformer dense uniquement décodeur de 24B, bâti sur la même filiation d’architecture Mistral qui a commencé avec Mistral 7B (septembre 2023) et s’est déplacée à travers Mixtral 8x7B (décembre 2023). Il est dense — pas MoE — ce qui vaut la peine de signaler car le reste de la frontière 2024-2025 a poussé fort vers les mélanges clairsemés. Le pari de Mistral ici est qu’un 24B dense soigneusement entraîné sert le public mono-GPU mieux qu’un modèle clairsemé dont le compte total de paramètres rend maladroit de l’héberger sur une carte.

Crédit à la filiation plus large : Transformer (Vaswani et al., 2017) → LLaMA et LLaMA 2 (Meta, 2023) → travail Grouped-Query Attention et sliding-window attention de Mistral 7B → Mistral Small 3 aujourd’hui. Les idées architecturales qui ont fait que Mistral 7B cognait au-dessus de son poids — GQA pour une attention peu coûteuse, un tokenizer serré, des données de pré-entraînement de haute qualité curées — se transposent à l’échelle 24B.

Spécifications clés de la sortie :

  • 24B paramètres, dense — pas de surcharge de routage MoE, compute par token prévisible
  • Fenêtre de contexte : 32K tokens — pas frontière longue, mais amplement pour la plupart des flux maison
  • Vocabulaire : 131K tokens — tokenizer Tekken mis à jour, couverture multilingue plus large que les modèles Mistral antérieurs
  • Grouped-Query Attention pour une inférence efficace
  • Licence : Apache 2.0 — pleinement permissive, usage commercial sans restriction, pas de seuils de revenus, pas de découpes par politique d’usage
  • Variantes : Mistral-Small-24B-Base-2501 (base) et Mistral-Small-24B-Instruct-2501 (instruction-tunée, prête pour appel de fonctions)
  • Approche d’entraînement : Mistral ne publie pas les comptes de tokens ou détails de données d’entraînement pour cette sortie, mais la variante instruct a été post-entraînée en se concentrant sur le suivi d’instructions et l’appel natif de fonctions/outils

La variante instruct expédie avec l’appel de fonctions natif prêt à l’emploi. Pour les flux pleb qui câblent un LLM dans l’usage d’outils — contrôleurs de domotique, stacks RAG qui frappent des APIs locales, agents scriptés multi-étapes — c’est une mise à niveau substantielle de qualité de vie sur les modèles où l’usage d’outils doit être extirpé via échafaudage de prompt.

Benchmarks au lancement

Chiffres de source primaire de la fiche du modèle Hugging Face pour la variante instruct :

  • MMLU-Pro : 66,3 — compétitif avec Llama 3.3 70B (68,9) et devant plusieurs modèles ouverts plus grands
  • HumanEval (code) : 84,8 — performance de codage solide pour un 24B
  • GPQA Diamond : 45,3 — milieu de peloton pour le raisonnement STEM de niveau graduate, sous Phi-4 mais au-dessus de plusieurs pairs à cette taille
  • MATH : 70,6 — maths solides, à distance de frappe des modèles plus grands
  • MT-Bench : 8,35 — forte adhérence aux instructions et qualité de chat multi-tour

Le billet de lancement de Mistral revendique « plus de 81 % » sur MMLU sans publier un chiffre exact, donc la valeur de source primaire à croire est le MMLU-Pro sur la fiche HF. MMLU-Pro est la variante plus dure et plus discriminante de MMLU introduite à la mi-2024 — un score de 66,3 à 24B de densité est véritablement fort et appuie la revendication principale de Mistral que Small 3 rivalise avec les modèles de classe 70B sur les tâches de raisonnement.

Là où Small 3 devrait traîner : le travail en long contexte au-dessus de 32K (Qwen 2.5 et Llama 3.3 poussent à 128K), et le sommet absolu de tout benchmark où un 70B dense ou un MoE 400B tient toujours un avantage. La proposition de valeur n’est pas « bat tout » — c’est « compétitif à une fraction de la VRAM ».

Le billet de lancement de Mistral revendique que Small 3 est « plus de 3× plus rapide que Llama 3.3 70B » sur le même matériel, ce qui est une revendication de débit par token qui correspond aux maths du compte de paramètres : un modèle dense 24B devrait tourner à environ 2,9× les tokens-par-seconde d’un 70B dense à précision égale sur le même GPU. En pratique, les plebs tournant les deux modèles via llama.cpp sur une carte 24 Go voient le ratio attendu — Small 3 en Q5 atteint 40-50 tok/s sur une 3090 où Llama 3.3 en Q4 atteint 15-18 tok/s. Cette vitesse compte pour les charges interactives où la latence affecte l’usabilité ; elle compte encore plus pour les charges batch où vous faites passer plusieurs prompts à travers le modèle dos-à-dos.

Implications pour les plebs souverains

C’est le modèle mono-GPU de 2025 pour les plebs qui ont bâti un rig maison respectable mais ne peuvent pas justifier un setup multi-carte. Les maths VRAM :

  • fp16 : environ 48 Go — double carte 24 Go ou une seule A6000/A100 40 Go+
  • Q8 : environ 24 Go — propre sur une RTX 3090 usagée, 4090 ou toute carte 24 Go
  • Q5_K_M : environ 16 Go — confortable sur une 4080 16 Go ou une 3090/4090 avec marge pour contexte et outils
  • Q4_K_M : environ 14 Go — sweet spot pour cartes 16 Go ; tient sur une carte 12 Go avec offload mineur

Voir le guide de quantification GGUF pour les compromis qualité. Sur un modèle dense 24B, Q5-Q6 est généralement le meilleur équilibre prix-performance si votre VRAM le permet.

Ce que Small 3 remplace dans une stack pleb :

  • Chat assistant général + usage d’outils sur une seule carte 24 Go : Small 3 en Q8 est maintenant le défaut. La combinaison d’appel de fonctions natif, Apache 2.0 et 3× la vitesse de Llama 3.3 70B en fait un daily driver pratique.
  • Épines dorsales RAG : le contexte 32K de Small 3 et un fort MMLU-Pro en font un modèle RAG raisonnable, bien que Command R+ gagne encore sur le formatage de citations ancrées natif si vous avez le matériel.
  • Code + STEM sur une carte : HumanEval 84,8 et MATH 70,6 placent Small 3 fermement en territoire « assistant de codage compétent » — pas aussi fort que Qwen 2.5-Coder 32B pour le code pur, mais assez polyvalent pour les charges mixtes.

Pour les builds inférence-comme-chauffage, une seule 3090 ou 4090 tournant Small 3 en Q8 en charge soutenue est une source de chaleur de 350-450 W produisant du travail véritablement adjacent à la frontière. Pour les plebs convertissant des sites de minage déclassés en Hashcenters IA, le profil densité-par-carte de Small 3 est idéal pour empiler plus de sessions concurrentes sur moins de GPUs qu’un 70B en exige.

Comment l’exécuter dès aujourd’hui

Les poids sont sur Hugging Face à mistralai/Mistral-Small-24B-Instruct-2501. L’entrée de registre Ollama est en ligne :

ollama pull mistral-small

Nouveau à Ollama ? Le guide d’installation Ollama en 10 minutes couvre la configuration. Pour l’UI chat, Open WebUI s’associe à Ollama proprement. LM Studio charge les quants GGUF directement — les quants de Bartowski pour Mistral-Small-24B-Instruct-2501 sont déjà sur Hugging Face. Pour un déploiement de production, vLLM et SGLang supportent tous deux le modèle nativement via le chemin d’architecture Mistral standard.

Des problèmes ? Le guide de dépannage IA auto-hébergée couvre les embûches habituelles de VRAM, quantification et pilotes.

Ce qui vient ensuite

Le motif 2024 de Mistral était d’associer chaque sortie ouverte à un cousin fermé plus grand. Attendez-vous à Mistral Large 3 ou un palier premium similaire dans les mois à venir — tarifé derrière l’API, avec Small 3 comme complément pleb-facing. Les fine-tunes communautaires apparaîtront sur Hugging Face rapidement vu la licence permissive ; surveillez une variante Mistral-Small-24B-Coder et des tunes instruct spécifiques à un domaine d’ici quelques semaines.

Vue d’ensemble : la sortie Apache-2.0 de 24B à la fin de janvier 2025 est un énoncé pointu dans un paysage où plusieurs labos ouverts dérivent vers des licences restrictives. C’est une couche de plus de décentralisation dans l’écosystème des poids ouverts — un modèle adjacent à la frontière que n’importe quel pleb peut faire tourner, modifier et expédier commercialement sans astérisques. Cela compte. Pour l’argumentaire, consultez le Manifeste IA souveraine pour Bitcoiners ; pour des rétrospectives connexes, Llama 3.3 est dans la même classe de poids sur une carte plus grande, Phi-4 est l’alternative spécialiste STEM à 14B, et DeepSeek V3 est ce qui arrive quand on part dans la direction opposée sur l’échelle. Pour la configuration, les pages guide du pleb pour l’IA auto-hébergée et chaufferette Bitcoin couvrent le côté matériel.

Recommended hardware

Runs well on 24 GB VRAM (3090 / 4090) at Q4–Q5. A used 3090 is the pleb pick.

Buying guide: used RTX 3090 for LLMs (2026) →

Get it running

  1. 01 Install Ollama →

    Ten-minute local LLM runtime. One binary, zero cloud.

  2. 02 Give it a web UI →

    Open-WebUI turns Ollama into a self-hosted ChatGPT.

  3. 03 Understand quantization →

    GGUF Q4/Q8/FP16 — which weights fit your GPU, explained.

Further reading: the Sovereign AI for Bitcoiners Manifesto for why sovereign inference matters, and From S19 to Your First AI Hashcenter for repurposing your mining rack into a Hashcenter that runs models like this one.