Passer au contenu

Nous améliorons nos opérations pour mieux vous servir. Les commandes sont expédiées normalement depuis Laval, QC. Questions? Contactez-nous

Bitcoin accepté au paiement  |  Expédié depuis Laval, QC, Canada  |  Soutien expert depuis 2016

Current

Mixtral 8x7B

Mistral AI · Mistral family · Released décembre 2023

Le modèle mixture-of-experts de Mistral AI de décembre 2023 — 8 experts, 2 actifs par token, Apache 2.0, tournant à la vitesse de Llama-13B avec la qualité de Llama-70B.

Model card

DeveloperMistral AI
FamilyMistral
LicenseApache-2.0
Modalitytext
Parameters (B)46.7 (MoE)
Context window32768
Release datedécembre 2023
Primary languagesen,fr,de,es,it
Hugging Facemistralai/Mixtral-8x7B-Instruct-v0.1
Ollamaollama pull mixtral

Mixtral 8x7B : Mistral expédie le premier modèle Mixture-of-Experts ouvert sérieusement utilisable

Mistral AI vient de publier Mixtral 8x7B — un modèle Sparse Mixture-of-Experts (SMoE) avec 46,7 milliards de paramètres totaux mais seulement 12,9 milliards actifs par token — sous licence Apache 2.0. L’annonce est parue ce matin et les poids sont en ligne sur Hugging Face. Trois mois après que Mistral 7B ait battu Llama 2 13B à la moitié de la taille, Mistral revient avec un pari architectural plus gros : le routage clairsemé d’experts.

Mixture-of-Experts n’est pas une idée neuve — le Switch Transformer de Google (2021), GShard (2020) et la littérature académique sur les MoE remontent plus loin — mais c’est la première fois qu’un modèle MoE à cette échelle est expédié avec des poids ouverts sous licence permissive. Mistral revendique que Mixtral surpasse Llama 2 70B sur la plupart des benchmarks à environ 6× la vitesse d’inférence. Si ça tient, le paysage des poids ouverts vient de bouger : un pleb sur rig maison peut atteindre la qualité de classe 70B sans payer le compute de classe 70B. Voici comment fonctionne MoE, ce que disent les chiffres au lancement, et ce que cela signifie pour l’inférence locale souveraine.

Ce qu’il y a dans les poids

Mixtral 8x7B est un transformer uniquement décodeur où les couches feedforward denses ont été remplacées par des couches Mixture-of-Experts. Dans chaque couche MoE, un petit réseau « routeur » lit le token entrant et choisit les 2 meilleurs des 8 sous-réseaux feedforward experts pour le traiter. Seuls ces 2 experts s’activent ; les 6 autres sont entièrement sautés pour ce token. Des tokens différents peuvent router vers des experts différents.

La filiation : Transformer (2017) → Switch Transformer et GShard (Google, 2020-2021) → LLaMA 1 et 2 (Meta, 2023) → Mistral 7B (septembre 2023) → Mixtral aujourd’hui. Mistral crédite la recherche MoE chez Google et les implémentations ouvertes de la communauté académique comme antériorité. Ce qui est nouveau, c’est l’ingénierie : un petit labo expédie un SMoE de qualité production à 46,7B paramètres totaux sous licence permissive.

Spécifications clés :

  • 46,7B paramètres totaux, 12,9B actifs par token (8 experts, routage top-2)
  • Architecture de base : 32 couches transformer, uniquement décodeur, avec blocs feedforward MoE
  • Même recette d’attention que Mistral 7B : Grouped-Query Attention, Sliding Window Attention
  • Fenêtre de contexte de 32 000 tokens (un saut depuis le 8K de Mistral 7B)
  • Tokenizer : SentencePiece BPE, vocabulaire de 32K
  • Multilingue : fort en anglais, français, allemand, espagnol, italien
  • Licence : Apache 2.0 — permissive, commercial OK, sans clause de décompte d’utilisateurs

Le modèle mental pratique pour MoE : on paye 46,7B paramètres en VRAM et sur disque (parce que le routeur peut choisir n’importe quelle combinaison d’experts par token), mais on paye 12,9B paramètres en compute actif par forward pass. La VRAM évolue avec les paramètres totaux ; la vitesse d’inférence évolue avec les paramètres actifs. C’est l’insight économique clé qui rend MoE intéressant pour les plebs souverains.

Benchmarks au lancement

Depuis le billet de lancement de Mistral, publié aujourd’hui :

  • MMLU : Mixtral 8x7B à 70,6 vs Llama 2 70B à 69,9 et GPT-3,5 à 70,0 — Mixtral égale les deux à une fraction du compute actif.
  • HellaSwag (10-shot) : Mixtral à 86,7 vs Llama 2 70B à 87,1 — pratiquement ex æquo.
  • WinoGrande (5-shot) : Mixtral à 81,2 vs Llama 2 70B à 83,2 — léger avantage Llama.
  • HumanEval (code, 0-shot pass@1) : Mixtral à 40,2 vs Llama 2 70B à 29,9 — Mixtral décisivement devant sur le code.
  • MATH : Mixtral à 28,4 vs Llama 2 70B à 13,8 — autre grande avance Mixtral.
  • GSM8K (maj@8) : Mixtral à 74,4 vs Llama 2 70B à 54,9 — Mixtral devant de presque 20 points sur les maths scolaires.
  • MMLU multilingue : Mixtral devant sur français, allemand, espagnol, italien — l’entraînement multilingue se voit.

Mistral revendique aussi que Mixtral égale ou bat GPT-3.5 Turbo sur la plupart de ces benchmarks. C’est le vrai titre : un modèle ouvert Apache 2.0 revendique la parité avec un navire-amiral API fermé. Attendez-vous à ce que l’Open LLM Leaderboard et lmsys Chatbot Arena valident ou corrigent dans les semaines à venir — mais la forme de la revendication est crédible vu l’architecture.

Implications pour les plebs souverains

Cette sortie change ce que signifie « modèle de classe 70B local ». Avant aujourd’hui, faire tourner Llama 2 70B sur matériel maison voulait dire ~40 Go en Q4 — 3090 en paire, minimum. Mixtral change les maths :

  • Mixtral 8x7B en fp16 : environ 95 Go. Territoire multi-GPU ou offload CPU agressif — pas un modèle mono-carte en pleine précision.
  • Mixtral 8x7B en Q8 : environ 50 Go. Faisable sur un rig double-3090 (48 Go) avec offload léger, propre sur une A100 80 Go.
  • Mixtral 8x7B en Q5_K_M (GGUF) : environ 32 Go. Tient sur des 3090 en paire avec de la place pour long contexte. C’est le sweet spot pour rigs maison.
  • Mixtral 8x7B en Q4_K_M : environ 27 Go. Serré sur 3090 en paire avec contexte généreux. Faisable sur une seule carte 32 Go, ou carte 24 Go unique avec offload vers RAM système.
  • Mixtral 8x7B en Q3 : environ 20 Go. Territoire 3090 solo avec dégradation de qualité notable — voir notre guide de quantification pour les compromis.

Le côté vitesse de l’équation MoE est ce qui devient intéressant. Parce que seuls 12,9B paramètres sont actifs par token, l’inférence tourne proche de la vitesse de classe 13B — pas de classe 47B. Sur un rig double-3090 tournant Mixtral en Q5, des plebs rapportent 30-50 tokens/sec, bien au-dessus de ce que livre Llama 2 70B sur le même matériel.

Ce que cela remplace dans une stack pleb : si vous tourniez Llama 2 70B localement, Mixtral est une mise à niveau qualité-et-vitesse à coût VRAM similaire. Si vous payiez GPT-3.5 via API, l’alternative à poids ouverts qui l’égale en benchmarks est sur votre disque aujourd’hui. Si vous tourniez Mistral 7B comme daily driver rapide, Mixtral est la mise à niveau raisonnement quand votre rig peut supporter la VRAM.

Pour les chaufferettes à inférence, l’économie des paramètres actifs de Mixtral est idéale : un rig double-3090 sous charge Mixtral tire à peu près le même wattage que sous charge Llama 2 70B (~700 W combinés), mais livre plus de tokens de travail utile par kWh. Pour les opérateurs de Hashcenter envisageant des charges d’inférence, MoE est l’architecture qui rend le service de modèles ouverts à l’échelle économiquement compétitif avec les API fermées — parce qu’on paye la mémoire des paramètres totaux une fois et le compute des paramètres actifs par requête.

Comment l’exécuter dès aujourd’hui

Mixtral 8x7B est disponible dès aujourd’hui sur Hugging Face :

Le support MoE dans llama.cpp sort tout frais — l’équipe de Georgi Gerganov a mergé les kernels Mixtral aujourd’hui, et les quantifications GGUF communautaires sont uploadées sur Hugging Face en ce moment même. Attendez-vous à une entrée de registre Ollama d’ici 24-48 heures ; une fois en ligne, ollama pull mixtral sera la commande. En attendant, notre guide d’installation Ollama en 10 minutes vous prépare. Pour une UI chat, Open WebUI prendra Mixtral automatiquement une fois qu’Ollama l’aura.

Utilisateurs de LM Studio : surveillez l’apparition des quants GGUF de Bartowski ou TheBloke dans le navigateur HF au cours du prochain jour. Des erreurs VRAM ? Le routage MoE ajoute un nouveau mode d’échec (chargement partiel d’experts) ; voir notre guide de dépannage.

Ce qui vient ensuite

Mistral construit clairement une famille : 7B dense, 8x7B clairsemé, et (par implication) des variantes MoE plus grandes sur la feuille de route. Le billet de lancement laisse entendre un Mixtral Instruct tuné par DPO — déjà publié aux côtés du base. Les fine-tunes communautaires apparaîtront dans les jours qui viennent maintenant que MoE est supporté dans llama.cpp et que les outils d’entraînement rattrapent. Attendez-vous à des variantes codeur, des variantes roleplay et des tunes multilingues spécialisés sur Hugging Face d’ici deux semaines.

Vue d’ensemble : Mixtral est le premier MoE ouvert de qualité production. S’il tient ses benchmarks du jour de lancement, il va pousser tout l’écosystème des poids ouverts vers les architectures clairsemées — parce que l’économie des paramètres actifs est bien meilleure pour l’inférence à l’échelle. Pour les plebs souverains, le titre est : qualité de classe 70B, vitesse de classe 13B, Apache 2.0, sur votre disque ce soir. Téléchargez les poids, possédez la stack. Consultez le Manifeste IA souveraine et le guide du pleb pour l’IA auto-hébergée pour les prochaines étapes.

Lectures complémentaires : La même infrastructure de classe pleb qui fait tourner l’inférence locale fait aussi tourner une chaufferette Bitcoin. Plusieurs lecteurs arrivent du côté minage — consultez Du S19 à votre premier Hashcenter IA pour le pont.

Recommended hardware

Needs dual 3090 / 4090 for Q4, or a single 48 GB card (5090 / A6000) for headroom.

Buying guide: used RTX 3090 for LLMs (2026) →

Get it running

  1. 01 Install Ollama →

    Ten-minute local LLM runtime. One binary, zero cloud.

  2. 02 Give it a web UI →

    Open-WebUI turns Ollama into a self-hosted ChatGPT.

  3. 03 Understand quantization →

    GGUF Q4/Q8/FP16 — which weights fit your GPU, explained.

Further reading: the Sovereign AI for Bitcoiners Manifesto for why sovereign inference matters, and From S19 to Your First AI Hashcenter for repurposing your mining rack into a Hashcenter that runs models like this one.