Passer au contenu

Nous améliorons nos opérations pour mieux vous servir. Les commandes sont expédiées normalement depuis Laval, QC. Questions? Contactez-nous

Bitcoin accepté au paiement  |  Expédié depuis Laval, QC, Canada  |  Soutien expert depuis 2016

Current

Mistral 7B

Mistral AI · Mistral family · Released septembre 2023

Le début de Mistral AI en septembre 2023 — un modèle 7B Apache-2.0 qui a popularisé la Grouped-Query et la Sliding Window Attention.

Model card

DeveloperMistral AI
FamilyMistral
LicenseApache-2.0
Modalitytext
Parameters (B)7
Context window32768
Release dateseptembre 2023
Primary languagesen,fr
Hugging Facemistralai/Mistral-7B-Instruct-v0.3
Ollamaollama pull mistral

Mistral 7B : un petit labo européen vient d’expédier un modèle ouvert qui bat Llama 2 13B

Une startup parisienne dont la plupart n’avaient jamais entendu parler il y a six mois vient de publier Mistral 7B — et il surpasse le Llama 2 13B de Meta sur tous les benchmarks testés par Mistral, tout en faisant environ la moitié de sa taille. Le modèle atterrit aujourd’hui sous licence Apache 2.0, à peu près aussi permissive que possible : usage commercial, modification, redistribution, sans verrou. L’annonce officielle est parue ce matin, avec les poids sur GitHub et Hugging Face.

Pour situer : Mistral AI a été fondée plus tôt cette année par d’anciens chercheurs de Meta et DeepMind et a levé un seed record de 118 M$ en juin. Mistral 7B est leur premier modèle public — et ils entrent dans un espace dominé par Meta (Llama 2, juillet 2023) et OpenAI (GPT-3.5/4 fermé) avec un argumentaire clair de capacité par paramètre. La sortie d’aujourd’hui valide cet argumentaire avec des chiffres. Voici ce qu’il y a dans le modèle, ce que disent les benchmarks, et ce que cela signifie pour les plebs qui faisaient tourner Llama 2 7B ou 13B sur des rigs maison et se demandaient s’il existait un meilleur daily driver.

Ce qu’il y a dans les poids

Mistral 7B est un transformer uniquement décodeur de 7,3 milliards de paramètres. La filiation architecturale est familière : Transformer (Vaswani et al., 2017) → piles décodeur de style GPT → LLaMA 1 (Meta, février 2023) → Llama 2 (Meta, juillet 2023) → Mistral 7B aujourd’hui. L’équipe Mistral a pris l’architecture Llama comme point de départ et a apporté deux changements spécifiques qui comptent.

Grouped-Query Attention (GQA). Au lieu de l’attention multi-tête complète, Mistral 7B regroupe les têtes d’attention de sorte que plusieurs têtes de requête partagent une seule tête clé/valeur. Cela réduit la taille du cache KV d’environ 4× — donc inférence plus rapide et pression VRAM considérablement moindre sur long contexte. GQA a été introduit sur Llama 2 70B et a percolé vers les modèles plus petits ; Mistral l’a porté au niveau 7B.

Sliding Window Attention (SWA). Chaque token ne prête attention qu’aux 4 096 tokens précédents, et non à chaque token du contexte. Cela plafonne la complexité de l’attention de façon linéaire plutôt que quadratique, ce qui permet au modèle de gérer un contexte théoriquement illimité à une fraction du coût mémoire. Mistral revendique une portée de contexte effective jusqu’à 16K+ tokens via la « portée effective » de SWA à travers les couches empilées.

Spécifications clés :

  • 7,3B paramètres, transformer uniquement décodeur
  • Fenêtre glissante : 4 096 tokens
  • Contexte nominal : 8 192 tokens avec portée effective plus longue via SWA
  • Licence Apache 2.0 — pleinement permissive, commercial OK
  • Tokenizer : SentencePiece BPE, vocabulaire de 32K
  • Données d’entraînement et compute : non divulgués dans le billet de lancement

La licence Apache 2.0 est le second titre du jour. La « Community License » de Llama 2 n’est pas validée OSI et comporte des restrictions (clause des 700 M d’utilisateurs actifs mensuels, politiques d’usage acceptable). Mistral 7B n’a rien de tout cela. C’est le modèle ouvert de niveau navire-amiral le plus permissivement licencié publié à ce jour.

Benchmarks au lancement

Depuis le billet de lancement de Mistral :

  • MMLU (5-shot) : Mistral 7B à 60,1 vs Llama 2 7B à 44,4 et Llama 2 13B à 55,6 — Mistral 7B bat le 13B de 4,5 points à environ la moitié de la taille.
  • HellaSwag (raisonnement de bon sens) : Mistral 7B à 81,3 vs Llama 2 13B à 80,7.
  • WinoGrande : Mistral 7B à 75,3 vs Llama 2 13B à 72,9.
  • HumanEval (code, pass@1) : Mistral 7B à 30,5 vs Llama 2 13B à 18,3 — grand écart sur le code.
  • MATH : Mistral 7B à 13,1 vs Llama 2 13B à 6,0 — autre grand écart sur les mathématiques.
  • GSM8K : Mistral 7B à 52,2 vs Llama 2 13B à 28,7 — le plus grand delta de raisonnement.

Mistral s’est aussi benchmarké contre Llama 1 34B (le plus grand Llama 1) et a montré Mistral 7B devant sur le raisonnement, la compréhension et le code, ne traînant que légèrement sur la connaissance large. C’est un modèle 7B qui bat un modèle 34B d’une génération antérieure. Ce sont des chiffres publiés par le créateur — l’Open LLM Leaderboard aura des chiffres indépendants dans quelques jours.

Implications pour les plebs souverains

C’est la sortie « enfin un modèle maison vraiment bon ». Voici les maths VRAM pratiques pour les plebs qui tournent l’inférence locale :

  • Mistral 7B en fp16 : environ 15 Go. Tient sur une RTX 3090 usagée (24 Go) ou une 4060 Ti 16 Go avec offload mineur.
  • Mistral 7B en Q8 : environ 8 Go. Tient sur une 3060 12 Go ou une carte 16 Go avec beaucoup de place pour long contexte.
  • Mistral 7B en Q4_K_M (GGUF) : environ 4,2 Go. Tourne sur presque n’importe quel GPU 6 Go+ et tourne bien en CPU-seul avec 16 Go de RAM système.

Pour les choix de quantification GGUF, voir notre guide — sur un 7B, Q4_K_M est un daily driver très raisonnable ; Q5_K_M est sensiblement plus net si vous avez la VRAM. L’empreinte plus petite de Mistral 7B (vs Llama 2 13B) rend Q5 sur une carte 12 Go facile.

Ce que cela remplace dans une stack pleb : si vous tourniez Llama 2 7B pour le chat, basculez vers Mistral 7B — même matériel, qualité substantiellement meilleure. Si vous tourniez Llama 2 13B sur une seule 3090 (Q4) ou cartes doubles (précision supérieure), Mistral 7B en Q5 ou Q8 vous donne une meilleure qualité à moindre coût VRAM. Pour les plebs restés en CPU-seul parce que leur GPU ne pouvait pas héberger 13B en Q4, Mistral 7B en Q4 est facilement à portée sur une carte milieu de gamme — et le saut tokens/sec du CPU au GPU est la différence entre « utilisable pour chat léger » et « vrai daily driver ».

Pour la foule inférence-comme-chauffage, un GPU unique poussant Mistral 7B en charge soutenue dissipe environ 250-350 W selon la carte — un profil de chauffage de pièce correct, et maintenant avec un modèle assez bon pour faire un travail véritablement utile plutôt que simple pattern-matching. L’économie d’une conversion rig-de-minage-à-nœud-IA change modestement : des modèles plus petits permettent d’empiler plus d’utilisateurs concurrents sur du matériel déclassé.

La licence Apache 2.0 compte pour les plebs qui veulent fine-tuner et redistribuer. Vous pouvez entraîner une variante Mistral 7B de spécialité, la publier, la vendre, l’envelopper dans un produit — sans clause de verrou à lire. Cela va libérer une vague de modèles dérivés dans les semaines à venir.

Comment l’exécuter dès aujourd’hui

Mistral 7B est disponible dès aujourd’hui via :

  • Hugging Face : le dépôt officiel mistralai/Mistral-7B-v0.1 a les poids fp16 et les variantes base + instruct.
  • GitHub : Mistral a publié une implémentation de référence d’inférence minimale aux côtés des poids.
  • llama.cpp et Ollama : la communauté convertit et publie déjà des quantifications GGUF. Attendez-vous à une entrée de registre ollama pull mistral d’ici un jour ou deux, si ce n’est pas déjà en ligne ce soir.

Une fois qu’il sera sur Ollama, la commande pull sera directe. Si vous n’avez pas encore configuré Ollama, notre guide d’installation en 10 minutes vous amène de zéro à opérationnel. Pour une UI chat propre, associez-le à Open WebUI. Construisez sur votre propre stack ? LM Studio, Ollama ou llama.cpp seront tous de bonnes cibles une fois les quants GGUF en ligne.

Ce qui vient ensuite

Le billet de lancement de Mistral est explicite : un modèle plus grand s’en vient — « restez à l’affût pour des modèles plus grands ». Ils n’ont pas donné de taille ni de date, mais le motif suggère une variante Mistral 7B instruct dans quelques jours, et un modèle de base plus grand dans les mois à venir. Attendez-vous à ce que la communauté publie des fine-tunes (classe dolphin, openhermes, zephyr) d’ici deux semaines ; la licence Apache 2.0 retire la friction qui ralentissait les dérivés Llama 2.

Pour les plebs souverains, cette sortie est directement une bonne nouvelle : un petit modèle rapide, licencié de manière permissive, qui bat les géants de la génération précédente. Possédez le matériel, téléchargez les poids, fermez l’onglet API. Consultez notre Manifeste IA souveraine pour l’argumentaire plus large, et le guide du pleb pour l’IA auto-hébergée pour la prochaine étape. Mistral vient de montrer qu’un petit labo européen peut expédier des poids ouverts de classe frontière sous Apache 2.0 dès sa première sortie. C’est un signe sain pour tout l’écosystème IA souveraine.

Recommended hardware

Runs on 12 GB VRAM — 3060 Ti / 4060 / M2 territory. Sweet spot for home rigs.

Buying guide: used RTX 3090 for LLMs (2026) →

Get it running

  1. 01 Install Ollama →

    Ten-minute local LLM runtime. One binary, zero cloud.

  2. 02 Give it a web UI →

    Open-WebUI turns Ollama into a self-hosted ChatGPT.

  3. 03 Understand quantization →

    GGUF Q4/Q8/FP16 — which weights fit your GPU, explained.

Further reading: the Sovereign AI for Bitcoiners Manifesto for why sovereign inference matters, and From S19 to Your First AI Hashcenter for repurposing your mining rack into a Hashcenter that runs models like this one.