Llama 4 (Scout/Maverick)
Meta · Llama family · Released avril 2025
La sortie MoE-et-multimodale de Meta d avril 2025, avec en tête la fenêtre de contexte 10M de Scout et le modèle de frontière Behemoth pré-annoncé.
Model card
| Developer | Meta |
|---|---|
| Family | Llama |
| License | Llama 4 Community |
| Modality | text+vision |
| Parameters (B) | varies (MoE) |
| Context window | 10000000 |
| Release date | avril 2025 |
| Primary languages | en,fr,de,es,it,pt,hi,th,ar |
| Hugging Face | meta-llama/Llama-4-Scout-17B-16E-Instruct |
| Ollama | ollama pull llama4 |
Llama 4 débarque aujourd’hui : Meta passe au MoE, nativement multimodal, et Scout tient sur une seule H100
Meta vient de publier Llama 4, et la filiation a pris un virage serré. Pour la première fois dans la ligne phare Llama, les poids sont une architecture Mixture-of-Experts (MoE), pas un transformer dense. Deux modèles expédient aujourd’hui : Llama 4 Scout (17B actifs, 109B totaux, 16 experts) et Llama 4 Maverick (17B actifs, 400B totaux, 128 experts). Un troisième, Behemoth, est encore en entraînement et débarquera plus tard. Scout et Maverick sont tous deux nativement multimodaux (texte + image) dès l’installation, et tous deux sont disponibles aujourd’hui sur llama.com et Hugging Face.
Si vous attendiez un autre 70B dense comme Llama 3.3, recalibrez. La nouvelle question de design n’est plus « quelle taille fait le modèle ? » — c’est « combien du modèle s’active vraiment par token ? » Pour les plebs faisant tourner des GPUs à la maison, ce changement compte plus que n’importe quel gros titre de benchmark, parce que MoE change les maths VRAM. Nous déballons tout ça ci-dessous : ce que Meta a expédié, à quoi ressemblent les chiffres au lancement, et à quoi ressemble une stack souveraine quand le modèle ouvert phare est soudainement 109B paramètres avec une fenêtre de contexte de 10M. Ceci est une analyse jour-de-sortie — chiffres officiels seulement, disponibilité le jour même, fonctionnement le jour même.
Ce qu’il y a dans les poids
Llama 4 est le premier déploiement de production de Mixture-of-Experts de Meta dans la ligne phare ouverte. Crédit où c’est dû : l’idée MoE n’est pas nouvelle. Le Switch Transformer de Google (2021), Mixtral 8x7B de Mistral (décembre 2023) et DeepSeek V3 (décembre 2024) ont tous prouvé le routage clairsemé d’experts à l’échelle. Ce qui est différent aujourd’hui, c’est que Meta — le plus grand distributeur de poids ouverts sur terre — a fait de MoE la forme par défaut de Llama à l’avenir. C’est la filiation qui bouge : Transformer (2017) → LLaMA 1 (2023) → Llama 2 → Llama 3 / 3.1 / 3.2 / 3.3 → Llama 4.
Scout (17B actifs / 109B totaux)
- 16 experts, deux actifs par token
- 17B paramètres actifs à l’inférence
- Fenêtre de contexte de 10M tokens (oui, dix millions — le chiffre phare de Meta)
- Nativement multimodal : entraînement vision + texte en fusion précoce
- Tient sur une seule NVIDIA H100 en quantification Int4, selon la fiche du modèle de Meta
Maverick (17B actifs / 400B totaux)
- 128 experts, deux actifs par token
- 17B paramètres actifs à l’inférence (pareil que Scout)
- Fenêtre de contexte de 1M tokens
- Nativement multimodal
- Cible un hôte H100 unique avec sharding d’experts
Les deux modèles ont été pré-entraînés sur environ 30 trillions de tokens de données mixtes texte, code et image — plus du double du corpus d’entraînement de Llama 3. Meta positionne Maverick comme un pair GPT-4o / Claude 3.7 / Gemini 2.0, avec Scout comme le « navire-amiral edge » pour l’inférence locale. Le contexte 10M dans Scout est le chiffre dont tout le monde va parler ce soir — Meta dit qu’il est atteint avec un changement d’architecture iRoPE (RoPE entrelacé). Que cela tienne sous des tests de stress de récupération est quelque chose que la communauté testera sous pression dans les prochaines semaines.
Benchmarks au lancement
Ce sont les chiffres que Meta a publiés aujourd’hui dans le billet de lancement. Nous n’ajoutons pas de spéculation, et nous n’attendons pas lmsys — nous lisons ce que le créateur a expédié avec les poids.
- Maverick vs GPT-4o / Gemini 2.0 Flash : Meta revendique que Maverick bat les deux sur la plupart des benchmarks de raisonnement et codage, et égale le plus récent DeepSeek V3.1 sur les mêmes tâches — à environ la moitié des paramètres actifs.
- Scout vs Llama 3.3 70B : Meta revendique que Scout égale ou dépasse 3.3 70B sur la suite standard MMLU / GSM8K / HumanEval tout en tournant à ~5× les tokens/sec grâce au chemin actif 17B.
- Benchmarks STEM : sur MATH et GPQA, le chemin actif 17B de Scout cogne bien au-dessus de sa classe de poids — les chiffres de Meta le placent devant le preview de GPT-4.5 sur plusieurs tâches STEM à la sortie.
- Multilingue : Llama 4 a été entraîné sur 200 langues, avec support complet pour 12. Les résultats MMLU-Pro multilingue le placent compétitif avec Qwen 2.5 72B, qui avait été le leader multilingue ouvert.
Comme toujours avec les chiffres jour-de-sortie : le créateur a choisi les benchmarks, donc lisez-les comme « meilleur cas officiellement soutenu ». L’arène lmsys et le Hugging Face Open LLM Leaderboard trieront le classement réel dans les prochains 30 jours. Mais la forme de la revendication — MoE égalant des modèles denses de frontière à une fraction du compute actif — est cohérente avec ce que Mixtral a montré en 2023 et ce que DeepSeek V3 a montré en décembre. L’architecture fonctionne.
Implications pour les plebs souverains
Voici où le caoutchouc rencontre la route pour un Hashcenter faisant tourner Llama localement. MoE brise la vieille règle du pouce VRAM. Sous un modèle dense comme Llama 3.3 70B, il fallait tenir tous les 70B paramètres en VRAM — environ 40 Go en Q4, ce qui signifiait qu’une paire de RTX 3090 usagées (48 Go combinés) était le rig souverain minimum. Sous Llama 4 Scout, il faut tenir tous les 109B paramètres résidents (parce que le routeur peut choisir n’importe quel expert par token), mais seulement 17B sont actifs par forward pass. La facture VRAM est 109B total ; la facture compute est 17B actifs.
Traduction pour le rig pleb typique :
- Scout en Q4_K_M (GGUF) : environ 60-65 Go sur disque, donc il faut un minimum de deux 3090 plus ~16 Go de débordement RAM système, ou une H100/A100 80 Go unique. C’est le nouveau palier « navire-amiral local confortable ».
- Scout en Q2/Q3 : vous amène dans la plage 40 Go, exécutable sur un rig double-3090 confortablement, au coût d’une dégradation de qualité sensible. Voir notre guide de quant GGUF pour les compromis.
- Maverick : 400B paramètres totaux signifie que ce n’est pas un modèle de rig maison à moins d’avoir une station multi-GPU ou de faire tourner un petit Hashcenter. Réalistement, Maverick est un déploiement 8× H100 ou un build llama.cpp fortement offloadé.
- Behemoth (quand il débarquera) : probablement Hashcenter-seulement.
Qu’est-ce que Llama 4 Scout remplace dans la stack quotidienne ? Pour les plebs qui tournaient Llama 3.3 70B sur double 3090 pour chat + codage, Scout est une mise à niveau directe : même matériel, plus de capacité, plus la vision native. Pour les plebs tournant Qwen 2.5 72B comme leur daily driver multilingue, Scout vaut un essai tête-à-tête — la revendication multilingue est le premier vrai défi ouvert au territoire de Qwen. Pour les plebs tournant Llama 3.1 8B pour le chat local rapide, Scout est probablement surdimensionné ; restez sur 8B et surveillez une variante Scout-mini.
La foule du pivot Hashcenter se souciera de deux chiffres : la parité revendiquée de Maverick avec GPT-4o à 17B actifs, et le contexte 10M sur Scout. Si ces chiffres tiennent en production, les poids ouverts viennent de fermer un écart substantiel avec les APIs de frontière — et l’économie du fait de faire tourner votre propre stack d’inférence (sur des flottes S19 déclassées ou un petit build GPU) devient beaucoup plus intéressante. Consultez notre article sur la conversion de sites de minage en inférence IA pour les maths d’enveloppe de puissance.
Comment l’exécuter dès aujourd’hui
Scout atteint le registre Ollama à la sortie. Pour le flux pleb typique :
ollama pull llama4:scout
Cela télécharge la quantification Q4_K_M par défaut — environ 65 Go de téléchargement, prêt à tourner. Si vous n’avez pas encore configuré Ollama, notre guide d’installation Ollama en 10 minutes couvre tout le processus, incluant la détection GPU et le réglage de l’offload VRAM. Pour une plus belle interface chat, associez-le à Open WebUI — le support vision dans Scout atterrit proprement dans cette UI dès aujourd’hui.
Pour les plebs qui préfèrent un chargeur d’inférence GUI, LM Studio télécharge déjà des GGUFs Llama 4 depuis Hugging Face — les GGUFs Scout 109B sont en cours d’upload par la communauté en ce moment. Donnez-lui quelques heures pour que les quants Q4 se stabilisent. L’org Meta Llama sur Hugging Face a les poids fp16 officiels pour quiconque bâtit des quantifications personnalisées. Si l’inférence crashe au premier chargement, consultez notre guide de dépannage IA auto-hébergée — les suspects habituels sont la version CUDA et le surengagement VRAM, et le routage MoE de Llama 4 ajoute un nouveau mode d’échec (poids d’experts manquants, habituellement un téléchargement partiel).
Ce qui vient ensuite
Meta a pré-annoncé Behemoth aujourd’hui — un MoE de 2T paramètres encore en entraînement — mais n’a pas donné de fenêtre de sortie. Attendez-vous à ce que les dérivés de Scout et Maverick (instruct tunes, variantes tool-calling, distills) inondent Hugging Face dans les deux prochaines semaines ; la communauté itère toujours vite sur une nouvelle livraison Llama. La question ouverte intéressante est de savoir si le contexte 10M tient en pratique : le design iRoPE de Scout est nouveau, et les benchmarks de récupération à cette longueur ont historiquement exposé les faiblesses d’encodage positionnel. Nous le saurons d’ici une semaine.
Vue d’ensemble : avec Llama 4, Meta a formellement déplacé les poids ouverts de « transformers denses » à « MoE clairsemés » comme forme phare par défaut. C’est un changement de filiation. Mixtral l’a prouvé, DeepSeek l’a passé à l’échelle, Meta vient d’en faire le défaut ouvert grand public. Les plebs souverains gagnent quand les architectures de frontière expédient avec des licences permissives et atterrissent sur le registre Ollama le jour même — et aujourd’hui, c’est ce qui est arrivé. Téléchargez-le, faites-le tourner, possédez votre inférence. Consultez le Manifeste IA souveraine pour le pourquoi, et le guide du pleb pour l’IA auto-hébergée pour le comment.
Get it running
-
01
Install Ollama →
Ten-minute local LLM runtime. One binary, zero cloud.
-
02
Give it a web UI →
Open-WebUI turns Ollama into a self-hosted ChatGPT.
-
03
Understand quantization →
GGUF Q4/Q8/FP16 — which weights fit your GPU, explained.
Further reading: the Sovereign AI for Bitcoiners Manifesto for why sovereign inference matters, and From S19 to Your First AI Hashcenter for repurposing your mining rack into a Hashcenter that runs models like this one.
