Llama 3.1
Meta · Llama family · Released juillet 2024
La famille LLM ouverte phare de Meta de 2024 — 8B, 70B et 405B paramètres avec contexte 128K. Le 405B a été le premier modèle ouvert à une véritable échelle de frontière.
Model card
| Developer | Meta |
|---|---|
| Family | Llama |
| License | Llama 3.1 Community |
| Modality | text |
| Parameters (B) | 8,70,405 |
| Context window | 128000 |
| Release date | juillet 2024 |
| Primary languages | en,fr,de,es,it,pt,hi,th |
| Hugging Face | meta-llama/Llama-3.1-8B-Instruct |
| Ollama | ollama pull llama3.1 |
Meta a déployé Llama 3.1 aujourd’hui, et le plus gros modèle à poids ouverts de l’alignement — 405B paramètres — vient de placer une capacité de classe frontière entre les mains de quiconque avec un cluster GPU et une commande git clone. Pour les plebs souverains faisant tourner l’inférence à la maison, le vrai cadeau n’est pas le 405B (vous ne pouvez pas le faire tourner sans un hashcenter rempli de H100). Ce sont les cousins 8B et 70B mis à jour, tous deux passés à une fenêtre de contexte de 128K et dramatiquement améliorés en raisonnement, usage d’outils et capacité multilingue.
C’est la sortie qui a rendu « l’open source rattrape le fermé » plus qu’un mème. Le 70B égale ou dépasse GPT-4 sur la plupart des benchmarks publics, selon les chiffres de sortie de Meta. Le 8B a enfin une fenêtre de contexte assez grande pour du vrai travail. Et chaque poids est sous la Llama 3.1 Community License — permissive pour l’usage commercial pour les organisations sous 700 M d’utilisateurs actifs mensuels, ce qui couvre approximativement chaque pleb lisant ceci.
Ce qu’il y a dans les poids
Llama 3.1 est le descendant direct d’une filiation de recherche qui mérite reconnaissance. L’architecture Transformer du papier « Attention Is All You Need » de Google de 2017. Le LLaMA original de Meta de février 2023 — fuité, puis open-sourcé à contrecœur sous Llama 2 en juillet 2023. Llama 3 en avril 2024 avec le saut de tokenizer à un vocabulaire de 128K. Et maintenant Llama 3.1, un raffinement plutôt qu’une révolution, mais un substantiel.
Trois tailles expédient aujourd’hui :
- Llama 3.1 8B : même compte de paramètres que Llama 3 8B, mais réentraîné avec le contexte 128K étendu et le suivi d’instructions amélioré. Tourne sur un GPU grand public unique avec 16 Go+ de VRAM à quantifications raisonnables.
- Llama 3.1 70B : le navire-amiral pleb. Contexte 128K, raisonnement matériellement plus fort que Llama 3 70B. Tient sur des RTX 3090 en paire en quantification Q4_K_M.
- Llama 3.1 405B : la tête d’affiche. Premier modèle à poids ouverts à véritablement défier GPT-4 et Claude 3.5 Sonnet sur les benchmarks de raisonnement, selon le billet de lancement de Meta. Exige une infrastructure d’inférence de classe entreprise — pas un modèle de pleb maison.
Architecturalement, c’est un Transformer uniquement décodeur standard avec Grouped Query Attention, activations SwiGLU et embeddings positionnels RoPE étendus via une technique de scaling personnalisée décrite dans le billet technique de Meta, permettant un contexte 128K sans dégradation catastrophique. Le 405B a été entraîné sur plus de 15 trillions de tokens sur le cluster de 16 000 H100 de Meta — un budget de compute qui mettrait en faillite la plupart des États-nations.
Les détails des données d’entraînement restent partiellement divulgués, comme d’habitude. Meta reconnaît un mélange de texte publiquement disponible, de corpus lourds en code et de données synthétiques générées par des checkpoints Llama antérieurs. La couverture multilingue s’est substantiellement étendue depuis Llama 3, avec une performance plus forte revendiquée pour l’espagnol, le portugais, l’allemand, le français, l’hindi, l’italien et le thaï.
Les 8B et 70B sont distillés depuis le modèle enseignant 405B, une première pour la famille Llama. Meta revendique que ce transfert a dramatiquement amélioré les capacités des modèles plus petits sans changer leur compte de paramètres. Pour les plebs, cela signifie que le 70B que vous téléchargez aujourd’hui est substantiellement plus fort que Llama 3 70B, même si les tailles paraissent identiques sur papier.
Benchmarks au lancement
Selon le billet de lancement de Meta, Llama 3.1 405B score de façon compétitive avec GPT-4o et Claude 3.5 Sonnet sur les benchmarks suivants à la sortie :
- MMLU (connaissance générale) : 87,3 pour 405B, 86,0 pour 70B, 73,0 pour 8B
- HumanEval (code) : 89,0 pour 405B, 80,5 pour 70B, 72,6 pour 8B
- MATH : 73,8 pour 405B, 68,0 pour 70B
- GSM8K (maths scolaires) : 96,8 pour 405B, 95,1 pour 70B, 84,5 pour 8B
Les évaluateurs indépendants sur le LMSys Chatbot Arena prendront des semaines pour rassembler assez de votes pour un classement stable, et les benchmarks communautaires sur l’Open LLM Leaderboard de Hugging Face arriveront dans le prochain mois. Traitez les chiffres auto-rapportés de Meta avec un scepticisme approprié jusqu’à ce que la communauté les reproduise, mais les améliorations architecturales et d’échelle d’entraînement rendent les revendications plausibles.
Pour les plebs tournant l’inférence locale, le benchmark le plus important n’est pas un classement — c’est si le 70B en quantification Q4 semble assez net pour remplacer votre habitude OpenAI quotidienne. Les premiers rapports communautaires suggèrent que oui.
Ce que cela signifie pour le pleb souverain
Le manifeste IA souveraine argumente depuis quelque temps que les labos de frontière fermés seront toujours un goulet d’étranglement d’extraction de rente. Llama 3.1 70B est le premier modèle à poids ouverts qui rend cet argument tangible plutôt qu’aspirational. Sur des RTX 3090 en paire, un quant Q4_K_M de Llama 3.1 70B livre 10-15 tokens par seconde et une qualité qui couvre environ 80 % des cas d’usage pleb réels — aide au codage, synthèse à long contexte, assistance à la recherche, rédaction. Les 20 % restants (raisonnement de frontière, tâches agentiques, multimodal) vous pousseront encore vers des modèles fermés pour l’instant, mais l’écart n’a jamais été aussi petit.
Exigences VRAM aux niveaux de quantification communs :
- Llama 3.1 8B Q4_K_M : ~5 Go VRAM — tourne sur une RTX 3060 12 Go, un Mac série M avec 16 Go de mémoire unifiée, ou tout GPU 8 Go+ avec marge à revendre
- Llama 3.1 8B Q8 : ~9 Go VRAM — qualité proche FP16 sur une carte 12 Go
- Llama 3.1 70B Q4_K_M : ~40 Go VRAM — double 3090/4090 ou une seule A6000
- Llama 3.1 70B Q5_K_M : ~49 Go VRAM — pousse double 3090 à la limite, préférer double 4090 ou A6000
- Llama 3.1 70B Q8 : ~75 Go VRAM — quad 3090, double A6000 ou H100
- Llama 3.1 405B Q4_K_M : ~240 Go VRAM — pas un modèle pleb. Huit H100 ou un serveur d’inférence dédié.
Si vous bâtissez un Hashcenter — recyclage de la chaleur du minage en travail compute et vente du compute pendant que vous chauffez votre maison — le 70B est le sweet spot. Il justifie le setup double-GPU que vous achèteriez de toute façon pour Stable Diffusion et FLUX, et il remplace assez de tâches plébéiennes de ChatGPT pour rendre la souveraineté digne de l’électricité. Pour la stack RTX 3090 usagées que nous recommandons aux plebs, Llama 3.1 70B Q4 est le nouveau défaut.
Si vous tournez un rig mono-GPU, le 8B est maintenant le petit modèle par défaut. Il supplante Llama 3 8B, Mistral 7B et la majeure partie du palier « petit-et-capable » plus ancien en une seule sortie. Pour la référence sur quel quant saisir, consultez notre explicateur de quantification — Q4_K_M est toujours le bon défaut pour les plebs qui veulent un ratio qualité-sur-VRAM, et Q8 est la bonne réponse pour les gens qui tournent 8B sur une carte 24 Go et veulent une fidélité proche FP16.
Comment l’exécuter dès aujourd’hui
Quickstart avec Ollama :
ollama pull llama3.1:8b
ollama pull llama3.1:70b
ollama run llama3.1:70b
Ollama télécharge Q4_K_M par défaut, ce qui est correct pour la plupart des plebs. Si vous voulez un quant différent, utilisez le tag explicite :
ollama pull llama3.1:70b-instruct-q5_K_M
Pour les poids Hugging Face directement : meta-llama/Meta-Llama-3.1-70B-Instruct (vous devrez accepter la licence sur HF pour télécharger les poids). Les quants GGUF des mainteneurs communautaires comme bartowski ont tendance à atterrir dans les heures suivant la sortie et sont la source préférée des plebs pour la plupart des runners locaux.
Utilisateurs LM Studio : le modèle devrait apparaître dans la recherche in-app aujourd’hui ou demain. Voir notre comparaison LM Studio vs Ollama vs llama.cpp si vous décidez quel runner utiliser. Pour une UI chat navigateur par-dessus Ollama, Open WebUI reste le standard pleb.
Si la chaleur d’inférence est une feature, pas un bug, pour votre setup, chauffer avec l’inférence a les maths sur pourquoi un 70B sur double 3090 dégage assez de chaleur pour suppléer la plinthe d’une petite pièce. Et si vous démarrez une capacité d’inférence sérieuse à partir de mineurs retirés, le playbook S19-vers-Hashcenter-IA est une meilleure amorce que tout ce que Sam Altman écrira un jour. Pour le contexte de marché plus large sur où tout ceci se dirige, la thèse du pivot Hashcenter suit les flux de capital remodelant l’industrie.
Ce qui vient ensuite
Meta a dit explicitement que le prochain Llama sera multimodal — texte, image et potentiellement audio dans un seul modèle. La lettre ouverte de Mark Zuckerberg publiée aux côtés de cette sortie cadre l’IA open source comme un « chemin vers l’avant » dans lequel Meta entend continuer à investir, citant la même analogie Linux-vs-Unix-propriétaire que les défenseurs de l’IA souveraine font depuis un an. Prenez les motifs corporatifs avec un grain de sel, mais la cadence de sortie parle d’elle-même : Llama 1 à Llama 2 a pris cinq mois ; Llama 2 à Llama 3, neuf ; Llama 3 à Llama 3.1, trois.
Si vous rencontrez des problèmes à charger les poids ou à configurer votre runtime, notre guide de dépannage IA auto-hébergée couvre les modes d’échec communs. Pour les plebs qui veulent intégrer le modèle dans une stack d’automation locale, le guide d’intégration Home Assistant et Obsidian a des motifs qui fonctionnent bien avec Llama 3.1 8B comme classifieur toujours actif.
Pour les plebs, le message d’aujourd’hui est simple. Le 70B est le nouveau daily driver. Téléchargez les poids, démarrez Ollama et faites tourner votre propre inférence dans votre propre Hashcenter. Les labos de frontière peuvent garder leurs clés d’API et leurs limites de taux. Llama 3.1 est à vous à faire tourner, à modifier et à garder.
La souveraineté allait toujours être un jeu à poids ouverts. Aujourd’hui, elle vient de devenir bien plus plausible.
Recommended hardware
Multi-GPU rig or cloud territory. For most plebs, the 70B distillation is plenty.
Get it running
-
01
Install Ollama →
Ten-minute local LLM runtime. One binary, zero cloud.
-
02
Give it a web UI →
Open-WebUI turns Ollama into a self-hosted ChatGPT.
-
03
Understand quantization →
GGUF Q4/Q8/FP16 — which weights fit your GPU, explained.
Further reading: the Sovereign AI for Bitcoiners Manifesto for why sovereign inference matters, and From S19 to Your First AI Hashcenter for repurposing your mining rack into a Hashcenter that runs models like this one.
