Llama 3.3
Meta · Llama family · Released décembre 2024
Un seul modèle 70B publié en décembre 2024, comblant la majeure partie de l écart avec Llama 3.1 405B par post-entraînement amélioré seul.
Model card
| Developer | Meta |
|---|---|
| Family | Llama |
| License | Llama 3.3 Community |
| Modality | text |
| Parameters (B) | 70 |
| Context window | 128000 |
| Release date | décembre 2024 |
| Primary languages | en,fr,de,es,it,pt,hi,th |
| Hugging Face | meta-llama/Llama-3.3-70B-Instruct |
| Ollama | ollama pull llama3.3 |
Llama 3.3 70B débarque aujourd’hui : performance de 405B à une fraction de la VRAM
Meta a discrètement publié Llama 3.3 70B Instruct aujourd’hui — pas de grand keynote Connect, pas d’expansion multimodale, pas de nouveau modèle edge. Juste des poids. Et la revendication est la partie intéressante : Meta dit que Llama 3.3 70B égale ou dépasse Llama 3.1 405B sur la plupart des benchmarks standards, à un cinquième des paramètres actifs. Pour les plebs souverains qui lorgnaient le 405B mais n’ont pas le Hashcenter pour le faire tourner, c’est la nouvelle. La fiche du modèle est en ligne sur Hugging Face.
Ce que cela vous dit sur où se dirige l’espace des poids ouverts : la course aux armements de 2024 n’est plus « combien de paramètres pouvez-vous entraîner ? » C’est « quelle efficacité pouvez-vous tirer d’un budget de paramètres donné ? » La sortie d’aujourd’hui est la réponse la plus forte de Meta à ce jour. Voici ce qu’ils ont changé, ce que disent les benchmarks au lancement, et si ça vaut la peine de télécharger sur votre rig ce soir.
Ce qu’il y a dans les poids
Llama 3.3 70B Instruct est un rafraîchissement de post-entraînement de l’épine dorsale Llama 3.1 70B. Meta n’a pas réentraîné depuis zéro. Ce qui a changé, c’est la pipeline d’instruction-tuning — jeux de données RLHF améliorés, meilleur modelage de récompense et une nouvelle étape DPO (Direct Preference Optimization) « offline » qui leur permet de balayer plusieurs variantes de préférence sans faire répétitivement tourner des humains dans la boucle. L’architecture transformer dense est inchangée depuis 3.1 70B : mêmes 80 couches, même dimension cachée 8192, même SwiGLU, même RoPE, même GQA.
Crédit à la filiation : Transformer (2017, Vaswani et al.) → LLaMA 1 (février 2023) → Llama 2 (juillet 2023) → Llama 3 (avril 2024) → Llama 3.1 (juillet 2024, qui a introduit le navire-amiral 405B et le contexte 128K) → Llama 3.2 (septembre, vision et edge) → Llama 3.3 aujourd’hui. Les techniques de post-entraînement doivent une dette à la Constitutional AI d’Anthropic, à l’InstructGPT d’OpenAI et à la littérature académique RLHF / DPO.
Spécifications clés :
- 70B paramètres, transformer dense (pas MoE)
- Fenêtre de contexte 128K
- Texte-seulement, anglais-d’abord, avec support de 8 langues officielles
- Appel de fonctions et usage d’outils, amélioré sur 3.1 70B
- Instruction-tuné seulement — pas de nouveau modèle de base expédié aujourd’hui
Les données de pré-entraînement sont le même corpus que Llama 3.1 (15T tokens). C’est une sortie de tuning, pas une sortie de scaling. Que vous vous en souciez dépend de si vous pensez que le post-entraînement a plus de marge que le pré-entraînement — et le pari de Meta est que oui.
Benchmarks au lancement
De la fiche du modèle de Meta :
- MMLU (5-shot) : 3.3 70B à 86,0 vs 3.1 70B à 82,0 et 3.1 405B à 87,3 — le 3.3 70B est à moins d’un point du 405B.
- GPQA Diamond (0-shot) : 3.3 70B à 50,5 vs 3.1 405B à 50,7 — pratiquement ex æquo sur le raisonnement scientifique de niveau graduate.
- HumanEval (code) : 3.3 70B à 88,4 vs 3.1 405B à 89,0 — encore pratiquement ex æquo.
- MATH (0-shot CoT) : 3.3 70B à 77,0 vs 3.1 405B à 73,8 — le 70B bat en fait le 405B ici, grâce à un meilleur post-entraînement en maths.
- IFEval (suivi d’instructions) : 3.3 70B mène 3.1 405B de quelques points.
- MGSM multilingue : 3.3 70B légèrement derrière 3.1 405B, mais devant 3.1 70B.
Le point à retenir à la sortie : sur les tâches pour lesquelles les plebs utilisent vraiment les modèles (code, maths, instructions, connaissance générale), Llama 3.3 70B est un pair du 405B. Sur les tâches multilingues de longue traîne ésotériques, le 405B gagne encore. L’Open LLM Leaderboard et lmsys nous donneront les chiffres indépendants d’ici la semaine.
Implications pour les plebs souverains
Cette sortie est carrément visée sur la foule de rigs maison. Faire tourner Llama 3.1 405B localement était, et reste, un exercice non-trivial : même en Q4 on regarde ~200 Go de mémoire, ce qui signifie une station multi-GPU sérieuse ou un offload CPU agressif via llama.cpp avec un impact douloureux sur les tokens par seconde. Llama 3.3 70B en Q4 est environ 40 Go — ce qui signifie :
- RTX 3090 ou 4090 unique (24 Go) : tourne en Q3 ou un Q4_K_S serré confortablement. Qualité utilisable, ~15-20 tokens/sec.
- Double RTX 3090 (48 Go total) : le sweet spot. Q4_K_M complet charge avec marge pour contexte 32K+. 25-35 tokens/sec selon la taille de batch.
- H100 unique ou A100 80 Go : shards Q8 ou fp16, débit de qualité production. C’est le palier petit-Hashcenter.
- CPU + 64 Go RAM : tourne en Q4, 2-4 tokens/sec. Utilisable pour du travail batch en arrière-plan, pas pour le chat interactif.
Consultez le guide de quant GGUF pour les compromis Q4_K_M vs Q5_K_M vs Q6_K à cette taille — en classe 70B, la chute de qualité de Q5 à Q4 est sensible sur la rédaction longue et le raisonnement multi-étapes ; Q3 et en dessous commencent à faire mal.
Ce que cela remplace dans la stack quotidienne : si vous tourniez Llama 3.1 70B, 3.3 est une mise à niveau drop-in — même matériel, meilleure qualité. Si vous tourniez 3.1 405B sur un gros rig pour la qualité « navire-amiral-à-la-maison », vous pouvez maintenant le retirer en service batch hebdomadaire et faire tourner 3.3 70B pour le chat quotidien à une fraction de la puissance. Si vous payiez une API de frontière pour le codage, 3.3 70B est le premier modèle ouvert où l’écart de qualité se ferme assez fort pour que laisser tomber l’abonnement API soit une vraie décision, pas un compromis.
Pour les plebs chauffant avec l’inférence, les maths thermiques comptent : un rig double-3090 poussant Llama 3.3 70B en charge soutenue dissipe ~700 W — assez pour substantiellement chauffer un petit bureau en hiver. Si vous tournez un S19 déclassé comme chauffage, échanger le hashboard pour un plateau GPU et faire tourner 3.3 est le pivot le plus propre que vous puissiez faire dès maintenant.
Comment l’exécuter dès aujourd’hui
Llama 3.3 est en ligne sur le registre Ollama dès aujourd’hui :
ollama pull llama3.3:70b
Cela télécharge le Q4_K_M par défaut, environ 40 Go. Nouveau à Ollama ? Le guide d’installation en 10 minutes couvre tout. Associez-le à Open WebUI pour une interface chat propre qui supporte l’appel de fonctions, que 3.3 gère bien.
LM Studio a aussi 3.3 70B disponible via son navigateur Hugging Face — cherchez les quants GGUF Bartowski ou lmstudio-community. Pour quiconque bâtit des quants personnalisés, les poids fp16 sont sur la page HF officielle Meta Llama. Si vous rencontrez des problèmes VRAM au premier chargement, notre guide de dépannage couvre les boutons d’offload et longueur de contexte habituels.
Ce qui vient ensuite
Pas de 3.3 405B. Pas de 3.3 8B. C’était un rafraîchissement 70B-seulement. La lecture raisonnable est que Meta consolide les gains de post-entraînement dans la classe de taille qui compte le plus pour le déploiement ouvert — et garde les plus grosses nouvelles architecturales pour la prochaine sortie phare. Les rumeurs autour d’un Llama 4 avec architecture MoE circulent ; rien d’officiel aujourd’hui.
Pour les plebs souverains, la nouvelle est non compliquée : capacité quasi-frontière à une taille qui tient sur deux 3090 usagées, avec une licence quasi-Apache et une disponibilité Ollama le jour même. Téléchargez les poids, possédez la stack, fermez l’onglet API. Consultez le Manifeste IA souveraine pour l’argumentaire plus large, et le guide du pleb pour l’IA auto-hébergée pour le kit de démarrage.
Recommended hardware
Needs dual 3090 / 4090 for Q4, or a single 48 GB card (5090 / A6000) for headroom.
Get it running
-
01
Install Ollama →
Ten-minute local LLM runtime. One binary, zero cloud.
-
02
Give it a web UI →
Open-WebUI turns Ollama into a self-hosted ChatGPT.
-
03
Understand quantization →
GGUF Q4/Q8/FP16 — which weights fit your GPU, explained.
Further reading: the Sovereign AI for Bitcoiners Manifesto for why sovereign inference matters, and From S19 to Your First AI Hashcenter for repurposing your mining rack into a Hashcenter that runs models like this one.
