Passer au contenu

Nous améliorons nos opérations pour mieux vous servir. Les commandes sont expédiées normalement depuis Laval, QC. Questions? Contactez-nous

Bitcoin accepté au paiement  |  Expédié depuis Laval, QC, Canada  |  Soutien expert depuis 2016

Current

Llama 3.2

Meta · Llama family · Released septembre 2024

La sortie Llama de Meta de septembre 2024 a ajouté les tailles edge (1B/3B) et les premiers modèles de vision Llama à poids ouverts (11B/90B).

Model card

DeveloperMeta
FamilyLlama
LicenseLlama 3.2 Community
Modalitytext+vision
Parameters (B)1,3,11,90
Context window128000
Release dateseptembre 2024
Primary languagesen,fr,de,es,it,pt,hi,th
Hugging Facemeta-llama/Llama-3.2-3B-Instruct
Ollamaollama pull llama3.2

Llama 3.2 expédié aujourd’hui : la vision atterrit dans Llama, et les modèles edge 1B/3B passent en local

Meta vient d’annoncer Llama 3.2 à Meta Connect 2024, et c’est deux sorties emballées en une. D’abord, Llama obtient la vision : deux modèles multimodaux (11B et 90B) qui acceptent des entrées texte et image, bâtis par-dessus les épines dorsales texte 3.1 existantes avec des poids d’adaptateurs. Deuxièmement, et peut-être plus important pour le rig pleb, deux nouveaux modèles minuscules texte-seulement (1B et 3B) conçus pour tourner sur téléphones, Raspberry Pi et tout autre appareil avec une poignée de gigaoctets de RAM. Les poids sont sortis aujourd’hui sur le billet de lancement de Meta et Hugging Face.

C’est une sortie plus petite que Llama 3.1 en juillet — pas de nouveau navire-amiral, pas de suite au 405B — mais c’est une stratégiquement importante. Meta dit, avec les poids en main aujourd’hui : la vision est table-stakes pour les modèles ouverts, et les modèles sous 3B ne sont plus des jouets. Les deux revendications méritent d’être testées sur un rig maison aujourd’hui. Voici ce qu’il y a dans la sortie, à quoi ressemblent les benchmarks au lancement, et ce que Llama 3.2 change dans la stack IA quotidienne d’un pleb souverain.

Ce qu’il y a dans les poids

Llama 3.2 est bâti sur la même filiation transformer que ses prédécesseurs — Transformer (2017) → LLaMA 1 (2023) → Llama 2 → Llama 3 → Llama 3.1 → Llama 3.2 aujourd’hui. Les modèles vision héritent des poids texte de Llama 3.1 8B et 70B respectivement, avec une couche d’adaptateur vision séparément entraînée qui a été tunée RLHF pour le suivi d’instructions multimodal. Meta appelle cette approche l’intégration vision « basée sur adaptateur » — ils ont gardé les poids texte gelés durant l’entraînement vision, donc Llama 3.2 11B-Vision est fonctionnellement identique à 3.1 8B sur les tâches de pur texte.

Les modèles vision (11B et 90B)

  • 11B-Vision : bâti sur Llama 3.1 8B + adaptateur vision (~3B paramètres d’adaptateur)
  • 90B-Vision : bâti sur Llama 3.1 70B + adaptateur vision
  • L’encodeur d’image est un ViT style CLIP entraîné sur des paires image-texte
  • 128K de contexte texte, entrée image unique à l’inférence
  • Pas disponible dans l’UE au lancement, selon la note réglementaire de Meta

Les modèles edge (1B et 3B)

  • 1B : élagué et distillé depuis Llama 3.1 8B, conçu pour l’inférence sur appareil
  • 3B : même recette, cible plus grande — tient confortablement dans 2-3 Go de RAM en Q4
  • Les deux supportent un contexte 128K (pareil que les gros modèles)
  • Entraînés avec distillation de connaissances depuis 3.1 8B et 70B comme enseignants
  • Ciblés sur téléphones, portables, appareils embarqués, inférence edge

Les modèles 1B et 3B sont là où Meta fait le travail le plus intéressant. Ils ont utilisé un élagage structuré sur l’épine dorsale 8B et ensuite distillé les logits de sortie depuis Llama 3.1 70B et 405B — donc les petits modèles reçoivent un signal d’entraînement de modèles 100× leur taille. C’est le même truc « distiller un géant en un tout petit » qui a fait que Gemma 2 2B cognait au-dessus de son poids ; maintenant Meta le fait dans la famille Llama.

Benchmarks au lancement

Chiffres du billet de lancement de Meta :

  • Llama 3.2 3B vs Gemma 2 2B vs Phi 3.5-mini : Meta revendique que le 3B bat les deux sur MMLU, ARC, GSM8K et suivi d’instructions — une avance claire dans la classe ouverte sub-5B à la sortie.
  • Llama 3.2 1B : positionné comme « navire-amiral sur appareil » — les chiffres de Meta le placent compétitif avec des modèles bien plus grands sur l’usage d’outils et la synthèse, qui sont les charges qui comptent vraiment sur un téléphone.
  • Vision 11B : Meta benchmarke contre Claude 3 Haiku et GPT-4o-mini sur les tâches de compréhension d’image (MMMU, ChartQA, DocVQA). 11B est compétitif avec Haiku, légèrement derrière GPT-4o-mini à la sortie.
  • Vision 90B : va tête-à-tête avec GPT-4o-mini et Claude 3 Haiku sur le raisonnement multimodal, Meta revendiquant une avance sur la compréhension de graphiques et diagrammes.

Comme toujours à la sortie, ce sont les benchmarks choisis par le créateur sur les suites choisies par le créateur. L’Open LLM Leaderboard classera le 3B contre Gemma et Qwen dans les prochains jours, et lmsys triera les classements de préférence réels des modèles vision contre GPT-4o-mini dans le prochain mois.

Implications pour les plebs souverains

Cette sortie est un cadeau à deux rigs pleb très différents.

Le palier edge (RPi / portable / téléphone). Llama 3.2 1B en Q4 est environ 800 Mo sur disque. Q8 est ~1,3 Go. L’un ou l’autre tourne confortablement sur un Raspberry Pi 5 avec 8 Go de RAM, un CPU de portable modeste, ou un téléphone milieu de gamme. Pour les plebs bâtissant des assistants souverains toujours actifs — le genre que vous câbleriez dans Home Assistant ou Obsidian pour la prise de notes locale et la domotique — 1B et 3B sont enfin dans le palier « assez bons pour être utiles ». C’est un changement véritable par rapport à il y a six mois, quand la classe ouverte sub-3B était surtout un jouet.

Le palier GPU (3090 / 4090 / carte double). Llama 3.2 11B-Vision en Q4 est environ 7 Go — tient sur une seule 3090 avec des tonnes de marge pour le contexte. C’est le premier modèle Llama où un pleb sur un rig 3090 usagée peut faire du chat multimodal complet localement à qualité compétitive. Le modèle 90B-Vision a besoin de 3090 en paire (48 Go VRAM) en Q4, pareil que Llama 3.1 70B — donc si vous tourniez déjà 3.1 70B, vous obtenez la vision au même coût matériel. Consultez notre guide de quantification GGUF pour les compromis entre Q4_K_M et Q5_K_M à chaque taille de modèle.

Ce que cela remplace : pour les plebs qui utilisaient LLaVA ou CogVLM pour la vision locale, Llama 3.2 11B-Vision est une mise à niveau directe — empreinte VRAM approximativement équivalente, meilleure qualité de benchmark, même famille de licence. Pour les plebs tournant Llama 3.1 8B comme leur daily driver rapide, restez : 3.2 n’a pas remplacé le navire-amiral texte-seulement 8B. Pour les plebs qui voulaient la vision locale mais ne pouvaient pas se permettre la VRAM, 11B-Vision en Q4 est le nouveau ticket d’entrée.

Pour la foule Hashcenter, les modèles 1B/3B sont intéressants sous l’angle densité d’inférence : un seul GPU 24 Go peut servir des douzaines de sessions 1B concurrentes, ce qui rend le déploiement en bordure de réseau à l’échelle beaucoup plus viable qu’hier.

Comment l’exécuter dès aujourd’hui

Les quatre modèles Llama 3.2 sont en ligne sur le registre Ollama à la sortie :

ollama pull llama3.2:1b
ollama pull llama3.2:3b
ollama pull llama3.2-vision:11b
ollama pull llama3.2-vision:90b

Nouveau à Ollama ? Notre guide d’installation en 10 minutes couvre la configuration de bout en bout. Pour les modèles vision, associez-les à Open WebUI pour obtenir une interface propre de téléversement d’images — Open WebUI a ajouté le support vision de Llama 3.2 dans sa dernière sortie.

Pour le déploiement edge (RPi, portables), llama.cpp est le chemin le plus propre — des quants GGUF des modèles 1B et 3B apparaissent déjà sur Hugging Face depuis la communauté. Les poids fp16 officiels sont sur l’org Meta Llama si vous voulez bâtir vos propres quants.

Ce qui vient ensuite

Llama 3.2 a atterri sans nouveau navire-amiral texte-seulement — pas de 3.2 70B, pas de 3.2 405B. Cela suggère que Meta tient ces paliers pour une plus grosse sortie plus tard. La prochaine chose à surveiller : comment la communauté re-quantifie et fine-tune les 1B et 3B, et si les modèles vision voient des variantes instruction-tunées qui ferment l’écart sur GPT-4o-mini. Les poids d’adaptateurs vision sont assez petits pour que des fine-tunes créatifs (imagerie médicale, spécifique à des documents, domaines de niche) apparaissent sur Hugging Face dans les jours.

Pour les plebs souverains, le titre est simple : l’argument « il faut un Hashcenter pour l’IA multimodale » vient de s’affaiblir. Un modèle vision 11B tourne sur une seule 3090 usagée aujourd’hui. Un modèle chat capable 3B tourne sur un Raspberry Pi aujourd’hui. Possédez le matériel, téléchargez les poids, faites tourner la stack. Consultez le Manifeste IA souveraine pour l’argumentaire complet, et le guide du pleb pour l’IA auto-hébergée pour la prochaine étape.

Lectures complémentaires : La même infrastructure de classe pleb qui fait tourner l’inférence locale fait aussi tourner une chaufferette Bitcoin. Plusieurs lecteurs arrivent du côté minage — consultez Du S19 à votre premier Hashcenter IA pour le pont.

Recommended hardware

Multi-GPU rig or cloud territory. For most plebs, the 70B distillation is plenty.

Buying guide: used RTX 3090 for LLMs (2026) →

Get it running

  1. 01 Install Ollama →

    Ten-minute local LLM runtime. One binary, zero cloud.

  2. 02 Give it a web UI →

    Open-WebUI turns Ollama into a self-hosted ChatGPT.

  3. 03 Understand quantization →

    GGUF Q4/Q8/FP16 — which weights fit your GPU, explained.

Further reading: the Sovereign AI for Bitcoiners Manifesto for why sovereign inference matters, and From S19 to Your First AI Hashcenter for repurposing your mining rack into a Hashcenter that runs models like this one.