Passer au contenu

Nous améliorons nos opérations pour mieux vous servir. Les commandes sont expédiées normalement depuis Laval, QC. Questions? Contactez-nous

Bitcoin accepté au paiement  |  Expédié depuis Laval, QC, Canada  |  Soutien expert depuis 2016

Current

Gemma 3

Google · Gemma family · Released mars 2025

La famille Gemma de Google DeepMind de mars 2025 — capacité vision (4B+), contexte 128K, avec variantes officielles 4-bits conscientes de la quantification.

Model card

DeveloperGoogle
FamilyGemma
LicenseGemma Terms
Modalitytext+vision
Parameters (B)1,4,12,27
Context window128000
Release datemars 2025
Primary languagesen,fr,de,es,it,pt,ja,ko,zh,ar,hi
Hugging Facegoogle/gemma-3-12b-it
Ollamaollama pull gemma3

Google vient de publier Gemma 3, et la troisième génération de la famille Gemma à poids ouverts a enfin l’air d’un outil pleb sérieux plutôt que d’une curiosité de recherche. Les chiffres phares : quatre tailles (1B, 4B, 12B, 27B), une fenêtre de contexte de 128K sur les variantes plus grandes, un support multilingue natif pour 140+ langues, et — celle-ci est la qui compte — capacité de vision intégrée. Gemma 3 est le premier modèle à poids ouverts de Google qui peut voir des images.

Publiés sous la licence Gemma (permissive pour la plupart des usages commerciaux), ces poids sont sur Hugging Face, dans l’annonce de Google, et atterrissent sur Ollama aujourd’hui. Pour les plebs qui veulent un modèle vision-langage véritablement capable tournant localement — décrire des captures d’écran, lire des graphiques, légender des photos, répondre à des questions sur des diagrammes — Gemma 3 est l’option la plus accessible qui ait jamais existé.

Ce qu’il y a dans les poids

Gemma 3 descend d’une filiation de recherche qui a été publique mais sous-vendue. Gemma 1 de Google s’est lancé en février 2024 comme cousin de Gemini, distillant la recherche du navire-amiral à poids fermés en une paire ouverte 2B/7B. Gemma 2 en juin 2024 a été mis à niveau à 2B/9B/27B et a introduit le motif d’attention locale/globale alternée qui est devenu une signature Gemma. Gemma 3 garde ce schéma d’attention, ajoute la vision et pousse le contexte à 128K.

Quatre tailles aujourd’hui :

  • Gemma 3 1B : texte-seulement, contexte 32K. Le palier « tourne sur votre téléphone ».
  • Gemma 3 4B : multimodal (texte + vision), contexte 128K. Daily driver mono-GPU ou modèle de portable Mac.
  • Gemma 3 12B : multimodal, contexte 128K. Sweet spot pour cartes grand public 24 Go.
  • Gemma 3 27B : multimodal, contexte 128K. Le navire-amiral pleb — tient en Q4 sur une seule 3090.

Architecturalement, Gemma 3 est un Transformer uniquement décodeur avec Grouped Query Attention, embeddings positionnels RoPE, et le motif Gemma 2 emblématique de couches d’attention locale et globale entrelacées — cinq couches d’attention locale avec une fenêtre 4K, puis une couche d’attention globale avec la fenêtre complète 128K. C’est la façon de Google de garder la mémoire du cache KV raisonnable en long contexte : la majeure partie de l’attention est bon marché et locale, et les quelques couches globales font le travail à longue portée. Le rapport technique décrit cela comme la principale raison pour laquelle Gemma 3 peut véritablement utiliser 128K de contexte sur matériel grand public sans OOM.

La vision est implémentée via un encodeur d’image SigLIP (un produit de recherche Google) alimentant des tokens d’image dans le Transformer partagé. Les variantes 4B, 12B et 27B acceptent du texte et des images entrelacés dans un seul prompt. L’encodeur d’image est gelé durant l’entraînement LLM, ce qui garde l’intégration vision-langage légère et reproductible.

Données d’entraînement : Google rapporte 14 trillions de tokens pour le 27B, 12 trillions pour le 12B, 4 trillions pour le 4B et 2 trillions pour le 1B. Le mélange de données inclut un corpus de code substantiel, des données synthétiques lourdes en maths et une couverture multilingue explicitement étendue — Google revendique 140+ langues avec une capacité substantielle, en forte hausse par rapport au focus effectivement anglocentrique de Gemma 2. Le rapport technique Gemma 3 a les détails complets, incluant les audits de contamination des données et les divulgations habituelles sur le filtrage.

Benchmarks au lancement

Selon le billet de lancement de Google et le rapport technique Gemma 3, scores sur les benchmarks publics à la sortie :

  • MMLU-Pro : 27B score 67,5, 12B à 60,6, 4B à 43,6 — compétitif avec des modèles bien plus grands
  • LiveCodeBench : 27B à 29,7, montrant une capacité code solide mais pas de palier frontière
  • Global MMLU (multilingue) : 27B à 75,1, reflétant l’entraînement linguistique étendu
  • MMMU (raisonnement multimodal) : 27B à 64,9, forte performance vision-langage
  • DocVQA : 27B à 85,6, le rendant utilisable pour les tâches de compréhension de documents dès l’installation

Google place Gemma 3 27B comme compétitif avec des modèles 2-3× son compte de paramètres sur le classement LMSys Chatbot Arena, revendiquant un Elo autour de 1338 à la sortie — au-dessus de la position de Llama 3 70B et approchant le territoire de GPT-4o pour le chat général. Les classements Arena sont bruyants et bougent à mesure que plus de votes arrivent, donc traitez le chiffre comme un signal approximatif plutôt que comme parole d’évangile. Les reproductions communautaires sur l’Open LLM Leaderboard raconteront la vraie histoire dans les prochaines semaines.

La revendication de benchmark la plus intéressante, si elle tient : Gemma 3 4B multimodal est compétitif avec Gemma 2 27B sur les tâches texte. Une réduction 7× des paramètres à qualité similaire serait un gain d’efficacité notable, et c’est le genre de revendication que les évaluateurs indépendants scruteront soigneusement.

Ce que cela signifie pour le pleb souverain

Pour la thèse IA souveraine, Gemma 3 est la pièce vision-langage qui manquait. Jusqu’à aujourd’hui, les plebs qui voulaient du multimodal local devaient choisir entre Moondream (petit et rapide mais limité), LLaVA (daté), InternVL (capable mais maladroit) ou les diverses sorties Qwen-VL (super mais rarement le défaut). Gemma 3 27B est le premier modèle vision-langage ouvert « ça marche juste » au palier de qualité que les plebs veulent vraiment.

Exigences VRAM en Q4_K_M :

  • Gemma 3 1B : ~700 Mo — classe téléphone, tourne n’importe où
  • Gemma 3 4B : ~3 Go — RTX 3050 8 Go, n’importe quel Mac série M, portable gaming bas de gamme
  • Gemma 3 12B : ~8 Go — sweet spot RTX 3060 12 Go, Mac avec 16 Go+ de mémoire unifiée
  • Gemma 3 27B : ~17 Go — RTX 3090/4090 unique, A5000 ou Mac avec 32 Go+. Navire-amiral pleb.

L’inférence vision ajoute une surcharge VRAM modeste pour l’encodeur SigLIP (~800 Mo extra) et un budget de tokens par image. Une image 1024×1024 consomme environ 256 tokens d’image du point de vue de Gemma 3, donc un prompt de 5 images avale ~1,3K de votre fenêtre de contexte pour les images seules. Planifiez en conséquence quand vous alimentez de longs documents.

Pour le rig pleb RTX 3090 usagée, Gemma 3 27B Q4 est le nouveau défaut vision-langage. Il remplace les stacks basées LLaVA, il rend les flux vision dans Open WebUI tenables sans un second modèle dédié, et il vous donne un seul modèle à contexte 128K qui peut gérer à la fois texte et images dans un seul contexte. Pour les conseils de sélection de quant, notre explicateur GGUF couvre les compromis — Q4_K_M reste le défaut pleb pour le 27B sur une carte 24 Go unique, et Q8 sur setups double-GPU est surdimensionné pour la plupart des charges mais excellent pour les tâches document-lourdes où chaque brin de fidélité multimodale compte.

Un flux Hashcenter qui a du sens aujourd’hui : Gemma 3 27B pour le travail général multimodal (décrire des captures d’écran, lire des diagrammes, légender des photos de produits pour un flux pleb e-commerce), associé à un 70B axé texte comme Llama 3.1 pour les tâches de raisonnement profond. Le 27B laisse une marge VRAM généreuse sur une carte 24 Go pour de grandes images ou un long contexte ; le 70B sur double 3090 gère le gros du travail. Routez les requêtes via un orchestrateur léger ou le sélecteur de modèle d’Open WebUI.

Si vous intégrez avec une stack de domotique, notre guide d’intégration Home Assistant montre comment canaliser des modèles locaux dans votre maison intelligente — Gemma 3 4B est un candidat fort pour le rôle de classifieur toujours-actif à faible latence, tandis que le 27B gère les requêtes occasionnelles lourdes en vision comme « qu’est-ce que ce colis sur le perron ? »

Comment l’exécuter dès aujourd’hui

Quickstart via Ollama :

ollama pull gemma3:4b

ollama pull gemma3:12b

ollama pull gemma3:27b

ollama run gemma3:27b

Pour la vision, passez une image via l’API Ollama ou déposez-la dans l’UI de pièce jointe d’Open WebUI — le modèle détecte automatiquement l’entrée multimodale.

Source Hugging Face : google/gemma-3-27b-it pour le 27B instruction-tuné. Vous devrez accepter la licence Gemma sur HF pour télécharger directement. Les quants GGUF des mainteneurs communautaires (bartowski, unsloth) tendent à apparaître en un jour de la sortie. LM Studio devrait avoir le modèle indexé aujourd’hui ; voir notre comparaison LM Studio vs Ollama vs llama.cpp pour la sélection de runner. Pour les utilisateurs ComfyUI voulant des flux vision-vers-prompt, notre amorce ComfyUI pour plebs verra une mise à jour de flux Gemma 3 sous peu.

Ce qui vient ensuite

La cadence de Google sur Gemma s’est stabilisée à environ une génération majeure par an, avec des sorties ponctuelles mineures entre. Le saut de palier 2→9→27B de Gemma 2 était substantiel ; l’ajout de la vision de Gemma 3 est un changement de classe de capacité. La prochaine frontière évidente pour la famille Gemma est l’audio — Gemini le supporte, et il est raisonnable de s’attendre à ce qu’une future génération Gemma le supporte aussi. Le positionnement open source de Google a été incohérent historiquement, mais la sortie Gemma 3 est un signal clair qu’ils traitent les poids ouverts comme un produit stratégique plutôt qu’une concession.

Pour les plebs, le message est simple. Gemma 3 27B est maintenant le modèle vision-langage par défaut sur une seule RTX 3090. Téléchargez les poids, démarrez Ollama et bâtissez vos propres flux multimodaux. La souveraineté inclut maintenant vos yeux, pas seulement vos mots. Faites tourner votre propre inférence sur votre propre matériel dans votre propre Hashcenter — et si vous convertissez du matériel ASIC retiré en travail IA, Gemma 3 27B est un candidat de charge fort pour la portion vision d’une stack mixte. Personne d’autre n’a besoin de voir vos captures d’écran.

Recommended hardware

Runs well on 24 GB VRAM (3090 / 4090) at Q4–Q5. A used 3090 is the pleb pick.

Buying guide: used RTX 3090 for LLMs (2026) →

Get it running

  1. 01 Install Ollama →

    Ten-minute local LLM runtime. One binary, zero cloud.

  2. 02 Give it a web UI →

    Open-WebUI turns Ollama into a self-hosted ChatGPT.

  3. 03 Understand quantization →

    GGUF Q4/Q8/FP16 — which weights fit your GPU, explained.

Further reading: the Sovereign AI for Bitcoiners Manifesto for why sovereign inference matters, and From S19 to Your First AI Hashcenter for repurposing your mining rack into a Hashcenter that runs models like this one.