Gemma 2
Google · Gemma family · Released juin 2024
La famille de modèles ouverts et légers de Google DeepMind lancée en juin 2024 — 2B, 9B et 27B avec attention locale/globale entrelacée.
Model card
| Developer | |
|---|---|
| Family | Gemma |
| License | Gemma Terms |
| Modality | text |
| Parameters (B) | 2,9,27 |
| Context window | 8192 |
| Release date | juin 2024 |
| Primary languages | en |
| Hugging Face | google/gemma-2-9b-it |
| Ollama | ollama pull gemma2 |
Gemma 2 débarque : le modèle ouvert de Google mûrit, avec un navire-amiral 27B qui rivalise vraiment
Google vient de publier Gemma 2 — la nouvelle génération de sa gamme de modèles à poids ouverts — avec des variantes 9B et 27B disponibles dès aujourd’hui sur Hugging Face, Kaggle et Vertex AI. La première sortie de Gemma en février 2024 était un début respectable en 2B/7B, mais elle n’a jamais percé la mainmise de Mistral 7B ou de Llama 2 sur la catégorie des petits modèles ouverts. Gemma 2 est la seconde tentative sérieuse de Google — et à 27B, c’est le plus grand modèle ouvert jamais expédié par Google.
Annoncé à Google I/O en mai et déployé aujourd’hui, Gemma 2 est le pari de Google que la lignée de recherche Gemini peut livrer de vrais poids ouverts, et non seulement des modèles API verrouillés. Le 27B occupe un créneau peu peuplé : plus grand que Llama 3 8B, plus petit que Llama 3 70B, et il vise directement les plebs de l’inférence locale qui veulent plus que ce que 8B peut offrir, sans toutefois disposer de la VRAM de deux 3090. Voici ce qu’il y a sous le capot, à quoi ressemblent les benchmarks au lancement, et où Gemma 2 s’inscrit dans une stack souveraine.
Ce qu’il y a dans les poids
Gemma 2 partage son ADN architectural avec la ligne Gemini fermée de Google — le billet de lancement indique explicitement qu’il « utilise la même recherche et technologie que Gemini ». Ce que Google peut dire publiquement, et a dit aujourd’hui : transformer uniquement décodeur, attention locale/globale entrelacée (fenêtres locales de 4K alternant avec du global 8K), plafonnement logit pour la stabilité d’entraînement, grouped-query attention, et encodage positionnel RoPE. La filiation : Transformer (2017) → la lignée de recherche Gemini élargie chez DeepMind → Gemma 1 (février 2024) → Gemma 2 aujourd’hui.
Spécifications clés :
- Deux tailles : 9B et 27B paramètres (une variante 2B est promise pour plus tard)
- Fenêtre de contexte : 8 192 tokens — modeste selon les standards de 2024, notablement plus petite que le 8K-extensible-à-128K de Llama 3
- Données d’entraînement : 13T tokens pour le 27B, 8T tokens pour le 9B — fortes en web anglais, code et mathématiques
- Tokenizer : vocabulaire de 256K (grand, optimisé pour le multilingue même si l’anglais domine)
- Distillation : le 9B a été entraîné par distillation de connaissances depuis un modèle enseignant plus grand (non publié) — la même astuce utilisée ailleurs dans la ligne Gemini
- Licence : Gemma Terms of Use — permissive pour usage commercial, avec clauses standard de sécurité et d’attribution
L’attention locale/globale entrelacée est la signature architecturale ici. C’est un compromis pratique : l’attention globale 8K sur chaque couche est coûteuse, mais l’attention purement locale perd le contexte à longue portée. L’alternance des deux maintient le mélange longue portée tout en divisant par deux le budget de calcul de l’attention pour une longueur de contexte donnée. C’est une astuce que Google a raffinée dans sa recherche interne et qui atterrit maintenant dans des poids ouverts.
Benchmarks au lancement
Depuis le billet de lancement de Google et la fiche du modèle sur HF, publiés aujourd’hui :
- Gemma 2 27B sur le classement lmsys Chatbot Arena (préliminaire) : à égalité ou légèrement devant Llama 3 70B en vote de préférence humaine — un résultat notable, puisque le 27B fait moins de la moitié de sa taille.
- MMLU (5-shot) : 27B à 75,2 ; 9B à 71,3 — le 27B se place entre Llama 3 8B (68,4) et Llama 3 70B (82,0).
- MATH : 27B à 42,3 ; 9B à 36,6 — compétitif avec la classe Llama 3 70B.
- HumanEval (code) : 27B à 51,8 ; 9B à 40,2 — solide mais pas leader de classe ; Llama 3 70B reste devant sur le code.
- GSM8K (maths scolaires) : 27B à 74,0 ; 9B à 68,6 — fort par rapport à la taille.
- BBH (Big-Bench Hard) : 27B à 74,9 ; 9B à 68,2.
Le chiffre phare pour les plebs est le résultat Chatbot Arena. Si un modèle ouvert de 27B vote-préférence réellement au coude à coude avec Llama 3 70B, c’est une victoire de capacité par paramètre qui compte à l’échelle d’un rig maison. Attendez-vous à ce que le Open LLM Leaderboard confirme ou corrige dans les prochains jours.
Implications pour les plebs souverains
Gemma 2 atterrit dans un créneau de VRAM qui était sous-desservi. Voici les maths pratiques :
- Gemma 2 9B en Q4_K_M : environ 5,5 Go. Tourne confortablement sur n’importe quel GPU avec 8 Go de VRAM — une 3060 Ti, une 4060, même une 2070 usagée. C’est l’échelon « daily driver » rapide.
- Gemma 2 27B en Q4_K_M : environ 17 Go. Tient sur une seule RTX 3090 usagée (24 Go) ou une 4090 avec de la marge pour 8K de contexte. C’est l’échelon intéressant.
- Gemma 2 27B en Q5_K_M : environ 19 Go. Toujours territoire 3090 solo, qualité sensiblement plus nette.
- Gemma 2 27B en Q8 : environ 29 Go. Nécessite de l’offload sur une carte 24 Go, ou tourne proprement sur un setup double carte 48 Go.
Consultez le guide de quantification GGUF pour les compromis qualité/taille. Sur les modèles de classe 27B, Q5_K_M est généralement le bon choix si la VRAM le permet — le saut de qualité de Q4 à Q5 est notable sur les tâches de raisonnement, et l’écart de taille est modeste.
Ce que cela remplace dans la stack quotidienne : pour les plebs sur un rig mono-GPU qui tournaient Llama 3 8B pour la vitesse et sentaient le plafond, Gemma 2 27B est l’étape naturelle — il tient sur la même carte en Q4, et il est substantiellement plus intelligent. Pour les plebs faisant tourner des 3090 en paire spécifiquement pour héberger Llama 3 70B, Gemma 2 27B sur une seule carte libère la seconde carte pour les embeddings, la génération d’images ou un second modèle en parallèle (Open WebUI gère cela proprement).
La foule du pivot Hashcenter se souciera de la densité d’inférence : à 27B, on peut empiler plus de sessions concurrentes sur une seule A100 80 Go qu’avec des modèles de classe 70B, ce qui change l’économie du service de modèles ouverts à une petite base d’usagers. Pour les chaufferettes à inférence, un 27B en charge soutenue sur une seule 3090 vous donne une source de chaleur de 350 W qui fait du travail utile — un profil de chauffage de bureau raisonnable.
La fenêtre de contexte 8K est le hic. La plupart des plebs ne la remarqueront pas pour le chat ou le code. Pour les flux RAG sur documents longs, l’option 128K de Llama 3 reste devant.
Comment l’exécuter dès aujourd’hui
Gemma 2 est sur le registre Ollama dès la sortie :
ollama pull gemma2:9b
ollama pull gemma2:27b
Nouveau à Ollama ? Notre guide d’installation en 10 minutes couvre la configuration. Associez-le à Open WebUI pour une interface de chat locale propre.
LM Studio a des GGUFs de Gemma 2 disponibles via son navigateur Hugging Face intégré — cherchez les quantifications officielles de Google ou le rebuild lmstudio-community. Les poids fp16 sont sur l’org HF de Google pour quiconque construit des quantifications personnalisées ou des fine-tunes. Des problèmes ? Le guide de dépannage IA auto-hébergée couvre les embûches GPU et VRAM courantes.
Ce qui vient ensuite
Google a pré-annoncé une variante 2B de Gemma 2 pour une sortie ultérieure — celle-là mérite d’être surveillée comme modèle pour edge / classe Raspberry Pi. Aucune échéance n’a été donnée pour les variantes instruct au-delà de ce qui a été expédié aujourd’hui, mais la communauté aura des fine-tunes en ligne sur Hugging Face d’ici la semaine : tunes codeur, tunes roleplay, tunes en langues régionales.
Vue d’ensemble : avec Gemma 2, Google s’engage dans l’arène des poids ouverts plus sérieusement que ne le suggérait la sortie Gemma 1 de classe 7B. Une licence quasi-Apache, un navire-amiral 27B compétitif et une disponibilité le jour même sur Ollama, c’est une autre posture que « nous avons publié un petit modèle pour la recherche ». C’est bon pour les plebs souverains — plus d’options de frontière crédibles à l’échelle d’un rig maison signifie plus de compétition pour pousser la qualité vers le haut et les empreintes de quantification vers le bas. Téléchargez-le, faites-le tourner, possédez votre stack. Consultez le Manifeste IA souveraine pour l’argumentaire, et le guide du pleb pour l’IA auto-hébergée pour l’installation.
Lectures complémentaires : La même infrastructure de classe pleb qui fait tourner l’inférence locale fait aussi tourner une chaufferette Bitcoin. Plusieurs lecteurs arrivent du côté minage — consultez Du S19 à votre premier Hashcenter IA pour le pont.
Recommended hardware
Runs well on 24 GB VRAM (3090 / 4090) at Q4–Q5. A used 3090 is the pleb pick.
Get it running
-
01
Install Ollama →
Ten-minute local LLM runtime. One binary, zero cloud.
-
02
Give it a web UI →
Open-WebUI turns Ollama into a self-hosted ChatGPT.
-
03
Understand quantization →
GGUF Q4/Q8/FP16 — which weights fit your GPU, explained.
Further reading: the Sovereign AI for Bitcoiners Manifesto for why sovereign inference matters, and From S19 to Your First AI Hashcenter for repurposing your mining rack into a Hashcenter that runs models like this one.
