Superseded

Qwen 2.5

Name: Qwen 2.5 model dataset
Creator: Alibaba Cloud
Published: 2024-09-19T10:00:00-05:00
License: https://d-central.tech/terms-and-conditions/

Alibaba · Qwen family · Released septembre 2024

La famille Qwen de septembre 2024 d Alibaba s étend de 0,5B à 72B, plus des spécialistes coding et math — majoritairement Apache 2.0.

Model card

Developer	Alibaba
Family	Qwen
License	Apache-2.0 (most sizes)
Modality	text
Parameters (B)	0.5,1.5,3,7,14,32,72
Context window	128000
Release date	septembre 2024
Primary languages	en,zh,ja,ko,fr,de,es,ar,ru,pt,it
Hugging Face	Qwen/Qwen2.5-7B-Instruct
Ollama	`ollama pull qwen2.5`

Qwen 2.5 débarque : Alibaba publie plus de 100 modèles ouverts en une seule journée

Alibaba Cloud vient d’annoncer Qwen 2.5 à la conférence Apsara aujourd’hui — et l’échelle de la sortie ne ressemble à rien de ce qu’on a vu en poids ouverts. Plus de 100 modèles en une seule livraison : variantes base et instruct à travers sept tailles de paramètres (0,5B, 1,5B, 3B, 7B, 14B, 32B, 72B), plus des variantes spécialisées Qwen2.5-Coder et Qwen2.5-Math, plus des versions quantifiées GGUF, AWQ et GPTQ de chacune. Tous sur Hugging Face, tous aujourd’hui. Le billet de lancement Alibaba Cloud et l’org Qwen sur Hugging Face ont l’alignement complet.

La revendication principale : Qwen 2.5 72B surpasse Llama 3.1 405B sur plusieurs benchmarks à un cinquième des paramètres actifs. C’est un pari audacieux — le 405B de Meta était le plus grand navire-amiral ouvert sur terre quand il a débarqué il y a deux mois — mais Qwen 2.5 a les reçus. Voici ce qu’il y a dans les poids, à quoi ressemblent les benchmarks au lancement, et ce qu’une livraison ouverte de 100 modèles signifie pour les plebs souverains bâtissant une stack IA locale.

Ce qu’il y a dans les poids

Qwen est la ligne de modèles fondation d’Alibaba, développée par l’équipe Qwen chez Alibaba Cloud Intelligence. La filiation : Transformer (2017) → Qwen 1 (septembre 2023) → Qwen 1.5 (février 2024) → Qwen 2 (juin 2024) → Qwen 2.5 aujourd’hui. Architecturalement, Qwen 2.5 est un transformer uniquement décodeur raffiné — pas de MoE dans la ligne chat principale (bien qu’Alibaba ait expédié des variantes MoE ailleurs). Les raffinements sur Qwen 2 sont dans les données d’entraînement et la pipeline post-entraînement, pas l’architecture.

Spécifications clés à travers la famille :

Sept tailles de base : 0,5B, 1,5B, 3B, 7B, 14B, 32B, 72B
Fenêtre de contexte : 128K tokens à travers toutes les tailles, avec longueur de sortie de 8K
Données d’entraînement : 18 trillions de tokens (depuis les 7T de Qwen 2) — substantiellement plus que les 15T de Llama 3
Multilingue : 29+ langues, avec fort chinois, anglais, français, espagnol, russe, arabe, japonais, coréen
Licence : Apache 2.0 pour 0,5B, 1,5B, 7B, 14B, 32B ; Qwen License (une licence personnalisée, permissive-mais-pas-Apache) pour 3B et 72B
Attention : Grouped-Query Attention, RoPE, pas de fenêtre glissante sur la plupart des tailles

Variantes spécialisées

Qwen 2.5-Coder (1,5B, 7B et 32B) : entraîné sur 5,5T tokens de code source, ciblé sur les tâches de codage. Le 32B-Coder est le modèle de code ouvert le plus capable qu’Alibaba ait expédié.
Qwen 2.5-Math (1,5B, 7B, 72B) : fine-tunes spécialisés en raisonnement mathématique avec une pipeline Chain-of-Thought + Tool-Integrated Reasoning (TIR).

La fenêtre de contexte de 128K à travers toute l’échelle de tailles est notable. Un modèle 3B avec 128K de contexte est une offre inhabituelle — la plupart des modèles sous 5B plafonnent à 8-32K de contexte — et cela fait de Qwen 2.5 3B un candidat crédible pour les flux RAG sur appareil où le contexte récupéré peut être long.

Benchmarks au lancement

Depuis le billet de lancement d’Alibaba, publié aujourd’hui :

MMLU (5-shot) : Qwen 2.5 72B à 86,1 vs Llama 3.1 70B à 82,0 et Llama 3.1 405B à 87,3 — le 72B atterrit à moins d’un point du 405B.
MMLU-Pro : Qwen 2.5 72B à 58,1 vs Llama 3.1 70B à 52,8, Llama 3.1 405B à 61,6.
MATH (0-shot CoT) : Qwen 2.5 72B à 83,1 vs Llama 3.1 405B à 73,8 — Qwen 2.5 devant de presque 10 points sur les maths.
HumanEval (code, 0-shot) : Qwen 2.5 72B à 86,6 vs Llama 3.1 405B à 89,0 — Llama légèrement devant sur ce benchmark de code particulier.
MBPP (code) : Qwen 2.5 72B à 88,2 vs Llama 3.1 405B à 87,8 — Qwen 2.5 très légèrement devant.
GSM8K : Qwen 2.5 72B à 95,8 vs Llama 3.1 405B à 96,8 — pratiquement ex æquo.
Qwen 2.5-Coder 32B : revendique l’état de l’art parmi les modèles de code ouverts sur HumanEval, MBPP et LiveCodeBench.
Chatbot Arena : les chiffres préliminaires lmsys placent Qwen 2.5 72B-Instruct dans le palier supérieur des modèles ouverts, compétitif avec Llama 3.1 405B-Instruct.

Ce sont des chiffres publiés par Alibaba. Attendez-vous à ce que l’Open LLM Leaderboard classe les plus petites tailles de Qwen 2.5 dans les prochains jours, et à ce que le vote lmsys Arena établisse la position réelle du 72B dans le prochain mois.

Implications pour les plebs souverains

Cette sortie est un cadeau à chaque échelon de rig local. La couverture de 0,5B (portable / téléphone / Pi) à 72B (navire-amiral double-3090) signifie qu’il y a une variante Qwen 2.5 pour chaque setup pleb. Maths VRAM en Q4_K_M :

Qwen 2.5 0,5B : ~400 Mo. Tourne sur un Raspberry Pi 5 ou n’importe quel téléphone.
Qwen 2.5 1,5B : ~1 Go. CPU de portable ou n’importe quel petit GPU.
Qwen 2.5 3B : ~2 Go. Tourne sur un GPU 4 Go+ avec de la place pour 128K de contexte. Excellent candidat d’intégration Home Assistant / Obsidian — voir notre guide.
Qwen 2.5 7B : ~4,5 Go. Sweet spot pour un seul GPU milieu de gamme.
Qwen 2.5 14B : ~9 Go. Territoire 3060 / 4070 unique.
Qwen 2.5 32B : ~20 Go. 3090 usagée (24 Go) unique en Q4 ; le 32B-Coder est la variante intéressante ici pour les plebs voulant un assistant de codage local.
Qwen 2.5 72B : ~42 Go. Double 3090s (48 Go). Le palier navire-amiral maison.

Voir le guide de quantification GGUF pour les compromis Q4/Q5/Q6 à chaque taille. Sur 72B, Q5_K_M est ~51 Go — toujours faisable sur double 3090s avec contexte serré ; Q4_K_M est le défaut plus sûr.

Ce que cela remplace dans une stack quotidienne :

Travail multilingue : Qwen est le leader ouvert multilingue depuis Qwen 1.5 ; 2.5 élargit encore l’écart. Si vous travaillez en chinois, japonais, coréen, arabe ou n’importe quelle langue non-anglaise comme daily driver, Qwen 2.5 à votre palier VRAM est la mise à niveau.
Codage : Qwen 2.5-Coder 32B est un remplacement crédible pour Copilot / ChatGPT sur les tâches de code, à une taille de modèle qui tient sur une seule 3090.
Maths / raisonnement : Qwen 2.5-Math est la première famille de modèles ouverts à traiter les maths comme une spécialisation de première classe avec une variante tunée en trois tailles.
Chat général : pour les plebs tournant Llama 3.1 70B, Qwen 2.5 72B est un concurrent direct qui vaut un test tête-à-tête sur vos propres charges.

Pour les opérateurs de Hashcenter, l’échelle à sept tailles est la feature pratique : vous pouvez déployer la même famille de modèles à travers les nœuds edge de portables, les petits hôtes GPU et les serveurs navires-amiraux double-GPU, avec tokenizers et formats d’instruction identiques. C’est une grande simplification opérationnelle.

Comment l’exécuter dès aujourd’hui

Qwen 2.5 est sur le registre Ollama dès la sortie :

ollama pull qwen2.5:0.5b
ollama pull qwen2.5:3b
ollama pull qwen2.5:7b
ollama pull qwen2.5:14b
ollama pull qwen2.5:32b
ollama pull qwen2.5:72b
ollama pull qwen2.5-coder:32b

Nouveau à Ollama ? Notre guide d’installation en 10 minutes couvre la configuration. Associez-le à Open WebUI pour une UI chat propre. Pour les chargeurs GUI, LM Studio a des GGUFs Qwen 2.5 via son navigateur Hugging Face. Les poids officiels sont sur l’org Qwen HF.

Ce qui vient ensuite

Alibaba a teasé Qwen-VL 2.5 (multimodal) et Qwen-Audio 2.5 pour des sorties ultérieures. L’équipe Qwen expédie une nouvelle version majeure environ tous les 3-4 mois, donc attendez-vous à un cycle Qwen 3 au début de 2025. Les fine-tunes et merges communautaires apparaîtront sur Hugging Face dans les jours — les tailles de cœur Apache 2.0 de Qwen en font un chemin à faible friction.

Pour les plebs souverains, la vue d’ensemble : la course aux poids ouverts n’est plus un événement US-seulement. Une famille de modèles chinois vient d’expédier 100+ poids en une seule journée et a revendiqué la parité avec le 405B de Meta. C’est de la pression sur chaque labo de frontière — fermé ou ouvert — pour continuer d’expédier de meilleurs poids plus vite. Téléchargez la variante Qwen 2.5 qui convient à votre rig, testez-la contre ce que vous faites tourner aujourd’hui, possédez la stack. Consultez le Manifeste IA souveraine pour l’argumentaire, et le guide du pleb pour l’IA auto-hébergée pour la configuration.

Lectures complémentaires : La même infrastructure de classe pleb qui fait tourner l’inférence locale fait aussi tourner une chaufferette Bitcoin. Plusieurs lecteurs arrivent du côté minage — consultez Du S19 à votre premier Hashcenter IA pour le pont.

Benchmarks tracked

GPQA HumanEval MATH MMLU MT-Bench

Recommended hardware

Needs dual 3090 / 4090 for Q4, or a single 48 GB card (5090 / A6000) for headroom.

Buying guide: used RTX 3090 for LLMs (2026) →

Get it running

01 Install Ollama →
Ten-minute local LLM runtime. One binary, zero cloud.
02 Give it a web UI →
Open-WebUI turns Ollama into a self-hosted ChatGPT.
03 Understand quantization →
GGUF Q4/Q8/FP16 — which weights fit your GPU, explained.

Further reading: the Sovereign AI for Bitcoiners Manifesto for why sovereign inference matters, and From S19 to Your First AI Hashcenter for repurposing your mining rack into a Hashcenter that runs models like this one.