Current

Qwen 3

Alibaba · Qwen family · Released mai 2025

La sortie de mai 2025 d Alibaba — première famille ouverte avec raisonnement hybride (chaîne de pensée activable), Apache 2.0 à travers toutes les tailles.

Model card

Developer	Alibaba
Family	Qwen
License	Apache-2.0
Modality	text
Parameters (B)	0.6,1.7,4,8,14,32,30 (MoE),235 (MoE)
Context window	131072
Release date	mai 2025
Primary languages	en,zh,ja,ko,fr,de,es,ar,ru,pt,it
Hugging Face	Qwen/Qwen3-8B
Ollama	`ollama pull qwen3`

L’équipe Qwen d’Alibaba vient de publier Qwen3, et le paysage des poids ouverts continue de devenir plus encombré de la meilleure façon possible. Huit modèles expédient aujourd’hui à travers deux familles architecturales : six modèles denses de 0,6B à 32B paramètres, et deux modèles mixture-of-experts — Qwen3-30B-A3B (30B total, 3B actifs) et Qwen3-235B-A22B (235B total, 22B actifs). Chaque modèle supporte un mode de raisonnement hybride que les plebs peuvent activer par requête, une fenêtre de contexte jusqu’à 128K tokens et une capacité multilingue à travers 119 langues.

C’est la sortie qui fait de Qwen un citoyen de première classe des poids ouverts aux côtés de Llama et DeepSeek. Pour les plebs souverains, les vraies stars sont Qwen3-30B-A3B (tourne vite sur matériel grand public grâce à l’architecture MoE) et Qwen3-32B (le navire-amiral dense pour rigs mono-GPU). La licence Apache 2.0 sur tout signifie pas de pièges d’usage commercial. Téléchargez-le, faites-le tourner, utilisez-le commercialement — pas de drame de licence, pas de clauses corporate belette « usage acceptable ».

Ce qu’il y a dans les poids

La filiation de recherche de Qwen court à travers une série distincte de sorties depuis 2023 : Qwen 1 (août 2023, 7B/14B), Qwen 1.5 (février 2024, plus de tailles), Qwen 2 (juin 2024, ajout de variante MoE), Qwen 2.5 (septembre 2024, la sortie qui a établi Qwen comme une option pleb sérieuse avec forte performance code et maths), et maintenant Qwen3. Chaque génération a substantiellement amélioré le raisonnement et la capacité multilingue. Le billet de lancement Qwen3 décrit ceci comme le « plus grand saut » dans l’histoire de la famille, ce qui est de la publicité d’entreprise mais plausiblement exact vu ce qu’il y a dans les poids.

Les huit modèles :

Qwen3-0,6B : classe téléphone. Contexte 32K. Dense.
Qwen3-1,7B : palier petit portable / Raspberry Pi. Contexte 32K.
Qwen3-4B : palier GPU d’entrée. Contexte 32K.
Qwen3-8B : daily driver mono-GPU. Contexte 128K.
Qwen3-14B : sweet spot carte 24 Go. Contexte 128K.
Qwen3-32B : navire-amiral dense. Contexte 128K. Tient sur une 3090 en Q4.
Qwen3-30B-A3B : MoE, 30B total / 3B actifs, contexte 128K. Très intéressant pour les plebs.
Qwen3-235B-A22B : MoE de frontière, 235B total / 22B actifs, contexte 128K. Entreprise ou pleb bien financé seulement.

La grande histoire architecturale est le mode de pensée hybride. Chaque modèle Qwen3 expédie avec un comportement « thinking » activable — activez-le, le modèle produit une chaîne de pensée <think>...</think> avant sa réponse finale, similaire à la façon dont DeepSeek R1 fonctionne. Désactivez-le, le modèle répond directement sans trace de raisonnement. Les plebs contrôlent ça via le prompt (append /think ou /no_think) ou via des paramètres au moment de la génération. C’est une UX plus propre que d’exiger des modèles séparés « thinking » et « instant » — un seul jeu de poids, deux comportements, choix du pleb par requête.

Sous le capot, les modèles denses Qwen3 utilisent le Transformer décodeur maintenant standard avec Grouped Query Attention, RoPE et SwiGLU. Les variantes MoE utilisent 128 experts pour le 30B-A3B (8 actifs par token) et un routage d’experts similaire pour le 235B-A22B. Données d’entraînement : Alibaba rapporte 36 trillions de tokens de données de pré-entraînement, environ le double du budget de 18T de Qwen 2.5, avec une forte emphase sur le code, les maths et le contenu multilingue. Le GitHub Qwen3 a les détails techniques incluant la pipeline d’entraînement multi-étape : pré-entraînement standard, puis RL axé raisonnement pour le mode thinking, puis une étape de mélange finale qui préserve les deux modes dans les mêmes poids.

Benchmarks au lancement

Selon le billet de lancement et le rapport technique d’Alibaba, les performances de Qwen3 sur les benchmarks publics à la sortie :

Qwen3-235B-A22B (thinking) : AIME 2024 à 85,7, LiveCodeBench à 70,7, GPQA à 71,1 — compétitif avec DeepSeek R1 et o1
Qwen3-32B (thinking) : AIME 2024 à 81,4, forte performance maths et code pour un dense 32B
Qwen3-30B-A3B (thinking) : AIME 2024 à 80,4 — un modèle à 3B paramètres actifs scorant près du 32B dense, à un coût d’inférence bien plus bas
Qwen3-8B (thinking) : AIME 2024 à 76,0, MMLU-Redux à 77,4
MMLU : 235B-A22B à 87,8, 32B à 83,1, 30B-A3B à 82,8
Benchmarks multilingues : Qwen3 revendique une capacité substantielle à travers 119 langues, une expansion nette par rapport aux 29 langues revendiquées par Qwen 2.5

Le chiffre marquant est la performance de Qwen3-30B-A3B par rapport à son coût d’inférence. Un MoE à 3B paramètres actifs performant comparable aux modèles denses 32B signifie que les plebs peuvent faire tourner le 30B-A3B à des vitesses d’inférence quasi-3B avec une capacité quasi-32B, en supposant que votre matériel peut contenir l’ensemble complet de 30B paramètres en VRAM ou mémoire unifiée. Les reproductions communautaires sur l’Open LLM Leaderboard et LMSys Arena raffineront ces chiffres dans les prochaines semaines — traitez les benchmarks auto-rapportés d’Alibaba comme directionnels jusqu’à ce que les évaluateurs indépendants confirment.

Ce que cela signifie pour le pleb souverain

Le manifeste IA souveraine argumente que les plebs devraient posséder leur stack d’inférence de bout en bout. Qwen3 ajoute deux options convaincantes à l’arsenal pleb. Le dense 32B est une mise à niveau directe de Qwen 2.5 32B pour les rigs mono-GPU. Le MoE 30B-A3B est plus intéressant : il tient dans une VRAM similaire à un dense 32B mais tourne l’inférence à environ la vitesse d’un 3B paramètres. Pour les plebs générant de gros volumes de texte (boucles d’agents, brouillons en long format, traitement batch), cet avantage de vitesse est matériel.

Exigences VRAM en Q4_K_M :

Qwen3-4B : ~3 Go — tout GPU avec 8 Go+ ou Mac série M
Qwen3-8B : ~5 Go — RTX 3060 12 Go, portables gaming bas de gamme
Qwen3-14B : ~9 Go — marge RTX 3060 12 Go, RTX 4070, Mac avec 16 Go+
Qwen3-32B : ~20 Go — RTX 3090/4090 unique, ou Mac avec 32 Go+ de mémoire unifiée
Qwen3-30B-A3B : ~20 Go — même VRAM que 32B dense mais ~10× inférence plus rapide grâce à la rareté MoE
Qwen3-235B-A22B : ~140 Go — pas un modèle de pleb maison, nécessite un rig entreprise

Pour le rig pleb RTX 3090 usagée, Qwen3-30B-A3B est le nouveau défaut pour les charges sensibles à la vitesse (agents, boucles d’usage d’outils, tâches de longue génération). Qwen3-32B dense est le défaut pour les charges sensibles à la qualité où la performance brute de benchmark compte plus que les tokens par seconde. Avoir les deux sur la même carte 24 Go (un à la fois) signifie que les plebs peuvent choisir le bon outil par travail. La sélection de quant suit notre explicateur GGUF — Q4_K_M pour VRAM contraint, Q8 quand vous avez la place.

Le mode de pensée hybride est l’autre victoire pleb. Vous voulez une réponse rapide ? Append /no_think. Vous voulez que le modèle raisonne fort ? /think. Cela signifie qu’un seul Qwen3 déployé sert à la fois les rôles « chat rapide » et « problème difficile » qui auparavant exigeaient des déploiements de modèles séparés. Pour un setup Open WebUI, cela simplifie dramatiquement la logique de sélecteur de modèle — un Qwen3, deux modes, routés par convention de prompt utilisateur ou bascule UI.

La licence Apache 2.0 à travers toute la famille Qwen3 est le titre tacite. Pas d’acceptation de licence sur Hugging Face. Pas de clauses « usage acceptable ». Pas de restrictions recherche-seulement. Les plebs tournant des flux Hashcenter commerciaux — vendre de l’inférence, intégrer des modèles dans des produits, bâtir des services d’agents — peuvent utiliser Qwen3 librement. Comparez avec la limitation 700M MAU de Llama ou la licence communautaire légèrement plus restrictive de Gemma : Qwen3 est le modèle ouvert de classe frontière le plus permissif commercialement sur le marché aujourd’hui.

Pour les conversions S19-vers-Hashcenter-IA, Qwen3-30B-A3B est un candidat de charge attrayant. L’inférence MoE a une demande de compute par token plus basse que dense, ce qui signifie soit de meilleurs tokens par seconde par GPU, soit la capacité de faire tourner plus d’utilisateurs concurrents sur le même matériel. L’économie du chauffage par inférence fonctionne toujours — le compute est réel même s’il est plus clairsemé — et la licence d’usage commercial rend les services d’inférence payants légaux directement.

Comment l’exécuter dès aujourd’hui

Quickstart via Ollama :

ollama pull qwen3:8b

ollama pull qwen3:32b

ollama pull qwen3:30b-a3b

ollama run qwen3:30b-a3b

Pour activer le mode thinking, append /think à votre prompt ; pour des réponses rapides sans raisonnement, utilisez /no_think. Open WebUI devrait gérer les blocs <think> et les rendre repliables par défaut.

Source Hugging Face : Qwen/Qwen3-32B et la famille Qwen3 complète sous l’org Qwen. Les quants GGUF des mainteneurs communautaires (bartowski, unsloth) apparaissent typiquement dans les 24 heures. Les utilisateurs LM Studio devraient voir les modèles indexés rapidement ; notre comparaison de runners couvre les compromis pour les setups pleb. Pour le dépannage des problèmes de chargement spécifiques à MoE (qui peuvent être délicats avec certains quants), notre guide de dépannage est la référence pleb.

Pour l’intégration à la stack pleb, consultez le guide pleb IA auto-hébergée. Un déploiement Qwen3 raisonnable remplace deux ou trois modèles de génération précédente : utilisez Qwen3-30B-A3B pour le chat général et le travail d’agents, Qwen3-32B en mode thinking pour les problèmes de raisonnement difficiles, et une des variantes denses plus petites pour les tâches de routage toujours actives à faible latence. Si vous intégrez avec Home Assistant ou Obsidian, Qwen3-4B est un candidat fort pour le rôle de classifieur toujours actif.

Ce qui vient ensuite

L’équipe Qwen d’Alibaba a été le cycle d’expédition de poids ouverts le plus cohérent de tout labo majeur au cours des deux dernières années. La cadence de sortie — environ une génération majeure tous les 6-9 mois, avec des sorties ponctuelles fréquentes et des variantes spécialisées (Qwen-Coder, Qwen-VL, Qwen-Audio) entre — signale une stratégie engagée vers les poids ouverts, pas un geste de RP. Qwen3 étend cette trajectoire avec l’architecture de pensée hybride et la poussée vers un support multilingue de 119 langues.

En regardant vers l’avant : Qwen-VL pour Qwen3 (variante vision) est presque certainement dans la pipeline, tout comme un Qwen-Coder-3 avec une spécialisation code plus serrée. Les déclarations publiques d’Alibaba autour de la capacité agentique suggèrent un investissement supplémentaire dans l’usage d’outils et la performance sur tâches à long horizon. Et la décision d’architecture MoE pour le navire-amiral 235B-A22B suggère qu’Alibaba s’engage dans le mixture-of-experts comme chemin de frontière, suivant la lancée de DeepSeek V3.

Pour les plebs aujourd’hui, l’action concrète. Téléchargez Qwen3-30B-A3B pour le travail général rapide. Téléchargez Qwen3-32B pour le raisonnement lourd. Placez-les derrière Open WebUI. Faites-les tourner sur votre propre matériel. La licence Apache 2.0 signifie que vous pouvez construire tout ce que vous voulez sur ces poids — produits commerciaux, services payants, APIs d’inférence hébergées-Hashcenter pour d’autres plebs — sans un seul appel à une équipe juridique.

Souveraineté, expédition, Apache 2.0, efficacité MoE, pensée hybride. Qwen3 est la sortie qui fait paraître le futur des poids ouverts inévitable.

Benchmarks tracked

AIME-2024 GPQA HumanEval MATH MMLU MT-Bench

Recommended hardware

Multi-GPU rig or cloud territory. For most plebs, the 70B distillation is plenty.

Buying guide: used RTX 3090 for LLMs (2026) →

Get it running

01 Install Ollama →
Ten-minute local LLM runtime. One binary, zero cloud.
02 Give it a web UI →
Open-WebUI turns Ollama into a self-hosted ChatGPT.
03 Understand quantization →
GGUF Q4/Q8/FP16 — which weights fit your GPU, explained.

Further reading: the Sovereign AI for Bitcoiners Manifesto for why sovereign inference matters, and From S19 to Your First AI Hashcenter for repurposing your mining rack into a Hashcenter that runs models like this one.