Stable Diffusion XL
Stability AI · Stable Diffusion family · Released juillet 2023
Le SDXL de Stability AI de juillet 2023 — ~3,5B paramètres, 1024×1024 natif, licence CreativeML-OpenRAIL-M, colonne vertébrale de l écosystème ouvert de génération d images.
Model card
| Developer | Stability AI |
|---|---|
| Family | Stable Diffusion |
| License | CreativeML-OpenRAIL-M |
| Modality | image-gen |
| Parameters (B) | 3.5 |
| Context window | 0 |
| Release date | juillet 2023 |
| Primary languages | en |
| Hugging Face | stabilityai/stable-diffusion-xl-base-1.0 |
| Ollama | Not on Ollama registry |
SDXL 1.0 expédié : le plus grand modèle d’image ouvert de Stability AI à ce jour
Stability AI vient de publier Stable Diffusion XL 1.0 (SDXL) — un modèle de base de 3,5B paramètres couplé à un raffineur de 6,6B paramètres, ce qui en fait l’un des plus grands modèles de génération d’images en accès ouvert à ce jour. L’annonce est parue aujourd’hui, avec les poids sur Hugging Face, le code sur GitHub, et l’accès hébergé via les produits Clipdrop et DreamStudio de Stability. La licence est CreativeML OpenRAIL++-M — permissive, usage commercial autorisé avec les clauses standard d’usage responsable.
SDXL 1.0 fait suite à un research preview de juillet (SDXL 0.9) qui a donné à la communauté quatre semaines d’avance pour tester et construire des outils. Aujourd’hui tombent les poids de production — et la revendication est une étape de qualité substantielle par rapport à Stable Diffusion 1.5 (octobre 2022) et Stable Diffusion 2.1 (décembre 2022) en fidélité des couleurs, éclairage, composition et adhérence aux prompts. Voici ce qu’il y a dans le modèle, comment la communauté image-gen le reçoit aujourd’hui, et ce que SDXL signifie pour un pleb souverain faisant tourner la génération d’images locale sur matériel maison.
Ce qu’il y a dans les poids
SDXL 1.0 est un modèle de diffusion latente — même famille que les sorties Stable Diffusion antérieures, même ligne de recherche de base. La filiation : Latent Diffusion Models (Rombach et al., CompVis + LMU Munich, 2022) → Stable Diffusion 1.4 / 1.5 (août / octobre 2022) → Stable Diffusion 2.0 / 2.1 (novembre / décembre 2022) → preview Stable Diffusion XL 0.9 (juillet 2023) → SDXL 1.0 aujourd’hui. L’ossature architecturale est la pile familière denoiseur U-Net + autoencodeur VAE + encodeur texte, passée à l’échelle et raffinée.
Spécifications clés :
- Modèle de base : U-Net de 3,5B paramètres (contre ~860M pour le U-Net de SD 1.5 — environ 4× la taille du denoiseur)
- Modèle raffineur : 6,6B paramètres dans la pipeline ensemble complète (base + raffineur ensemble), utilisé pour une seconde étape de débruitage sur les timesteps tardifs
- Résolution native : 1024×1024 (un saut majeur depuis le natif 512×512 de SD 1.5 — plus besoin de highres-fix pour obtenir une sortie 1MP)
- Encodeurs texte : deux encodeurs utilisés en tandem — OpenCLIP ViT-bigG/14 + CLIP ViT-L/14 — pour un conditionnement de prompt plus riche que le CLIP unique de SD 1.5
- VAE : nouvel espace latent 16 canaux, fidélité plus haute que le VAE de SD 1.x
- Conditionnement : conditionnement de taille et de recadrage à l’inférence — vous pouvez passer les dimensions cibles explicitement, évitant le mode d’échec du sujet écrasé de SD 1.5
- Licence : CreativeML OpenRAIL++-M, usage commercial permis
La pipeline à deux étapes (base → raffineur) est la nouveauté architecturale à comprendre. Le modèle de base gère la majorité des étapes de débruitage ; le raffineur est spécialisé pour les étapes finales, ajoutant le détail fin et nettoyant les artefacts. On peut tourner base-seul pour une inférence plus rapide à qualité légèrement réduite, ou l’ensemble complet pour une sortie qualité production. Le raffineur est optionnel dans le flux quotidien, ce qui est une bonne nouvelle pour les plebs qui surveillent la VRAM.
Réception à la sortie dans la communauté image-gen
SDXL a eu une période de preview exceptionnellement longue — SDXL 0.9 a atterri fin juin et la communauté a généré, comparé et construit des LoRAs et outils pendant un mois complet avant les poids de production d’aujourd’hui. Cela veut dire que la sortie d’aujourd’hui ne tombe pas à froid. Sentiment communautaire précoce, publié sur le blog Stability et dans les grandes conversations Discord / Reddit ouvertes :
- Couleur et éclairage : largement rapporté comme une étape claire au-dessus de SD 1.5. Palettes plus vibrantes, meilleur contraste, comportement d’ombres plus crédible.
- Adhérence aux prompts : le double encodeur texte fait du vrai travail. Les prompts complexes avec plusieurs sujets, relations spatiales et modificateurs de style suivent mieux que dans SD 1.5. Pas encore au niveau de la ligne fermée Midjourney v5.2, mais notablement plus proche.
- Génération native 1MP : le plus grand changement de flux pour les plebs. Pas de passe highres-fix, pas de compositing tuilé pour les sorties 1024×1024. Cela simplifie beaucoup de pipelines ComfyUI et Automatic1111.
- Mains et anatomie : amélioré par rapport à SD 1.5, mais toujours imparfait. Les mains à six doigts sont plus rares, pas éteintes.
- Texte dans les images : amélioration modeste — texte court lisible parfois possible, mais pas de façon fiable.
- Flexibilité de style : la communauté a déjà produit des douzaines de LoRAs SDXL à partir du preview 0.9, démontrant que le modèle répond bien au fine-tuning de style.
La comparaison qui intéressera le plus les plebs est SDXL vs Midjourney v5.2, le leader closed-source actuel. La position de Stability, implicite dans la sortie : SDXL est le meilleur modèle ouvert disponible et ferme une portion substantielle de l’écart avec Midjourney, surtout à 1024 et au-dessus. Qu’il ferme tout l’écart est une question de goût et de charge.
Implications pour les plebs souverains
SDXL est le modèle d’image ouvert le plus capable que les plebs peuvent faire tourner localement aujourd’hui — mais il est aussi substantiellement plus lourd que l’était SD 1.5. Les maths VRAM comptent :
- SDXL base en fp16 : environ 7 Go de VRAM pour le modèle, plus ~1-2 Go pour les activations durant la génération. Confortable sur une carte 12 Go (3060, 3080, 4070) et très confortable sur une carte 16 Go+.
- Ensemble SDXL base + raffineur : environ 13 Go de VRAM chargés simultanément. Tient sur une carte 16 Go avec marge, serré sur 12 Go. La plupart des flux ComfyUI échangent base et raffineur séquentiellement pour abaisser la VRAM de pointe — cela fonctionne bien sur cartes 12 Go mais ralentit les choses.
- SDXL quantifié fp8 / int8 : les outils de quantification communautaires émergent (voir les forks ComfyUI et stable-diffusion-webui aujourd’hui) ; fp8 tourne confortablement sur cartes 8 Go à léger coût de qualité.
- SDXL sur une carte 8 Go : possible avec tuilage VAE agressif, chargement séquentiel du modèle et flag –lowvram dans Auto1111 — utilisable mais lent, 30-60 secondes par image 1024×1024.
- SDXL sur CPU : 5-10 minutes par image. Pas un flux quotidien.
Ce que cela remplace dans une stack image-gen pleb : SDXL est le chemin de mise à niveau clair depuis SD 1.5 et SD 2.1 si votre matériel peut le gérer. La sortie native 1024×1024 élimine beaucoup de friction de flux — fini le highres-fix, fini les gymnastiques tiled-diffusion pour les sorties 1MP. Pour les plebs sur cartes 8 Go, SD 1.5 reste un daily driver raisonnable pour la vitesse ; tournez SDXL pour les rendus finaux quand la qualité compte.
Pour les plebs utilisant la génération d’images dans une stack IA auto-hébergée plus large, SDXL sur un second GPU (la « seconde 3090 » à côté de votre carte LLM) est une séparation naturelle : une carte pour le travail LLM, une carte pour le travail image, coût total du rig toujours sous un abonnement annuel Midjourney + ChatGPT. Une 3090 usagée avec 24 Go est confortablement surdimensionnée pour SDXL seul, ce qui laisse de la place pour ControlNet, LoRAs et plusieurs flux concurrents.
Pour les rigs inférence-comme-chauffage, le temps de compute par image plus long de SDXL (comparé à la génération de tokens de chat) signifie que les GPUs passent plus de temps en charge soutenue — meilleur profil thermique que le chat, si le but est le chauffage d’espace. Pour les petits opérateurs pensant à de l’image gen hébergée, SDXL est le premier modèle ouvert crédible comme alternative Midjourney pour des clients payants — la qualité est assez proche pour que le flux et le coût deviennent les facteurs décisifs.
Comment l’exécuter dès aujourd’hui
Les poids pour SDXL base et raffineur sont sur Hugging Face à stabilityai/stable-diffusion-xl-base-1.0 et stabilityai/stable-diffusion-xl-refiner-1.0.
La façon la plus propre pour un pleb de faire tourner SDXL localement est ComfyUI — l’éditeur de flux basé sur des nœuds supporte la pipeline à deux étapes base+raffineur nativement, a une bonne gestion VRAM, et la communauté a déjà publié des douzaines de graphes de flux optimisés SDXL. Notre guide ComfyUI pour plebs couvre l’installation de ComfyUI sur Windows, macOS ou Linux, le chargement des checkpoints SDXL et le câblage du flux base+raffineur.
AUTOMATIC1111 / stable-diffusion-webui supporte aussi SDXL depuis cette semaine — vous aurez besoin de la dernière branche dev ou de la sortie 1.5.x qui arrive dans les jours qui viennent. InvokeAI et Fooocus (une nouvelle UI SDXL-first) sont des options supplémentaires. Pour les plebs voulant l’accès hébergé sans installation locale, Clipdrop et DreamStudio tournent tous deux SDXL derrière leurs API respectives dès aujourd’hui. Si vous construisez un setup local multi-modèle (SDXL pour les images + un modèle chat comme Mistral 7B sur un second GPU), les maths de rig dans notre quickstart Ollama couvrent le setup côté chat.
Pour le dépannage — erreurs VRAM, génération lente, mauvaise sortie — notre guide de dépannage IA auto-hébergée a les suspects habituels, et le Discord ComfyUI est là où les questions de flux spécifiques à SDXL obtiennent des réponses rapides aujourd’hui.
Ce qui vient ensuite
Attendez-vous à une vague de fine-tunes et LoRAs SDXL sur Hugging Face et Civitai dans les deux prochaines semaines — le preview 0.9 a donné aux entraîneurs un mois de piste, donc beaucoup de modèles finis atterriront au jour-de-sortie-plus. ControlNet pour SDXL est en développement actif et atteindra probablement la production en quelques semaines. Stability a aussi laissé entendre des variantes SDXL-Turbo (modèles distillés pour génération 1-4 étapes) comme direction de recherche.
Vue d’ensemble : la génération d’images ouverte vient de faire un grand pas. SDXL est le premier modèle ouvert qu’un pleb tournant à la maison peut crédiblement comparer à Midjourney pour la qualité, au moins dans la plupart des catégories. La combinaison de licence permissive, poids le jour même, sortie native 1024 et outillage communautaire solide rend la génération d’images locale un flux souverain pour plus de plebs qu’hier. Téléchargez les poids, faites tourner ComfyUI, possédez vos pixels. Consultez le Manifeste IA souveraine pour l’argumentaire plus large.
Lectures complémentaires : La même infrastructure de classe pleb qui fait tourner l’inférence locale fait aussi tourner une chaufferette Bitcoin. Plusieurs lecteurs arrivent du côté minage — consultez Du S19 à votre premier Hashcenter IA pour le pont.
Recommended hardware
Runs on 12 GB VRAM — 3060 Ti / 4060 / M2 territory. Sweet spot for home rigs.
Get it running
-
01
Install Ollama →
Ten-minute local LLM runtime. One binary, zero cloud.
-
02
Give it a web UI →
Open-WebUI turns Ollama into a self-hosted ChatGPT.
-
03
Understand quantization →
GGUF Q4/Q8/FP16 — which weights fit your GPU, explained.
Further reading: the Sovereign AI for Bitcoiners Manifesto for why sovereign inference matters, and From S19 to Your First AI Hashcenter for repurposing your mining rack into a Hashcenter that runs models like this one.
