Current

Stable Diffusion 3.5

Stability AI · Stable Diffusion family · Released octobre 2024

Le navire-amiral MMDiT de Stability AI d octobre 2024 — variantes 2B (Medium) et 8B (Large) avec adhérence aux prompts dramatiquement améliorée sur SDXL.

Model card

Developer	Stability AI
Family	Stable Diffusion
License	Stability AI Community
Modality	image-gen
Parameters (B)	2,8
Context window	0
Release date	octobre 2024
Primary languages	en
Hugging Face	stabilityai/stable-diffusion-3.5-large
Ollama	Not on Ollama registry

Stable Diffusion 3.5 expédié : la seconde tentative de Stability AI à l’ère MMDiT

Stability AI vient de publier Stable Diffusion 3.5 — toute la famille : un 2B « Medium », un 8B « Large », et peu après, un Large Turbo distillé en 4 étapes. Les poids sont sur Hugging Face dès aujourd’hui sous la Stability AI Community License : gratuite pour la recherche et l’usage non-commercial, et gratuite pour l’usage commercial sous 1 M$ de revenus annuels. Au-delà de ce seuil, vous payez. L’annonce de lancement cadre SD 3.5 comme le successeur de la sortie SD 3 Medium de juin 2024 — celle qui a expédié sous tant de réaction communautaire que Stability est retourné réentraîner.

Cela compte parce que SD 3.5 est le second swing de Stability sur l’architecture MMDiT (Multimodal Diffusion Transformer) dans le marché des poids ouverts. SD 3 Medium en juin était techniquement nouveau mais a atterri avec confusion de licence, lacunes de capacité sur les figures humaines et un sentiment général que la compagnie l’avait précipité. SD 3.5 est la sortie de production que Stability voulait que SD 3 soit, et il arrive dans un paysage où FLUX.1 dev mange la part d’attention pleb de Stability depuis trois mois. Voici ce qu’il y a dans l’architecture, comment les variantes diffèrent pour les rigs maison, et si SD 3.5 a une place dans la stack pleb vu que FLUX y est déjà.

Ce qu’il y a dans les poids

SD 3.5 est un modèle MMDiT flow-matching. C’est une famille architecturale différente du U-Net de SDXL — l’approche diffusion transformer est originaire de la recherche DiT de Meta (Peebles & Xie, 2022) et a été tirée vers le texte-à-image par le propre papier SD 3 de Stability plus tôt cette année. La filiation à créditer : DDPM (Ho et al., 2020) → diffusion latente (CompVis/LMU Munich, 2022) → SDXL (2023) → Scalable Diffusion Transformers (2022) → SD 3 (2024) → SD 3.5 aujourd’hui.

Les variantes et l’architecture :

SD 3.5 Medium (2,5B paramètres) — MMDiT avec entraînement amélioré, sortie native 1MP, conçu pour tourner sur matériel grand public
SD 3.5 Large (8B paramètres) — le navire-amiral, variante MMDiT-X avec le plafond de qualité de la famille
SD 3.5 Large Turbo (8B, distillé en 4 étapes) — variante guidance-distilled qui réduit dramatiquement le nombre d’étapes à un coût de qualité
Résolution native : 1024×1024 pour toutes les variantes, avec flexibilité pour d’autres ratios via conditionnement de taille
Encodeurs texte (Large) : trois encodeurs en parallèle — CLIP-L, CLIP-G et T5-XXL. Le T5-XXL est la grande amélioration pour les prompts longs et détaillés
Encodeurs texte (Medium) : CLIP-L + CLIP-G ; T5 est optionnel et améliore la fidélité des prompts longs quand chargé
Objectif flow matching — le MMDiT est entraîné avec flow rectifié plutôt que du débruitage style DDPM classique
Licence : Stability AI Community License — usage commercial gratuit sous 1 M$ de revenus annuels, licence payante requise au-dessus

La partie « MMDiT » de l’architecture est la pièce à comprendre pour les plebs. Dans un modèle de diffusion U-Net classique, le conditionnement texte est injecté dans le denoiseur via attention croisée à chaque couche. Dans MMDiT, les tokens texte et tokens image sont concaténés et traités ensemble à travers une attention conjointe — traitant la sortie de l’encodeur texte comme des tokens de première classe auxquels le modèle prête attention directement, pas comme une entrée latérale. C’est plus proche de la façon dont les LLMs multimodaux modernes gèrent les images que de la façon dont les modèles d’image plus anciens géraient le texte. L’effet pratique : meilleure adhérence aux prompts sur les prompts longs et structurellement complexes, surtout quand l’encodeur T5-XXL est chargé.

Ce que SD 3.5 fait bien

Réaction communautaire du jour de sortie, recoupée avec les revendications techniques propres de Stability :

Adhérence aux prompts : étape substantielle au-dessus de SDXL sur les prompts complexes, multi-sujets, compositionnels. La triple pile d’encodeurs texte sur Large en est la raison.
Figures humaines : a corrigé le pire des échecs d’anatomie de SD 3 Medium. Pas tout à fait niveau FLUX, mais crédiblement utilisable pour le travail de portrait.
Texte dans les images : le texte court est généralement lisible en résolution 1024. Les textes plus longs cassent encore, mais les pires modes d’échec de SDXL ont majoritairement disparu.
Flexibilité de style : Stability a explicitement mis l’accent sur la variété de styles dans la sortie — le modèle est moins verrouillé dans une « esthétique SD » par défaut que ne l’était SDXL, ce qui compte pour les plebs faisant du travail créatif varié.
Photoréalisme en 1MP natif : peau, éclairage et réponse des matériaux atterrissent plus propres que SDXL sans exiger de hi-res fix.

Là où SD 3.5 a encore des lacunes : les écosystèmes LoRA et ControlNet sont plus minces que le banc profond de SDXL, bien qu’ils se construisent rapidement maintenant que les poids sont publics. FLUX.1 dev et FLUX.1 schnell gagnent encore sur l’adhérence brute aux prompts et le photoréalisme dans la plupart des tests tête-à-tête. Et le seuil de 1 M$ de revenus de la Community License est une considération réelle pour tout opérateur pensant sérieusement à un déploiement commercial — le chemin FLUX.1 schnell Apache 2.0 est plus propre pour l’usage commercial, même si la qualité est légèrement inférieure.

Implications pour les plebs souverains — VRAM et flux

Le choix de variante est tout le jeu pour les rigs maison :

SD 3.5 Medium FP16 : environ 6 Go de VRAM de modèle, plus encodeurs texte. Confortable sur une 3060, 3080 ou 4070 12 Go. C’est la variante la plus largement accessible — si vous avez n’importe quel GPU grand public moderne avec 12 Go+, Medium tourne proprement.
SD 3.5 Large FP16 (tous les encodeurs texte chargés) : environ 16 Go de VRAM de modèle plus ~8 Go pour T5-XXL quand chargé simultanément. VRAM totale de pointe autour de 24 Go avec T5 en mémoire. Tient sur une RTX 3090 usagée ou une 4090 serrée ; confortable sur une A6000 48 Go.
SD 3.5 Large FP8 : environ 10 Go pour le modèle. T5 peut être offloadé vers le CPU entre les runs. Tourne sur une 4080 16 Go ou similaire avec gestion soigneuse. Le coût de qualité est mineur.
SD 3.5 Large GGUF Q5/Q4 : les quants communautaires via ComfyUI-GGUF atterrissent dans la plage 5-7 Go pour les poids du modèle. Rend Large exécutable sur cartes grand public 12 Go avec offload T5.
SD 3.5 Large Turbo : même empreinte VRAM que Large, mais 4 étapes au lieu de 30-40 signifie environ 5-8× plus rapide par image. La qualité est notablement sous Large mais au-dessus de Medium pour la plupart des prompts.

Un flux pleb pratique pour une carte 24 Go : tournez Medium pour l’itération rapide et le travail batch, basculez vers Large pour les rendus finaux quand la qualité compte, gardez Turbo chargé pour les miniatures rapides et l’exploration de prompts. Pour les cartes 12-16 Go, Medium est le daily driver et Large via quantification est l’outil « rendu final ».

L’offload T5-XXL est le levier clé. ComfyUI gère ça via son graphe de nœuds — vous pouvez structurer les flux pour charger T5 seulement durant la passe d’encodage texte initiale, puis décharger avant que l’échantillonnage MMDiT commence. Ce façonnage de VRAM de pointe est la différence entre « tourne sur une carte 16 Go » et « OOM sur une carte 24 Go » pour les flux Large.

Notes de sampler et flux pour utilisateurs de ComfyUI

SD 3.5 utilise le flow-matching plutôt que le débruitage classique, ce qui change quels samplers s’appliquent :

Sampler recommandé : euler avec scheduling simple, ou dpmpp_2m pour une sortie légèrement plus propre. Les flux de référence de Stability utilisent euler + sgm_uniform.
Nombre d’étapes : 28-40 pour Large, 20-30 pour Medium, 4 pour Large Turbo.
CFG : généralement plus bas que SDXL — 3,5-5,0 est la plage de travail plutôt que le 7,0-9,0 de SDXL.
Graphes de flux : ComfyUI expédie des flux de référence pour SD 3.5 au jour de sortie. SwarmUI et Forge ont tous deux le support SD 3.5 dès aujourd’hui aussi.

Si vous avez un setup ComfyUI existant tournant SDXL ou FLUX, ajouter SD 3.5 est une affaire de déposer le checkpoint dans models/checkpoints, télécharger les poids de l’encodeur T5-XXL si vous ne les avez pas déjà depuis FLUX, et charger le flux de référence. Pas de réinstallation, pas de recâblage majeur — l’écosystème ComfyUI est progressivement meilleur pour supporter les nouvelles architectures sans forcer la reconfiguration pleb.

Comment l’exécuter dès aujourd’hui

Les poids sont sur Hugging Face à stabilityai/stable-diffusion-3.5-large, stabilityai/stable-diffusion-3.5-medium, et la variante Turbo de la même organisation. L’acceptation de licence est requise sur les pages modèles HF avant téléchargement.

L’outil recommandé pour les flux SD 3.5 de classe pleb est ComfyUI — la flexibilité des flux basés sur des nœuds correspond au besoin du modèle de gestion VRAM soigneuse et d’offload T5. Notre guide ComfyUI pour plebs couvre l’installation et le graphe de flux de base. SwarmUI (une UI alternative backée par ComfyUI) et Forge (fork A1111) supportent tous deux SD 3.5 dès aujourd’hui. Le support de la bibliothèque Diffusers est dans les dernières sorties pour quiconque scripte la génération.

Pour le dépannage des erreurs VRAM, crashes OOM ou génération lente, le guide de dépannage IA auto-hébergée couvre les causes communes.

Ce qui vient ensuite

Attendez-vous à ce que les écosystèmes LoRA et ControlNet pour SD 3.5 se construisent dans les prochains mois — SDXL a pris environ un an pour atteindre son état d’outillage mature, et SD 3.5 sera plus rapide parce que l’outillage communautaire (ComfyUI, Forge) est déjà mature et l’infrastructure d’entraînement pour MMDiT est bien documentée depuis la sortie de SD 3. Des fine-tunes axés anime, photoréalisme et domaines de style spécifiques apparaîtront sur Civitai et Hugging Face rapidement.

Vue d’ensemble : SD 3.5 est l’entrée crédible de Stability dans l’ère post-FLUX de la génération d’images ouverte. L’approche architecturale — MMDiT avec triple encodeurs texte — est là où le champ se dirige. FLUX.1 dev reste le choix pleb pour la qualité brute sur une carte 24 Go, mais l’accessibilité 12 Go de SD 3.5 Medium et la flexibilité d’usage commercial de Large (sous le seuil de revenus) creusent tous deux des niches réelles. Pour les plebs tournant des builds inférence-comme-chauffage, SD 3.5 Large en génération batch soutenue est le genre de charge GPU continue de 300 W+ qui s’accorde bien avec les profils thermiques Hashcenter. Consultez le Manifeste IA souveraine pour Bitcoiners pour l’argumentaire, les rétrospectives de modèles d’image connexes SDXL et FLUX.1 dev pour des points de comparaison, et la pièce Du S19 au Hashcenter IA pour l’histoire de transition matérielle. Téléchargez les poids, démarrez ComfyUI et possédez vos pixels — c’est le jeu.

Recommended hardware

Runs on 12 GB VRAM — 3060 Ti / 4060 / M2 territory. Sweet spot for home rigs.

Buying guide: used RTX 3090 for LLMs (2026) →

Get it running

01 Install Ollama →
Ten-minute local LLM runtime. One binary, zero cloud.
02 Give it a web UI →
Open-WebUI turns Ollama into a self-hosted ChatGPT.
03 Understand quantization →
GGUF Q4/Q8/FP16 — which weights fit your GPU, explained.

Further reading: the Sovereign AI for Bitcoiners Manifesto for why sovereign inference matters, and From S19 to Your First AI Hashcenter for repurposing your mining rack into a Hashcenter that runs models like this one.