FLUX.1 dev
Black Forest Labs · FLUX family · Released août 2024
Le navire-amiral de Black Forest Labs d août 2024 — un transformer flow-matching rectifié 12B qui a fixé la nouvelle barre de qualité pour la génération d images ouverte.
Model card
| Developer | Black Forest Labs |
|---|---|
| Family | FLUX |
| License | Non-Commercial |
| Modality | image-gen |
| Parameters (B) | 12 |
| Context window | 0 |
| Release date | août 2024 |
| Primary languages | en |
| Hugging Face | black-forest-labs/FLUX.1-dev |
| Ollama | Not on Ollama registry |
Black Forest Labs a publié FLUX.1 aujourd’hui, et le paysage de la génération d’images à poids ouverts vient de basculer d’une façon qui rappelle la sortie originale de Stable Diffusion en 2022. Trois variantes expédiées : FLUX.1 [pro] (API-seul, fermé), FLUX.1 [dev] (poids ouverts sous licence de recherche non-commerciale) et FLUX.1 [schnell] (distillé en 4 étapes, licence Apache 2.0). Pour les plebs souverains qui génèrent des images sur leur propre matériel, FLUX.1 [dev] est le modèle d’image à poids ouverts le plus capable jamais publié.
L’équipe derrière cette sortie compte. Black Forest Labs est l’équipe fondatrice de Stable Diffusion elle-même — Robin Rombach, Andreas Blattmann et Dominik Lorenz — réassemblée après leur départ de Stability AI. L’annonce de la compagnie cadre FLUX.1 comme le successeur de la lignée SD avec une ardoise propre : nouvelle architecture, nouvelles données d’entraînement et un tour de financement qui leur permet de construire sans le drame corporatif qui a plombé Stability.
Ce qu’il y a dans les poids
FLUX.1 est un modèle de flow-matching de 12 milliards de paramètres — un objectif différent du débruitage de diffusion que Stable Diffusion et SDXL utilisaient, bien que la boucle d’inférence ressemble à l’extérieur. Le flow matching, développé dans la recherche Meta et Princeton à partir de 2022, apprend une transformation continue entre le bruit et les données qui est mathématiquement plus propre que la diffusion et, en pratique, s’entraîne plus stablement et converge plus vite pour un budget de compute donné.
L’architecture est un Multi-Modal Diffusion Transformer (MMDiT) hybride plus attention parallèle, décrite dans le dépôt FLUX.1. Le conditionnement texte vient de deux encodeurs tournant en parallèle — un encodeur T5-XXL pour le contenu sémantique détaillé et un encodeur CLIP pour le signal style-et-concept que les utilisateurs SDXL trouveront familier. Les tokens texte et tokens image sont concaténés et attendus conjointement dans une épine dorsale DiT. C’est similaire en esprit à l’architecture de Stable Diffusion 3 mais à bien plus grande échelle et avec les propres améliorations de Black Forest Labs.
Trois variantes aujourd’hui :
- FLUX.1 [pro] : API-seul via Replicate, fal.ai et l’API Black Forest Labs. La variante de plus haute qualité, pas téléchargeable.
- FLUX.1 [dev] : 12B paramètres, poids ouverts, licence de recherche non-commerciale. Génération en 50 étapes, qualité proche de [pro]. C’est le modèle des plebs.
- FLUX.1 [schnell] : 12B paramètres, licence Apache 2.0, distillé en 4 étapes via une technique de distillation par guidage. Inférence bien plus rapide au prix d’un peu de détail. Utilisable commercialement sans casse-tête de licence.
La distinction de licence compte. [dev] est non-commercial seulement — vous pouvez le faire tourner pour vous-même, générer des images personnelles, l’utiliser en recherche, mais vous ne pouvez pas construire un produit commercial sur les poids [dev] sans licence. [schnell] est Apache 2.0, pleinement permissive, et c’est la réponse de Black Forest Labs aux plebs qui ont besoin d’usage commercial. La variante [pro] existe pour quiconque veut la qualité de premier rang dans un contexte SaaS commercial.
Données d’entraînement : Black Forest Labs a été moins transparent sur le corpus que certains concurrents. Les notes de sortie citent « des données image-texte web à grande échelle » sans énumérer les sources. C’est une réserve raisonnable à signaler — la question de provenance des données est active dans toute l’industrie, et FLUX.1 ne la résout pas plus transparemment que Stable Diffusion.
Ce qu’il fait bien au lancement
Benchmarker la génération d’images est notoirement flou, mais la réaction communautaire du jour de sortie raconte une histoire cohérente. FLUX.1 [dev] cloue plusieurs choses avec lesquelles SDXL peinait :
- Rendu de texte : les mots dans les images sortent cohérents, lisibles et dans le style demandé. Le mode d’échec infâme de texte brouillé de SDXL a largement disparu. C’est l’amélioration de qualité la plus visible.
- Anatomie humaine : les mains ont cinq doigts. Les yeux correspondent. Les membres se connectent aux corps à des angles anatomiquement plausibles. C’est le benchmark pleb de qualité des modèles d’image depuis 2022, et FLUX.1 est le premier modèle pleinement ouvert à le passer constamment.
- Adhérence aux prompts : les prompts compositionnels complexes (« une balle rouge sur un cube bleu à côté d’une pyramide jaune ») sont respectés à un niveau que SDXL exigeait un ingéniérie de prompt soignée pour atteindre.
- Photoréalisme : texture de peau, éclairage et réponse des matériaux sont notablement améliorés par rapport à SDXL et SD 3.
- Cohérence esthétique : le modèle produit un style cohérent sur une seule image d’une façon que SDXL fragmentait souvent.
Là où il est encore limité à la sortie : les écosystèmes LoRA et ControlNet n’existent pas encore (ils viendront, rapidement, mais au jour un vous utilisez FLUX de base sans l’outillage communautaire). La licence non-commerciale sur [dev] signifie que les flux Hashcenter commerciaux doivent utiliser [schnell] ou négocier avec Black Forest Labs. Et l’inférence est lente sur matériel grand public — un modèle 12B paramètres faisant 50 étapes n’est pas une génération rapide.
Ce que cela signifie pour le pleb souverain
Pour les flux IA souveraine, FLUX.1 [dev] remplace SDXL comme modèle d’image à poids ouverts par défaut sur une RTX 3090 ou 4090. L’écart de qualité est assez grand pour que l’inférence plus lente en vaille la peine pour la plupart des cas d’usage pleb — art personnel, visualisation de recherche, maquettes de produits, itération de concepts.
Exigences VRAM :
- FLUX.1 [dev] FP16 : ~24 Go VRAM — serré sur une RTX 3090/4090 unique, nécessite offload CPU ou quantification int8 pour un usage confortable
- FLUX.1 [dev] FP8 : ~12-14 Go VRAM — tourne sur une carte 16 Go avec un peu d’offload CPU, confortable sur une carte 24 Go
- FLUX.1 [dev] Q4_0 (GGUF) : ~6-8 Go VRAM — les quants communautaires atterriront d’ici une ou deux semaines, activant les cartes 12 Go
- FLUX.1 [schnell] : même VRAM que [dev] mais l’inférence 4 étapes signifie ~10× plus rapide par image
Vitesse d’inférence sur une seule RTX 3090 en FP16 : environ 30-60 secondes par image 1024×1024 pour [dev] à 50 étapes, 4-8 secondes pour [schnell] à 4 étapes. Sur une 4090, coupez ces chiffres environ de moitié. C’est substantiellement plus lent que SDXL, mais le delta de qualité justifie l’attente pour presque chaque flux.
Pour le rig pleb RTX 3090 usagée, FLUX.1 [schnell] en FP8 est le nouveau modèle d’image par défaut. Pour les cartes 16 Go, [schnell] avec offload CPU fonctionne. Pour 12 Go et moins, attendez les quants GGUF communautaires — ils seront disponibles d’ici quelques semaines et activeront une accessibilité pleb large. Notre explicateur de quantification couvre les compromis ; pour FLUX spécifiquement, FP8 est le sweet spot quand vous avez la VRAM.
L’intégration Hashcenter a particulièrement du sens pour le travail d’image. Générer des milliers de shots produits, variations d’art ou visualisations de recherche est le genre de charge GPU batch qui s’accorde bien avec le chauffage par inférence — une charge compute constante produit une sortie de chaleur constante, ce qui est exactement ce qu’on veut d’une source de chauffage. Pour les plebs convertissant des hashcenters ASIC retirés en inférence IA, FLUX.1 est un candidat fort pour la charge de génération d’images dans une stack mixte LLM/image.
Si vous faites déjà tourner ComfyUI pour des flux Stable Diffusion, les nœuds FLUX.1 apparaissent déjà dans les dépôts communautaires ComfyUI aujourd’hui. La migration des flux SDXL vers FLUX est directe pour les plebs qui ont des pipelines existantes — échangez le nœud de modèle, ajustez le sampler pour fonctionner avec le flow matching, et presque tout le reste se transpose.
Comment l’exécuter dès aujourd’hui
ComfyUI est la façon la plus rapide pour les plebs de faire tourner FLUX.1. Téléchargez les poids depuis Hugging Face :
black-forest-labs/FLUX.1-schnell
Vous devrez accepter la licence sur Hugging Face pour [dev]. Schnell est pleinement ouvert, pas d’acceptation requise. Déposez les poids dans votre répertoire ComfyUI models/checkpoints, redémarrez et saisissez un des flux d’exemple du dépôt d’exemples ComfyUI — les flux FLUX sont ajoutés aujourd’hui.
Pour les plebs qui préfèrent Automatic1111, le support FLUX natif n’y est pas encore au jour de sortie, mais Forge WebUI (le fork A1111 favori des plebs) ajoute typiquement le support des nouveaux modèles en une semaine. Pour la génération en ligne de commande, le dépôt officiel Black Forest Labs a un CLI Python minimal. Le support de la bibliothèque Diffusers arrive dans la version 0.30 selon leurs notes de sortie, expédiée incessamment.
Ollama et LM Studio sont axés modèles texte et ne font pas tourner de modèles d’image aujourd’hui. Pour le dépannage des setups de génération d’images, notre guide de dépannage IA auto-hébergée couvre les problèmes communs de VRAM, pilotes et flux. Le guide pleb IA auto-hébergée associe les modèles d’image aux LLMs pour des flux multimodaux — FLUX.1 pour la génération, LLMs servis par Ollama pour la conception de prompts et la génération de légendes.
Ce qui vient ensuite
Black Forest Labs a été explicite : l’image est le premier produit, pas le seul produit. L’annonce mentionne la vidéo comme item de feuille de route — « text-to-video de pointe » figure dans leurs objectifs à plus long terme. Vu le pedigree de l’équipe fondatrice en recherche sur la diffusion, attendez-vous à un modèle vidéo de Black Forest Labs dans les 12 prochains mois qui applique l’approche flow-matching aux données temporelles.
La sortie de SD3 plus tôt cette année a été une déception pour beaucoup de plebs — les poids étaient édulcorés, la licence agressive, et la turbulence corporative continue de Stability AI rendait les paris à long terme sur la lignée SD chancelants. FLUX.1 est le signal le plus clair à ce jour que l’élan de la génération d’images à poids ouverts s’est déplacé vers Black Forest Labs. Pour les plebs, c’est bienvenu — l’équipe a le pedigree de recherche, la sortie est propre et la licence Apache 2.0 de la variante [schnell] fournit un chemin véritablement permissif pour l’usage commercial.
Téléchargez les poids, démarrez ComfyUI et générez sur votre propre matériel. Vos images, vos prompts, votre Hashcenter. C’est le jeu de souveraineté — et aujourd’hui il vient de devenir bien plus joli. Si vous planifiez une infrastructure plus large — charges mixtes LLM-plus-image, inférence payante pour d’autres plebs, le pivot économique Hashcenter — FLUX.1 est maintenant un composant requis de la stack.
Recommended hardware
Runs on 16 GB VRAM — 4070 Ti or M3 Pro. Quantized Q4 fits comfortably.
Get it running
-
01
Install Ollama →
Ten-minute local LLM runtime. One binary, zero cloud.
-
02
Give it a web UI →
Open-WebUI turns Ollama into a self-hosted ChatGPT.
-
03
Understand quantization →
GGUF Q4/Q8/FP16 — which weights fit your GPU, explained.
Further reading: the Sovereign AI for Bitcoiners Manifesto for why sovereign inference matters, and From S19 to Your First AI Hashcenter for repurposing your mining rack into a Hashcenter that runs models like this one.
