Il y a quelques semaines, vous avez roulé Installer Ollama en 10 minutes, regardé Llama 3.1 cracher des tokens depuis votre propre GPU et annulé discrètement un abonnement infonuagique de plus. Même jeu de souveraineté aujourd’hui, autre charge de travail : la génération d’images locale. Le silicium qui fait tourner votre LLM peut aussi peindre.

L’outil que nous utilisons est ComfyUI — l’interface open source à base de nœuds pour Stable Diffusion, SDXL, SD 3.5 et FLUX.1. Elle a été bâtie par Comfyanonymous en 2023 et est devenue l’interface de facto des utilisateurs avancés de modèles de diffusion. Automatic1111 avait l’avance initiale; ComfyUI a gagné la finale parce que son graphe de nœuds vous laisse voir exactement ce que fait votre GPU. Crédit à qui de droit : rien de tout ceci n’existe sans que Stability AI ait publié les poids de SDXL ouvertement, sans que Black Forest Labs ait publié FLUX.1, et sans que Hugging Face héberge gratuitement tout l’écosystème.

Préambule honnête : ComfyUI a une courbe d’apprentissage plus raide qu’Ollama au premier contact. Pas parce que l’outil est moins bon — parce que la génération d’images est sincèrement plus complexe que le clavardage. Vous chaînez un modèle, un encodeur de texte, un VAE, un échantillonneur, un planificateur et un décodeur. Ollama cache tout ça derrière une CLI; ComfyUI le rend visible exprès, pour que vous puissiez le modifier. On ne sucrera pas la première heure. On vous amènera à une image FLUX.1 qui fonctionne à la fin de ce billet.

Voilà une couche de plus décentralisée. Votre nœud valide Bitcoin. Votre inférence LLM tourne sur votre métal. Maintenant, votre génération d’images aussi. Midjourney et DALL-E sont des abonnements limités en débit qui journalisent chaque prompt. ComfyUI, c’est un dossier sur votre disque.

Prérequis

GPU avec 12 Go+ de VRAM fortement recommandé. 8 Go fonctionne pour SDXL en 768×768 ou moins. FLUX.1 veut 16+ Go pour les variantes fp8. 24 Go — une RTX 3090 usagée — vous met FLUX.1 dev confortablement dans les mains. Voyez le billet RTX 3090 usagée pour LLM; la même carte qui domine les LLM locaux domine le territoire pleb de la génération d’images.
50+ Go d’espace disque libre. SDXL base, c’est ~6 Go. FLUX.1 schnell fp8, c’est ~12 Go plus les encodeurs de texte. SD 3.5 Large, c’est ~16 Go. Si vous commencez à collectionner les LoRA et les ContrôleNet, vous dépasserez 200 Go rapidement. Mettez ComfyUI sur un SSD — un chargement de modèle depuis NVMe n’a rien à voir avec un chargement depuis un disque à plateaux.
Python 3.10 ou plus récent. Les plebs Windows n’ont pas à l’installer eux-mêmes; le build portable embarque Python. Les plebs Linux l’installent via Python système ou conda.
Pilotes NVIDIA + CUDA 12.x. AMD fonctionne sous Linux via ROCm; c’est fonctionnel mais un chemin plus accidenté. Apple Silicon fonctionne via MPS; plus lent que CUDA mais correct pour expérimenter.
Un Ollama opérationnel n’est pas requis, mais la plupart des lecteurs arrivent ici avec. Faire tourner ComfyUI et Ollama sur le même Hashcenter est très bien — on couvre le partage de VRAM à la fin.

Installer ComfyUI

Trois chemins. Choisissez-en un.

Chemin 1 — Portable Windows (le plus facile pour la plupart)

Allez sur la page des sorties de ComfyUI. Téléchargez le ComfyUI_windows_portable_nvidia.7z le plus récent. C’est une grosse archive (~2 Go) parce qu’elle embarque Python, PyTorch, le runtime CUDA et l’application. Extrayez avec 7-Zip dans un endroit spacieux — C:\ComfyUI_windows_portable\ est le chemin canonique.

À l’intérieur du dossier extrait, double-cliquez sur run_nvidia_gpu.bat. Un terminal s’ouvre, torch charge, vous verrez une ligne comme To see the GUI go to: http://127.0.0.1:8188. Ouvrez cette URL dans votre navigateur. Vous y êtes.

Chemin 2 — Linux / installation manuelle

git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
python -m venv venv
source venv/bin/activate
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt
python main.py

Même endpoint : http://127.0.0.1:8188. Si vous voulez l’exposer sur le LAN, ajoutez --listen 0.0.0.0. Avertissement pour le pleb soucieux de sécurité : ComfyUI n’a pas d’authentification. Si vous le liez au LAN, mettez-le derrière un pare-feu.

Chemin 3 — Docker

Plusieurs images communautaires existent (yanwk/comfyui-boot, pytorch/pytorch + configuration manuelle). Faisable mais déconseillé pour une première installation — vous allez vous battre avec le passthrough GPU, les montages de volumes et les permissions en plus d’apprendre l’application. Revenez à Docker une fois que le natif fonctionne.

Capture d’écran : UI initial de ComfyUI avec le flux par défaut chargé sur le canevas

Comprendre le canevas

Avant de cliquer sur « Queue Prompt », prenez quatre-vingt-dix secondes pour lire le canevas. C’est la partie que les autres GUI vous cachent.

ComfyUI est à base de nœuds. Chaque boîte est une opération. Les boîtes sont reliées par des fils colorés — la couleur vous dit quel type de données transite (rose = modèle, orange = CLIP, jaune = VAE, bleu/rouge = latents ou images, brun = conditionnement texte). Quand vous cliquez sur Queue, ComfyUI parcourt le graphe de gauche à droite, exécute chaque nœud et passe les sorties dans les fils vers le nœud suivant.

Le flux par défaut a six nœuds alignés :

Load Checkpoint — charge le fichier de modèle (poids) depuis le disque en VRAM
CLIP Text Encode (Positive) — transforme votre prompt en tokens que le modèle comprend
CLIP Text Encode (Negative) — idem, pour ce que vous ne voulez pas dans l’image
Empty Latent Image — crée le « canevas vierge » dans l’espace latent (traduction pleb : l’espace d’image compressé dans lequel le modèle travaille réellement)
KSampler — l’étape de diffusion. Débruite du bruit aléatoire pour aboutir à votre image, guidé par les encodages texte
VAE Decode — convertit l’image latente (compressée) en pixels normaux
Save Image — écrit le PNG dans ComfyUI/output/

Ne supprimez pas le flux par défaut. Modifiez-le. Et quand vous le cassez, le bouton « Load Default » dans le menu de droite remet tout à zéro.

Le panneau Queue (en haut à droite) est votre bouton d’exécution. « Queue Prompt » fait tourner le graphe courant une fois. « Extra options → Batch count » le fait tourner N fois.

Capture d’écran : flux par défaut annoté avec des flèches pointant vers les sept nœuds clés

Première image : SDXL

On commence avec SDXL parce que c’est le plus petit tout-terrain. SD 1.5 est plus vieux et plus rêche. SD 3.5 Large est meilleur mais plus lourd. FLUX.1 est le joyau et on y va dans la prochaine section. SDXL, c’est le modèle « petites roues » du pleb — ~6 Go, deux encodeurs de texte, tourne sur tout ce qui a 8 Go+ de VRAM.

Téléchargez le modèle. Allez sur huggingface.co/stabilityai/stable-diffusion-xl-base-1.0. Sous « Files and versions », prenez sd_xl_base_1.0.safetensors (6,94 Go). .safetensors est le standard — ne téléchargez pas les fichiers .ckpt, ils peuvent contenir du code Python sérialisé arbitraire. Instinct de sécurité pleb, le même que pour du firmware non signé.

Déposez-le au bon endroit. Déplacez le fichier dans ComfyUI/models/checkpoints/sd_xl_base_1.0.safetensors. C’est le dossier que ComfyUI balaie au démarrage.

Rafraîchissez. Redémarrez ComfyUI ou cliquez sur le bouton « Refresh » en bas du menu de droite.

Sélectionnez le modèle. Sur le canevas par défaut, trouvez le nœud « Load Checkpoint ». Cliquez sur la liste déroulante des modèles. Choisissez sd_xl_base_1.0.safetensors.

Écrivez un prompt. Cliquez sur le nœud « CLIP Text Encode (Positive) » du haut. Effacez le texte par défaut. Tapez :

a pleb's mining shed at golden hour, antminer S21 glowing through a grimy window,
cinematic, 85mm, shallow depth of field, photorealistic

Mettez en file. Cliquez sur « Queue Prompt » dans le panneau en haut à droite. Vous verrez une bordure verte ramper dans le graphe de nœud en nœud à mesure que chaque étape s’exécute. 20 à 60 secondes plus tard, selon votre GPU, une image apparaît dans le nœud « Save Image » au bas.

Capture d’écran : première image SDXL générée dans le nœud de sortie, avec le prompt visible

Voilà la boucle complète. Prompt → latent → débruitage → décodage → PNG sur le disque (ComfyUI/output/ComfyUI_00001_.png). Tout ce qui suit est du raffinement.

Monter d’un cran vers FLUX.1

SDXL, c’est de la techno 2023. FLUX.1 est l’état de l’art actuel pour la génération d’images à poids ouverts, publié par Black Forest Labs (l’équipe qui a bâti le Stable Diffusion original chez Stability AI, puis est partie fonder BFL). Il comprend le langage naturel de façon nettement meilleure que SDXL, gère le texte dans les images, et a un palmarès plus propre sur les mains et l’anatomie. Si votre GPU peut le faire tourner, faites-le tourner.

Deux saveurs :

FLUX.1 schnell — licence Apache-2.0 (usage commercial permis). Échantillonnage en 4 étapes, rapide. Le défaut pleb.
FLUX.1 dev — licence de recherche non commerciale. Échantillonnage en 20 étapes, fidélité supérieure. Pour usage personnel / recherche seulement; ne livrez pas de produits bâtis dessus.

Choisissez la bonne précision pour votre VRAM :

fp16 — pleine précision. ~23 Go. Nécessite confortablement 32 Go+ de VRAM.
fp8 — demi-précision. ~12 Go. Tient dans 16–24 Go. « Sweet spot » du pleb.
Quantifié GGUF — quantifications communautaires (Q8, Q4). Descendant jusqu’à ~6 Go. Couvert dans notre explicatif sur la quantification. Mêmes principes qu’en quantification LLM — moins de précision, fichier plus petit, légère perte de qualité.

Téléchargez les morceaux. FLUX.1 est empaqueté en fichiers séparés — modèle, deux encodeurs de texte, VAE. Black Forest Labs les a séparés proprement, ce qui veut dire que vous téléchargez une fois et réutilisez entre les flux. Allez sur huggingface.co/black-forest-labs/FLUX.1-schnell et prenez :

flux1-schnell-fp8.safetensors → ComfyUI/models/unet/
ae.safetensors (le VAE) → ComfyUI/models/vae/

Puis prenez les encodeurs de texte depuis le dépôt d’exemples ComfyUI ou depuis comfyanonymous/flux_text_encoders sur Hugging Face :

t5xxl_fp8_e4m3fn.safetensors → ComfyUI/models/clip/
clip_l.safetensors → ComfyUI/models/clip/

T5-XXL est un gros encodeur de texte de Google (~5 Go). C’est pourquoi FLUX comprend si bien le langage naturel — SDXL utilise des encodeurs CLIP bien plus petits.

Chargez le flux. Ne bâtissez pas le graphe FLUX de zéro au premier jour. Allez sur github.com/comfyanonymous/ComfyUI_examples, trouvez le dossier flux, et téléchargez flux_schnell_example.json (ou glissez le PNG d’exemple dans le canevas ComfyUI — ComfyUI intègre les métadonnées du flux dans les PNG générés, ce qui veut dire que partager un PNG partage le graphe complet).

Dans ComfyUI, cliquez sur « Load » dans le panneau de droite et choisissez le JSON. Le canevas se remplit du graphe FLUX — sensiblement plus de nœuds qu’en SDXL. Dans chaque nœud « Load », choisissez les fichiers que vous venez de télécharger.

Capture d’écran : flux FLUX.1 schnell sur le canevas avec tous les nœuds visibles et annotés

Mettez en file. Une exécution schnell à 1024×1024 prend 8 à 15 secondes sur une 3090, en 4 étapes. Essayez le même prompt :

a pleb's mining shed at golden hour, antminer S21 glowing through a grimy window,
cinematic, 85mm, shallow depth of field, photorealistic

Le résultat semble notablement plus propre que SDXL. Les textures sont plus nettes. La lumière est plus physique. Le texte (si vous en avez demandé) est lisible.

Capture d’écran : exemple de sortie FLUX.1 schnell — même prompt qu’à la section SDXL pour comparaison

Ingénierie de prompt pour plebs

Deux modèles différents, deux styles de prompt différents. C’est l’erreur numéro un des débutants.

FLUX répond au langage naturel. Écrivez des phrases. Décrivez ce que vous voyez comme vous décririez une photo à un ami :

Un pleb en kangourou noir accroupi à côté d’un Antminer S21 ouvert, carte de contrôle à la main, lumière de lampe tungstène chaude, atelier de sous-sol, photoréaliste, pris au 85 mm à f/1,4.

SDXL aime les prompts structurés en étiquettes avec emphase optionnelle :

(pleb fixing antminer:1.2), warm tungsten lighting, hoodie, basement workshop, photorealistic, 85mm, bokeh, high detail, sharp focus

La syntaxe (phrase:1.2) augmente le poids de cette phrase de 20 %. (phrase:0.8) le diminue. N’abusez pas — plusieurs termes pondérés à 1,5 se disputent et produisent du bruit.

Les prompts négatifs (famille SDXL seulement; FLUX ne les utilise pas) sont les choses à exclure :

blurry, jpeg artifacts, watermark, text, low quality, deformed hands, extra fingers

Steps, CFG et sampler — les trois boutons :

Steps : combien d’itérations de débruitage. SDXL : 20–30. FLUX schnell : 4 (il a été distillé pour être aussi rapide). FLUX dev : 20. Plus n’est pas toujours mieux; il y a une courbe de rendements décroissants et vous surcuirez les images au-delà du « sweet spot ».
CFG (Classifier-Free Guidance) : à quel point l’échantillonneur suit strictement votre prompt. SDXL : 6–8. FLUX schnell : 1 (oui, un — schnell n’utilise pas de CFG). FLUX dev : 3,5. Trop haut et les images deviennent sursaturées et bizarres.
Sampler : le calcul qui fait le débruitage. euler, dpmpp_2m, dpmpp_sde sont tous de bons défauts. Changez-les après cent images, quand vous saurez ce que vous voulez changer.

Pour un artisanat de prompt plus poussé, r/StableDiffusion a des années de guides communautaires, et le dépôt d’exemples ComfyUI a des JSON de flux qui enseignent par l’exemple.

Nœuds personnalisés — ComfyUI Manager

Le seul module qui mérite d’être installé dès le premier jour, c’est ComfyUI-Manager, par ltdrdata.

cd ComfyUI/custom_nodes
git clone https://github.com/ltdrdata/ComfyUI-Manager.git

(Plebs sous Windows portable : cd ComfyUI_windows_portable/ComfyUI/custom_nodes puis le même git clone. Installez d’abord Git pour Windows si vous ne l’avez pas.)

Redémarrez ComfyUI. Un nouveau bouton « Manager » apparaît dans le menu de droite. Cliquez-le. Vous avez maintenant :

Installation en un clic de centaines de nœuds communautaires (ControlNet, IPAdapter, AnimateDiff, « face detailers », upscalers, toute la panoplie)
Scanner de nœuds manquants — déposez un JSON de flux d’ailleurs, obtenez la liste de ce qui manque, installez-les en un clic
Téléchargeur de modèles — récupère depuis Hugging Face / Civitai sans quitter l’interface
Gestionnaire de mises à jour pour ComfyUI lui-même et chaque nœud personnalisé installé

Capture d’écran : panneau d’installation ComfyUI-Manager avec une liste filtrée de nœuds communautaires

Avertissement sécurité pleb : les nœuds personnalisés sont du Python communautaire qui s’exécute avec les pleins privilèges de votre processus ComfyUI. Ils peuvent lire vos fichiers, accéder au réseau et modifier n’importe quoi sur disque. Les populaires (ControlNet Aux, IPAdapter Plus, Impact Pack, Efficiency Nodes) sont audités par la communauté et largement utilisés. Les nœuds obscurs à cinq étoiles et sans historique GitHub ne le sont pas. Les mêmes instincts qui vous éloignent du firmware non signé s’appliquent ici. Revoyez install.py avant d’installer quoi que ce soit d’inconnu.

L’angle Hashcenter

La génération d’images est en rafales. Mettez un lot en file, le GPU monte à fond pendant 30 secondes, puis idle. Le cycle de service ressemble beaucoup à l’inférence LLM — et c’est exactement pourquoi votre Hashcenter (la machine où tourne la charge, pas un créneau loué en datacenter) gère bien les deux charges. Si vous avez déjà médité l’argument thermique et de souveraineté pour les LLM locaux, vous l’avez déjà médité pour la génération d’images locale.

Faire tourner ComfyUI et Ollama sur la même boîte, c’est correct. Ils s’échangent la VRAM plutôt que de se la disputer. Ollama charge son modèle à la demande et le décharge après un délai d’inactivité configurable (5 minutes par défaut). ComfyUI charge les checkpoints quand vous mettez un flux en file et peut être configuré pour les garder résidents ou les décharger entre deux exécutions. Mettez OLLAMA_KEEP_ALIVE=0 pour Ollama si vous voulez qu’il décharge immédiatement après chaque clavardage, libérant la VRAM pour une file ComfyUI. Mettez le drapeau --cpu-vae à ComfyUI si vous voulez que le décodage VAE reste hors GPU.

Pour les plebs qui bâtissent une machine d’inférence dédiée à partir de matériel de minage retraité, le billet Du S19 à votre premier Hashcenter IA couvre la conversion du châssis à la charge. Pour l’argument thermique — pourquoi une boîte d’inférence toujours allumée est un gain net en climat froid — lisez Chauffer à l’inférence. La physique est la même qu’en minage : chaque watt tiré devient de la chaleur. Le sous-produit a simplement une autre saveur d’utile.

La suite

Vous avez maintenant une installation SDXL qui fonctionne et une installation FLUX.1 qui fonctionne. Directions à explorer :

ControlNet — conditionner la génération sur une image d’entrée. Transfert de pose, cartes de profondeur, composition guidée par les arêtes. S’installe via ComfyUI-Manager en deux clics.
LoRA — petits adaptateurs de fine-tuning (100 Mo – 500 Mo) qui enseignent au modèle de base un style, un personnage ou un sujet précis. Civitai en a des milliers; chargez-en un via le nœud Load LoRA.
Inpainting — régénérer une région masquée d’une image existante. Corriger des mains. Remplacer des arrière-plans. Vient gratuitement avec les modèles SDXL d’inpainting.
AnimateDiff / génération vidéo — chaîner des modèles de diffusion sur plusieurs images. Ambitieux, lent, gourmand en VRAM. À mettre de côté pour plus tard.
SD 3.5 Large — le fleuron 2024 de Stability AI, publié à poids ouverts. Alternative à FLUX pour les plebs qui préfèrent la famille de modèles de Stability.

Quand quelque chose casse — conflit de nœud personnalisé, OOM CUDA, modèle qui refuse de charger — le prochain billet Dépannage d’IA auto-hébergée couvre les modes de panne courants.

Si vous êtes arrivé ici sans le contexte plus large, revenez au Guide du pleb pour l’IA auto-hébergée pour la vue d’ensemble, ou au Manifeste pour une IA souveraine des Bitcoiners pour le pourquoi. Si vous n’avez pas encore configuré un frontend de clavardage pour Ollama, Open WebUI est le complément à ComfyUI — même philosophie, côté texte.

Vous avez installé ComfyUI. Vous avez roulé SDXL. Vous êtes passé à FLUX.1. Vous avez maintenant une pile de génération d’images locale qui rivalise avec Midjourney et DALL-E pour tout ce qui n’est pas à l’extrême pointe — et pour beaucoup de choses qui le sont. Privée. Locale. Non censurée. Sans abonnement, sans limite de débit, sans journal de prompts, sans mise à jour des conditions d’utilisation qui change discrètement ce qu’il vous est permis de créer.

Le marché fermé de la génération d’images dépend de votre ignorance que c’est possible. Midjourney facture 10–60 $/mois pour ce que votre GPU fait au prix de l’électricité. DALL-E facture à l’image. ComfyUI ne facture rien parce que Comfyanonymous, Stability AI, Black Forest Labs et Hugging Face ont choisi de le livrer ouvert. Vous le savez maintenant.

Une couche de plus décentralisée. Vos poids, vos prompts, vos pixels. Commencez par le Manifeste si vous voulez l’argument complet sur pourquoi ça compte — mais vraiment, vous le savez déjà.

Mining Profitability Calculator Calculate your mining revenue, electricity costs, and net profit with live Bitcoin data.

Try the Calculator

Bitmain Antminer S21 5,295.00 $CAD

Acheter l'Antminer S21

ComfyUI pour plebs : votre première génération d images locale

Prérequis

Installer ComfyUI

Chemin 1 — Portable Windows (le plus facile pour la plupart)

Chemin 2 — Linux / installation manuelle

Chemin 3 — Docker

Comprendre le canevas

Première image : SDXL

Monter d’un cran vers FLUX.1

Ingénierie de prompt pour plebs

Nœuds personnalisés — ComfyUI Manager

L’angle Hashcenter

La suite

D-Central Technologies

Articles connexes

Nostr sur l’IA auto-hébergée : apportez votre identité à votre propre stack d’inférence

Related products, repair, and setup paths