Si vous avez déjà flashé du firmware sur un ASIC à 3 heures du matin pendant que les ventilateurs vous hurlaient dessus, félicitations : vous êtes à quatre-vingt-dix pour cent du chemin pour auto-héberger votre propre IA. Les dix pour cent restants, c’est du vocabulaire et du calcul de VRAM.
Ceci est le pilier. Chaque guide d’IA pratique que nous publions renvoie ici. Lisez ceci une fois, mettez-le en favori, puis plongez dans les tutoriels quand vous serez prêts à installer quelque chose. Nous allons supposer que vous savez faire du SSH, éditer un fichier de configuration, et lire la sortie de nvidia-smi. Nous allons supposer que vous n’avez jamais touché à un LLM, que vous ne savez pas ce qu’est un token, et que vous n’avez jamais entendu le mot « quantification » prononcé à voix haute. Les deux suppositions coexistent chez la même personne — le pleb — et c’est exactement pour elle que cette piste a été écrite.
Orientons-nous.
Pourquoi auto-héberger de l’IA, tout simplement ?
La version courte : les mêmes raisons pour lesquelles vous faites tourner votre propre nœud Bitcoin.
Vie privée. Quand vous tapez dans ChatGPT, vos requêtes voyagent jusqu’à un rack en Virginie, sont journalisées, sont utilisées pour l’entraînement (selon le niveau et l’humeur des conditions d’utilisation de ce trimestre), et sont stockées indéfiniment. Quand vous tapez dans un modèle qui tourne sur une machine dans votre sous-sol, les paquets ne quittent jamais votre LAN. Vos questions médicales, votre planification financière, vos idées de business à moitié rédigées, vos notes privées — elles restent à vous. Personne ne les lit. Personne ne s’entraîne dessus. Elles n’existent pas en dehors de votre maison.
Latence. Un modèle local répond à l’instant où votre GPU finit de calculer. Pas d’aller-retour vers us-east-1. Pas de performance dégradée parce que quelqu’un à Francfort vient juste de demander un essai. Pour les assistants vocaux et les flux de travail en temps réel, c’est la différence entre « utilisable » et « enrageant ».
Increvable. Les fournisseurs d’API déprécient les modèles selon leur calendrier, pas le vôtre. Les limites de taux se resserrent. Les prix changent. Les filtres de sécurité deviennent plus agressifs et soudain votre requête parfaitement anodine est refusée parce qu’elle contient le mot « couteau ». Votre modèle local répond à chaque fois, pour toujours, exactement comme le jour où vous avez téléchargé les poids. Vous possédez l’intelligence comme vous possédez les clés de votre portefeuille.
Souveraineté. C’est le récit sur lequel nous revenons sans cesse chez D-Central : chaque morceau de votre vie qui dépend d’un tiers est un point de levier que quelqu’un d’autre détient. Vous avez décentralisé votre argent. Décentraliser votre intelligence est la suite logique. Une couche de plus décentralisée.
Coût. Un appel API de gamme moyenne coûte 0,01 à 0,10 $ selon le modèle et la longueur du contexte. Au-delà d’un usage occasionnel — aide au code, traitement de documents, contrôle vocal — vous atteignez un point d’équilibre avec un RTX 3090 usagé quelque part entre six et dix-huit mois. Passé ce point, l’inférence est effectivement gratuite. À l’échelle de D-Central, l’inférence locale bat les coûts d’API de 10 à 100 fois une fois le matériel payé.
Le compromis honnête. Nous n’allons pas vous mentir. Les modèles de pointe — GPT-4o, Claude Sonnet 4, Gemini 2.5 — sont encore mesurablement meilleurs que les modèles locaux pour les tâches les plus difficiles. Raisonnement complexe à plusieurs étapes, code à la pointe, synthèse de longs documents. Si vous avez besoin du meilleur absolu, les géants du cloud l’ont encore. Mais les modèles locaux ont comblé l’écart plus vite que quiconque l’avait prédit, et pour les 90 % de tâches quotidiennes — chat, rédaction, résumé, aide au code, génération d’images, contrôle vocal, prise de notes — un modèle local bien choisi est indiscernable de la pointe dans l’usage de tous les jours. Vous échangez les 5 % du sommet des capacités contre 100 % de souveraineté. Pour un pleb, ce n’est pas un choix difficile.
La pile à trois couches
L’IA auto-hébergée, c’est trois pièces. Une fois que vous les voyez comme trois pièces plutôt qu’une seule grosse masse, tout devient plus facile.
Couche 1 : Le modèle (les poids)
Un « modèle » est un fichier. Un gros — de 2 Go à 400 Go selon celui-ci — mais fondamentalement juste un fichier rempli de chiffres. Ces chiffres sont le résultat compressé de l’entraînement, où le modèle a ingéré d’énormes pans de texte (ou d’images, ou d’audio) et appris des motifs statistiques. Vous ne l’entraînez pas. Quelqu’un d’autre — Meta, Mistral, Google, Alibaba, DeepSeek, Black Forest Labs — l’a entraîné, a publié les poids, et vous les faites tourner. Pensez aux poids comme à la blockchain : rédigée une seule fois, téléchargée par tout le monde, calculée localement.
La sélection à poids ouverts, édition 2026 :
- Génération de texte (LLM) : Llama 3.1 et Llama 3.3 (Meta), Gemma 3 (Google), Qwen 2.5 et Qwen 3 (Alibaba), DeepSeek R1 (DeepSeek), Phi-4 (Microsoft), Mistral 7B et Mixtral (Mistral). Ce sont les géants sur les épaules desquels se tient la communauté de l’auto-hébergement.
- Génération d’images : SDXL (Stability AI), FLUX.1 dev et FLUX.1 schnell (Black Forest Labs).
- Audio (transcription) : Whisper v3 (OpenAI, à poids ouverts).
Chacun de ces projets a publié ses poids publiquement, et chacun d’eux mérite d’être crédité pour cela. Tout l’écosystème de l’IA auto-hébergée existe parce que ces laboratoires ont choisi l’ouverture. Nous nous tenons sur leurs épaules.
Couche 2 : Le runner (le moteur)
Le runner est le logiciel qui charge réellement le fichier modèle en VRAM et l’exécute. C’est là que la magie opère, et c’est là que Georgi Gerganov mérite une statue. Son projet, llama.cpp, est la fondation sur laquelle tout le mouvement de l’IA sur matériel grand public est bâti. Gerganov a trouvé comment faire tourner de grands modèles de langage sur des CPU et des GPU grand public avec une optimisation agressive, l’a écrit en pur C++, et l’a ouvert. Presque chaque outil que vous êtes sur le point d’installer utilise llama.cpp sous le capot quelque part.
Vos options de runner :
- llama.cpp — le socle. Compilez-le vous-mêmes, lancez depuis la ligne de commande. Contrôle maximum, accompagnement minimum.
- Ollama — un démon + CLI qui enveloppe llama.cpp avec une interface d’une simplicité désarmante.
ollama run llama3.1et vous avez un modèle. Pour 95 % des plebs, c’est par là qu’il faut commencer. Merci à l’équipe Ollama d’avoir bâti la rampe d’accès. - LMStudio — une GUI de bureau. Exceptionnel sur macOS, très bon sur Windows. Si vous préférez cliquer que taper, c’est le bon choix. L’équipe LMStudio a construit l’expérience de bureau la plus fluide de l’espace.
- vLLM — un serveur d’inférence à haut débit bâti pour quand vous avez besoin de servir de nombreux utilisateurs ou d’extraire le maximum de tokens par seconde. Démesuré pour l’installation maison d’un pleb, parfait pour un rack Hashcenter partagé.
- MLX — le framework natif d’Apple pour Apple Silicon. Si vous avez un Mac série M avec beaucoup de mémoire unifiée, MLX extrait des performances que llama.cpp ne peut pas égaler sur le même matériel.
Couche 3 : L’interface (comment vous lui parlez)
Avoir un modèle qui tourne dans un terminal, c’est cool pendant environ cinq minutes. Après quoi vous voulez une vraie interface.
- Terminal —
ollama runvous met en conversation dans un shell. Bien pour des tests rapides. - Interface Web — Open WebUI — c’est l’application phare pour les plebs. Tourne comme conteneur Docker, vous donne une interface identique à ChatGPT pointée vers votre Ollama local. Multi-utilisateur, téléversement de documents, RAG, bibliothèque de requêtes, entrée vocale. C’est ce qui fait passer l’IA auto-hébergée de « projet amusant » à « je m’en sers tous les jours ».
- Intégration VS Code — l’extension Continue branche un modèle local dans votre éditeur pour la complétion en ligne et le chat. Copilot, mais à vous.
- API directe — tout runner sérieux expose un endpoint HTTP compatible OpenAI sur localhost. Pointez n’importe quel outil d’IA existant vers
http://localhost:11434et la plupart d’entre eux fonctionnent tels quels.
L’analogie Bitcoin. Si vous êtes un pleb, vous avez déjà intériorisé cette forme. Le modèle, c’est la blockchain — les données, rédigées une seule fois, consommées partout. Le runner, c’est le logiciel de nœud — votre instance Knots ou Core, la chose qui exécute réellement le protocole. L’interface, c’est le portefeuille — Sparrow, Zeus, peu importe ce que vous utilisez pour interagir avec. Même topologie, charge utile différente. Vous savez déjà comment penser à cela.
Matériel — qui fait tourner quoi
Maintenant le calcul que personne n’explique d’entrée de jeu : la VRAM est la contrainte qui détermine tout. Un modèle doit tenir dans la mémoire vidéo de votre GPU pour tourner à vitesse utile. La RAM ne remplace pas (bon, elle remplace, mal, à 1/20e de la vitesse — llama.cpp peut décharger des couches vers le CPU mais vous allez pleurer). Si vous retenez une seule chose de cet article : quand vous voyez un modèle annoncé comme « 70B », cela signifie 70 milliards de paramètres, et en précision complète il lui faut à peu près 140 Go de VRAM. Quantifié en Q4, il lui faut environ 40 Go. Voilà le calcul.
Guide VRAM pour plebs, approximatif mais honnête :
- 8 Go (RTX 3060, 3070, 4060) : Phi-3.5, Gemma 3 4B, Llama 3.2 3B. Petit mais vraiment utile pour chat, résumé, et aide au code légère. Niveau de départ parfaitement bon.
- 12 Go (RTX 3060 12GB, 4070) : Llama 3.1 8B à quantifications correctes, Gemma 3 12B quantifié, génération d’images SDXL. Le niveau « je prends ça au sérieux ».
- 16 Go (RTX 4060 Ti 16GB, 4080) : Gemma 3 27B quantifié, FLUX.1 dev pour la génération d’images, marge pour faire tourner un modèle plus des embeddings simultanément.
- 24 Go (RTX 3090, 4090, 5090) : Le point idéal des plebs. Llama 3.1 70B en Q4, Qwen 3 32B, distillations DeepSeek R1, FLUX.1 en qualité complète. C’est le niveau où le local cesse de ressembler à un compromis.
- 48 Go et plus (RTX 3090/4090 en double, ou RTX 6000 Ada) : Modèles 70B à de meilleures quantifications, SDXL et FLUX qui tournent en parallèle, service à plusieurs utilisateurs sans contention. Le niveau Hashcenter domestique.
L’angle spécifique au minage. Si vous gravitez autour du minage Bitcoin depuis assez longtemps, vous avez accès à des chaînes d’approvisionnement de GPU usagés auxquelles la plupart des gens n’ont pas accès. Des RTX 3090 usagés issus de rigs Ethereum décommissionnés. Des Nvidia P40 tirés de serveurs d’entreprise. Des RTX 4090 de gens qui passent aux 5090. Le même réseau pleb qui trouve des S19 usagés trouve des 3090 usagés. C’est un avantage injuste et vous devriez l’utiliser. Voyez notre plongée détaillée sur Le RTX 3090 usagé pour les LLM en 2026 et le plan de migration à Du S19 à votre premier Hashcenter IA.
Un mot sur la terminologie qu’il faut clarifier maintenant : quand nous parlons d’un Hashcenter, nous désignons une installation qui combine du matériel de minage avec du calcul — hachage Bitcoin et inférence IA partageant la puissance, le refroidissement, et l’espace. Les Hashcenters ne sont pas des datacenters. Les datacenters sont construits sur mesure pour des charges informatiques d’entreprise à des densités, profils de refroidissement, et structures de coûts très différents. Un Hashcenter est à l’échelle pleb, conscient de la réutilisation de la chaleur, et optimisé pour SHA-256 et l’inférence GPU tournant côte à côte. Vous pouvez absolument en bâtir un dans un sous-sol ou un garage. C’est tout l’objet.
La terminologie que les plebs doivent connaître
Petit dictionnaire. Apprenez ces sept mots et vous comprendrez 90 % de chaque article de blog, tutoriel YouTube, et fil Hacker News sur l’IA auto-hébergée.
- Token — pas un mot. Environ trois quarts de mot en moyenne. Le modèle lit et écrit en tokens. « Bonjour monde » fait trois tokens. « Antidisestablishmentarianism » en fait sept. Quand vous voyez « longueur de contexte : 8192 », cela signifie que le modèle peut garder environ 6 000 mots en mémoire de travail d’un coup.
- Fenêtre de contexte — le nombre maximal de tokens que le modèle peut considérer d’un coup, y compris votre requête et sa réponse. Plus grand contexte = il peut lire des documents plus longs mais a besoin de plus de VRAM.
- Paramètres (B) — milliards de paramètres. Le « 8B » ou « 70B » dans le nom d’un modèle. Plus de paramètres signifie généralement des réponses plus intelligentes mais signifie assurément plus de VRAM. Règle approximative : paramètres × 2 = Go nécessaires en précision complète, ÷ 4 pour Q4 quantifié.
- Quantification — l’art de compresser les poids d’un modèle pour utiliser moins de VRAM avec une perte de qualité minimale. Q8 est quasiment sans perte. Q4 est le point idéal (petit, rapide, à peine pire que la précision complète). Q2 est là où ça commence à devenir bête. Plongée détaillée : La quantification expliquée : GGUF, Q4, Q8, fp16.
- Inférence — l’acte de faire tourner un modèle entraîné pour obtenir une sortie. Distinct de l’entraînement, qui consiste à construire le modèle en premier lieu. Les plebs font de l’inférence. Les laboratoires font de l’entraînement.
- Tokens par seconde (tok/s) — mesure de débit. La vitesse de lecture humaine est d’environ 5 tok/s. 20 tok/s semble rapide. 60+ tok/s semble instantané. En dessous de 5 tok/s, c’est douloureux.
- GGUF — le format de fichier utilisé par llama.cpp et Ollama. Si vous téléchargez un modèle depuis Hugging Face et qu’il se termine par
.gguf, il fonctionnera avec votre runner. Si c’est.safetensors, vous pourriez avoir besoin d’une étape de conversion ou d’un runner différent. - Modèle de pointe (frontier model) — les géants fermés du cloud : GPT-4o, Claude Sonnet 4, Gemini 2.5. Les modèles locaux sont, par définition, « pas de pointe ». Mais pour la plupart des tâches pleb, l’écart est plus petit que ce que le marketing suggère.
L’installation pleb minimale viable
Nous la garderons en teaser. Les tutoriels détaillés vivent dans leurs propres articles — voici la forme que vous allez construire.
-
Installez Ollama. Dix minutes, une commande sur Linux, un installateur natif sur macOS et Windows. Vous avez maintenant un démon sur localhost:11434 qui peut faire tourner n’importe quel modèle GGUF que vous tirez. Tutoriel complet : Installer Ollama en 10 minutes.
-
Tirez un modèle.
ollama pull llama3.1:8bet vous avez le modèle 8B de Meta sur disque. Commencez petit. Testez qu’il répond àollama run llama3.1. Confirmez l’usage de VRAM avecnvidia-smi. -
Installez Open WebUI. Un conteneur Docker, pointé vers votre Ollama, vous donne l’interface identique à ChatGPT. C’est l’étape où l’IA auto-hébergée devient quelque chose que vous utiliserez vraiment tous les jours. Voir : Open WebUI : l’expérience ChatGPT, mais à vous.
-
Choisissez un runner. Si Ollama vous semble limitant plus tard, comparez-le à LMStudio et à llama.cpp brut : LMStudio vs Ollama vs llama.cpp : quel runner pour les plebs ?.
-
Ajoutez la génération d’images. ComfyUI est l’outil de génération d’images à base de nœuds qui déverrouille SDXL et FLUX. C’est plus compliqué qu’Ollama mais vastement plus puissant. Guide : ComfyUI pour les plebs.
Toute la pile — modèle de chat + interface web + génération d’images — c’est une soirée d’installation pour quelqu’un qui a déjà flashé du firmware. Vous allez taper un ou deux murs. Vous allez les chercher sur Google. Vous allez continuer. C’est le même rythme que votre premier nœud Bitcoin. Vous connaissez le rythme.
Que faire quand ça brise
Ça va briser. Quelque chose ne va pas charger, le GPU ne sera pas détecté, vous aurez une erreur de mémoire insuffisante cinq secondes après le début d’une requête, ou les tokens vont couler à 0,3 tok/s parce que quelque chose a silencieusement basculé sur le CPU. C’est normal. Ça fait partie de la vie de pleb. Gérer une pile d’IA auto-hébergée capricieuse n’est pas différent de gérer un ASIC capricieux — vérifiez les logs, vérifiez la config, vérifiez les câbles (ou la version de CUDA), et cherchez la chaîne d’erreur exacte sur Google.
Pour les défaillances courantes — CUDA non détecté, OOM au chargement du modèle, tokens lents malgré un bon GPU, réseau Docker qui bouffe votre connexion Open WebUI — nous tenons une référence de dépannage continue à Dépannage de l’IA auto-hébergée.
Au-delà du chat — les vrais cas d’usage
Le chat est le hello world. Les trucs vraiment utiles commencent quand votre modèle local est branché sur votre infrastructure pleb existante.
- Contrôle vocal Home Assistant. Remplacez Alexa et Google Home par un modèle local qui contrôle vos lumières, votre thermostat, et vos scènes sans que rien ne quitte votre LAN. Remplacement de frontière qui respecte votre maison.
- Obsidian et prise de notes. Résumez des notes, générez des plans, répondez à des questions sur votre propre carnet. RAG sur votre second cerveau, sans que votre second cerveau ne quitte votre maison.
- Assistant de code. L’extension Continue pour VS Code vous donne la complétion en ligne et le chat contre votre modèle local. Copilot, mais à vous, et il ne voit pas votre code propriétaire.
- RAG privé sur vos documents. Pointez un système de récupération vers vos dossiers fiscaux, vos manuels, le wiki de votre entreprise — posez des questions, obtenez des réponses, rien n’est téléversé nulle part.
- Génération d’images et de vidéos. ComfyUI pour les images fixes. Flux de travail AnimateDiff pour les clips. Un rack qui mine en arrière-plan et génère des images à la demande.
Les tutoriels d’intégration vivent à Connectez votre IA auto-hébergée à Home Assistant, Obsidian, Shortcuts. Si vous prévoyez de réutiliser la chaleur de minage pendant que vous y êtes, c’est un genre à part entière : Chauffer votre maison avec l’inférence. Les charges d’inférence ne sont pas aussi stables que les charges de hachage, mais ce sont de vrais watts, de la vraie chaleur, et la thermodynamique fonctionne de la même manière — voyez la gamme de chaufferettes de minage pour le côté mécanique de la réutilisation de chaleur.
Pour les ambitieux — plebs qui reconfigurent un vieux rack S19 pour faire tourner des GPU pour l’inférence — le build complet est cartographié à Du S19 à votre premier Hashcenter IA.
Le cadre de la souveraineté
Vous avez déjà bâti un Hashcenter pour Bitcoin. Vous avez câblé les disjoncteurs, vous avez tiré les prises réseau, vous avez géré la chaleur et le bruit et les voisins et les compagnies d’électricité. Cette installation — cette expertise, cet espace, cette marge de puissance — c’est la même installation qui peut héberger votre intelligence.
Vous n’avez pas besoin d’OpenAI. Vous n’avez pas besoin d’un abonnement à 20 $/mois qui devient plus restrictif chaque trimestre. Vous n’avez pas besoin d’une clé API qui peut être révoquée. Vous n’avez pas besoin d’envoyer vos requêtes à un tiers qui va absolument, finalement, à un moment donné, subir une brèche, une citation à comparaître, ou un changement d’idée sur ce qu’il veut bien répondre.
Ce dont vous avez besoin, c’est du matériel que vous possédez probablement déjà ou que vous pouvez vous procurer par les mêmes réseaux qui vous ont fourni vos rigs de minage. Une soirée d’installation. Quelques fichiers de configuration. Et le même instinct de souveraineté qui vous a fait faire tourner votre propre nœud Bitcoin en premier lieu.
Chez D-Central, nous bâtissons vers ce récit au niveau du produit aussi. DCENT_OS, DCENT_axe, DCENT_Toolbox, et notre prochain DCENT_Inference OS sont tous en bêta fermée, licenciés GPL-3.0, avec une bêta publique qui démarre à l’été 2026. De la même façon que DCENT_OS vous donne la souveraineté sur votre firmware de minage — construit sur les épaules des projets de firmware qui l’ont précédé — DCENT_Inference OS est notre contribution pour donner aux plebs la souveraineté sur leur pile d’inférence. Nous ne remplaçons pas Ollama ou llama.cpp. Nous ajoutons une couche de plus décentralisée, ajustée pour le cas d’usage Hashcenter, et nous publions les sources pour que vous n’ayez jamais à nous faire confiance.
Pour l’ancrage philosophique derrière tout cela, lisez le Manifeste de l’IA souveraine. C’est le pourquoi. Cet article, c’est le quoi. Les tutoriels liés, c’est le comment.
Maintenant, allez installer quelque chose. Le Hashcenter que vous avez bâti pour sécuriser le réseau peut aussi sécuriser votre intelligence. Une couche de plus décentralisée.
Ceci est l’article pilier de la piste de contenu d’auto-hébergement de D-Central. Chaque guide d’IA pratique sur ce site renvoie ici. Si vous repérez une erreur factuelle, un crédit manquant à un projet open source, ou un tutoriel que nous devrions lier, dites-le-nous — la précision est tout ce qui compte.
