Voici la vraie raison pour laquelle la plupart des plebs paient vingt dollars par mois à OpenAI : ce n’est pas la fenêtre de clavardage. La fenêtre de clavardage est le produit d’appel. Ce que vous achetez réellement, c’est un moteur conversationnel qui se boulonne à tout le reste que vous utilisez — l’autocomplétion de votre IDE, le transcripteur de mémos vocaux, l’application de notes qui répond à des questions sur votre propre écriture, la domotique qui éteint le disjoncteur du cabanon quand vous le demandez. ChatGPT gagne son abonnement parce qu’il fait des choses, pas parce qu’il parle.
La plupart des plebs qui installent Ollama ne relient jamais les points. Ils finissent avec un chatbot local très onéreux qu’ils oublient d’ouvrir, pendant que l’abonnement se renouvelle.
Ce billet, c’est la plomberie. Ollama expose une API compatible OpenAI sur le port 11434. Chaque outil bâti pour parler à OpenAI peut parler à Ollama — il suffit de changer l’URL de base. À la fin de cette marche à suivre, votre IA auto-hébergée répondra à des commandes vocales dans Home Assistant, lira votre coffre Obsidian, alimentera l’autocomplétion de VS Code et trônera en icône sur l’écran d’accueil de votre téléphone. Rien ne remonte vers un hyperscaler. Tout tourne sur votre Hashcenter, en bas, qui ronronne.
Annulez l’abonnement. Gardez les capacités. C’est le marché.
La clé d’API compatible OpenAI
Avant tout le reste, la pièce dont chaque intégration dépend.
Ollama — bâti par l’équipe Ollama, et nous nous tenons sur ses épaules ici — livre deux endpoints. Son API native vit à /api/chat. Sa couche de compatibilité OpenAI vit à /v1/chat/completions. Ce second endpoint imite le format JSON requête/réponse d’OpenAI assez fidèlement pour que la grande majorité des outils écrits contre le SDK OpenAI fonctionnent quand on les pointe ailleurs.
Ce que chaque outil de ce billet attend de vous :
- URL de base :
http://votre-hashcenter.local:11434/v1(ou une IP — tout ce à quoi votre Hashcenter répond sur votre LAN) - Clé d’API : n’importe quelle chaîne non vide. Ollama ne la valide pas, mais la plupart des bibliothèques clientes refusent d’envoyer une requête avec le champ vide. Tapez
ollama, un pseudonyme, ou les quatre premiers octets du bloc 840 000. Ollama s’en moque. - Nom de modèle : ce que vous avez téléchargé —
llama3.1:8b,qwen2.5-coder:7b,gemma3:4b, etc. Lancezollama listsur votre Hashcenter pour voir.
Un prérequis qui piège tout le monde la première fois : Ollama, par défaut, s’attache uniquement à 127.0.0.1, ce qui veut dire qu’il ne répond qu’aux requêtes de sa propre machine. C’est correct si votre Hashcenter est aussi votre poste quotidien, inutile sinon. Exposez-le au LAN en définissant OLLAMA_HOST=0.0.0.0 dans l’environnement avant que Ollama démarre. Sous Linux avec systemd, c’est une ligne Environment= dans le fichier de service; sous macOS, c’est launchctl setenv OLLAMA_HOST 0.0.0.0; sous Windows, c’est une variable d’environnement système. Redémarrez Ollama après.
Si un outil ne joint pas l’API, vérifiez ceci d’abord. Plus de dépannage dans le guide de dépannage d’IA auto-hébergée.
Intégration 1 — Home Assistant (voix et automatisation)
Si vous opérez déjà Home Assistant, arrêtez de lire et allez configurer ceci d’abord. C’est l’intégration la plus satisfaisante de cette liste parce qu’elle remplace Alexa, Google Assistant et Siri par quelque chose qui ne répond à aucun annonceur.
Home Assistant a ajouté une intégration Ollama de première partie dans la version 2024.7. Crédit à qui de droit — l’équipe Home Assistant et les gens de Nabu Casa derrière ont fait le travail difficile de brancher les pipelines vocaux à des LLM locaux, et toute cette intégration n’existerait pas sans leur effort.
Configuration
- Dans Home Assistant, allez à Paramètres → Appareils & services → Ajouter une intégration
- Cherchez Ollama
- Entrez l’URL :
http://votre-hashcenter.local:11434 - Choisissez un modèle dans la liste (elle énumérera ce que vous avez téléchargé). Llama 3.1 8B est un défaut solide; Gemma 3 4B est plus rapide si votre Hashcenter est modeste.
- Facultatif : cochez « Contrôler Home Assistant » pour que le modèle puisse réellement exécuter des appels de service, pas seulement clavarder
Le brancher dans Assist
Le pipeline vocal de Home Assistant s’appelle Assist. Pour en faire le cerveau Ollama :
- Paramètres → Assistants vocaux → Ajouter un assistant
- Agent de conversation : votre intégration Ollama
- Parole-vers-texte et texte-vers-parole : au choix (Whisper + Piper, tous deux locaux, sont les choix cypherpunks)
Maintenant, chaque commande vocale — depuis une borne à mot-clé, une app mobile ou un navigateur — passe par votre modèle local.
Ce que vous pouvez en faire
- « Éteins le disjoncteur du cabanon. » Home Assistant expose vos appareils et services au modèle; le modèle analyse l’intention et appelle le bon service.
- « Est-ce que l’ASIC mine toujours ? » Exposez un capteur depuis ce que vous utilisez pour surveiller vos mineurs (Home Assistant a des intégrations pour la plupart des firmwares via leurs API), et posez la question en langage courant.
- « Dis-moi combien le chauffage m’a fait économiser ce mois-ci. » Combinez un capteur d’énergie avec un gabarit mathématique; le modèle lit l’état et formule la réponse.
- « Mets le garage à 18 °C quand le tarif de nuit commence. » Automatisations rédigées par le modèle, raffinées par vous.
Le meilleur, ce ne sont pas les fonctionnalités. C’est que rien ne quitte le LAN. Votre voix, votre intention, l’état de votre maison — tout reste dans le bâtiment. Alexa ne l’offrira jamais. Google ne l’offrira jamais. Ils ne peuvent pas; leur modèle d’affaires dépend du contraire.
Intégration 2 — Obsidian (notes intelligentes sur votre propre écriture)
Obsidian est l’app de prise de notes préférée de beaucoup de plebs parce que c’est une pile de fichiers markdown en texte brut sur votre disque, pas un service infonuagique. Crédit à l’équipe Obsidian pour ce choix de conception — c’est pourquoi les intégrations IA « local d’abord » ont même du sens ici.
Deux modules communautaires comptent pour nos fins :
- Copilot for Obsidian par Logan Yang — clavardage dans l’éditeur, Q&R sur la note courante ou sur tout le coffre, prise en charge d’un backend Ollama personnalisé. On se tient sur les épaules de Logan pour celui-là.
- Smart Connections par Brian Petro — recherche sémantique sur votre coffre, avec réponse façon RAG. Prend aussi en charge Ollama.
Les deux font des choses similaires avec une ergonomie différente. Essayez les deux; gardez celui qui colle à votre cerveau.
Configuration : Copilot for Obsidian
- Obsidian → Paramètres → Modules communautaires → Parcourir → « Copilot » → installez et activez
- Paramètres de Copilot → Fournisseurs de modèle → ajoutez un fournisseur personnalisé
- Type de fournisseur : Ollama (ou « Compatible OpenAI » si l’option Ollama n’est pas dans votre version)
- URL de base :
http://votre-hashcenter.local:11434/v1 - Clé d’API :
ollama(rappelez-vous, Ollama ne valide pas — mais le champ veut quelque chose) - Nom de modèle :
llama3.1:8bou ce que vous avez téléchargé - Sauvegardez, liez un raccourci à « Copilot : Basculer la fenêtre de clavardage »
Configuration : Smart Connections (ajoute du RAG)
Smart Connections fait de la recherche sémantique, ce qui veut dire qu’il faut un modèle d’embeddings par-dessus le modèle de clavardage. Les embeddings sont de courtes empreintes mathématiques de vos notes — le module passe chaque note dans un modèle d’embeddings une fois pour l’empreindre, puis quand vous posez une question, il empreint la question et va chercher les notes aux empreintes les plus proches. Voilà le Retrieval-Augmented Generation (RAG) en un paragraphe. C’est ainsi que vous clavardez avec vos propres documents sans enfoncer chaque note dans le prompt.
Téléchargez l’embedder sur votre Hashcenter :
ollama pull nomic-embed-text
Crédit à Nomic — nomic-embed-text est libre, à poids ouverts et tape bien au-dessus du nombre de tokens qu’il pèse. Puis dans Smart Connections : réglez le fournisseur de LLM sur Ollama, le modèle de clavardage sur llama3.1:8b, le modèle d’embeddings sur nomic-embed-text. Laissez-le indexer votre coffre (pause-café — la première passe prend un moment pour un gros coffre), et c’est réglé.
Ce que vous pouvez en faire
- « Résume tout ce que j’ai écrit sur l’exploitation en 240 V le mois dernier. » Le pipeline RAG attrape les notes pertinentes; le LLM résume.
- « Quelles questions ai-je laissées sans réponse dans ma recherche sur le minage ? » Fonctionne étonnamment bien.
- « Rédige un billet de blogue à partir de mes notes taguées #btc-energie. » Ce ne sera pas un billet fini, mais ça vous donne un échafaudage en quelques secondes.
- « Trouve où j’ai écrit sur le remplacement du PSU du S19. » La recherche sémantique trouve des paraphrases que la recherche par mot-clé manque.
Rien ne quitte la machine. Vos pensées à moitié finies, vos idées fraîches, vos brouillons inédits — pas de fourrage d’entraînement pour un labo de pointe, pas dans un panier S3 quelque part. À vous.
Intégration 3 — VS Code avec Continue (autocomplétion « local d’abord »)
L’outil le plus susceptible de justifier l’existence de votre Hashcenter à n’importe quel pleb développeur hésitant.
Continue est l’alternative open source à GitHub Copilot. C’est une extension VS Code (et JetBrains) qui fait la complétion en ligne, le clavardage sur sélection, l’édition sur sélection et la génération de commandes de terminal. Elle prend en charge Ollama nativement. Le travail de l’équipe Continue est ce qui rend l’IA IDE « local d’abord » pratique pour des humains normaux, et nous nous tenons sur leurs épaules pour toute cette intégration.
Configuration
- VS Code → Extensions → cherchez Continue → installez
- Cliquez sur l’icône de la barre latérale Continue
- Ouvrez le fichier de configuration (Continue affiche un bouton; le fichier vit à
~/.continue/config.jsonou au JSON sousconfig.yamlsur les versions récentes) - Ajoutez un modèle Ollama :
{
"models": [
{
"title": "Qwen 2.5 Coder 7B",
"provider": "ollama",
"model": "qwen2.5-coder:7b",
"apiBase": "http://votre-hashcenter.local:11434"
}
],
"tabAutocompleteModel": {
"title": "Qwen 2.5 Coder 1.5B",
"provider": "ollama",
"model": "qwen2.5-coder:1.5b",
"apiBase": "http://votre-hashcenter.local:11434"
}
}
Deux modèles : un plus gros pour le clavardage, un tout petit rapide pour l’autocomplétion en ligne. Le modèle d’autocomplétion doit répondre en ~200 ms pour être agréable; un modèle 1.5B sur un GPU moderne est dans cette fenêtre.
Choix de modèles
qwen2.5-coder:7b— clavardage et édition. Crédit à l’équipe Qwen d’Alibaba; la gamme Qwen Coder est sincèrement compétitive face aux modèles fermés sur les tâches de code.qwen2.5-coder:1.5b— autocomplétion. Petit, rapide, assez précis.deepseek-coder-v2:16b— si votre Hashcenter a la VRAM et que vous voulez des suggestions de clavardage de qualité supérieure. Crédit à DeepSeek pour avoir ouvert les poids d’un modèle de code à la frontière.
Ce que vous pouvez en faire
- Complétion en ligne au fil de la frappe — suggestions en texte fantôme comme Copilot.
- Surlignez du code → Cmd/Ctrl+L → « explique ceci » — la sélection part dans la barre latérale de clavardage.
- Surlignez du code → Cmd/Ctrl+I → « renomme foo en quelque chose qui a du sens » — édition sur place avec un diff à accepter ou refuser.
- Cmd/Ctrl+K dans le panneau terminal — langage naturel vers commande shell. « Trouve tous les fichiers de plus de 100 Mo modifiés la semaine dernière » → une vraie invocation
find.
Aucun code ne quitte votre machine. Personne n’entraîne sur votre travail propriétaire. Personne ne journalise vos prompts pour deviner ce que votre entreprise bâtit.
Intégration 4 — Apple Shortcuts (votre téléphone et Mac, sans app)
L’intégration qui convertit les sceptiques, parce qu’elle tient dans une poche.
Apple Shortcuts (Raccourcis) peut appeler n’importe quel endpoint HTTP. C’est tout ce qu’il faut. Crédit à l’équipe Shortcuts d’Apple pour avoir bâti un outil d’automatisation sans code assez général pour parler du JSON arbitraire à des serveurs arbitraires — il n’a jamais été conçu pour l’intégration LLM, mais il fait parfaitement l’affaire.
Prérequis : joindre votre Hashcenter depuis hors du LAN
Votre téléphone n’est pas toujours sur votre Wi-Fi. Si vous voulez que Shortcuts fonctionne partout, posez un VPN en maille entre votre téléphone et votre Hashcenter. Tailscale est le choix usuel; le billet sur Open WebUI couvre la configuration. Une fois sur le tailnet, votre Hashcenter a un nom stable comme hashcenter.ts.net qui se résout partout.
Construire le raccourci
Ouvrez l’app Raccourcis → Nouveau raccourci. Ajoutez les actions dans cet ordre :
- Demander une entrée — invite : « Que voulez-vous demander ? », type d’entrée : Texte
- Action Texte — construisez le corps JSON. Collez :
json
{
"model": "llama3.1:8b",
"messages": [{"role": "user", "content": "Entrée fournie"}]
}
Touchez « Entrée fournie » et remplacez par la variable magique de l’étape Demander une entrée.
3. Obtenir le contenu de l’URL
– URL : http://hashcenter.ts.net:11434/v1/chat/completions
– Méthode : POST
– En-têtes : Content-Type: application/json, Authorization: Bearer ollama
– Corps de requête : JSON → choisissez la sortie de l’étape Texte
4. Obtenir la valeur du dictionnaire — chemin : choices.0.message.content
5. Afficher le résultat
Nommez-le « Demander au Hashcenter ». Ajoutez-le à votre écran d’accueil. Touchez, parlez (iOS offre un bouton de dictée dans l’invite de texte), obtenez une réponse en quelques secondes.
Ce que vous pouvez en faire
- « Traduis cette phrase en français pour mon fournisseur au Québec. »
- « Rédige un tweet sur la hauteur de bloc d’aujourd’hui. » (Enchaînez d’abord une étape Obtenir URL vers mempool.space.)
- « Résume mes cinq derniers mémos vocaux. » (Utilisez l’action Transcrire l’audio — locale sur iPhone — puis injectez le résultat.)
- « Explique ce code d’erreur ASIC. »
C’est le moment où le pleb réalise : j’ai mon propre ChatGPT privé en app. Sur mon téléphone. Qui tourne sur mon propre matériel. Aucun abonnement. Aucune boutique d’applications. Aucune télémétrie.
Intégration 5 — Courriel et productivité (brièvement)
Les intégrations de cette section sont encore émergentes mais méritent d’être connues.
- Thunderbird + extensions LLM locales — une poignée d’extensions communautaires branchent désormais des modèles locaux dans le client courriel de Mozilla pour la rédaction de réponses et le résumé. L’écosystème est naissant; cherchez sur le site des modules et prenez ce qui est à jour.
- Raycast (macOS) — le lanceur a des extensions communautaires qui frappent Ollama. Si vous vivez dans Raycast, une extension
hashcenterest un gain rapide de qualité de vie. - Logseq / Reflect / autres apps de notes — la plupart ont des modules Ollama communautaires dans le même esprit que ceux d’Obsidian. Si votre outil de notes n’est pas Obsidian, cherchez « Ollama » dans son répertoire de modules.
Gardez l’oreille collée au sol. Les outils émergent plus vite que les billets de blogue ne peuvent les suivre.
Intégration 6 — RAG sur vos propres documents
Nous avons couvert le RAG de base dans le billet Open WebUI — glissez un PDF dans le clavardage, posez des questions, c’est fait. C’est suffisant pour 90 % des plebs.
Si vous voulez aller plus loin — une application RAG dédiée sur un corpus organisé, pas seulement des dépôts ad hoc de documents — deux options :
- LlamaIndex — bibliothèque Python pour bâtir des pipelines RAG. Pointez son LLM vers Ollama, son embedder vers
nomic-embed-textd’Ollama, et vous avez un ChatGPT privé programmable sur n’importe quels documents. Crédit à l’équipe LlamaIndex. - LangChain — créneau similaire, ergonomie différente. Aussi compatible Ollama.
À quoi c’est bon : un corpus privé de chaque livre blanc Bitcoin, manuel de rig de minage, changelog de firmware et transcription de conférence que vous avez collectés. Indexez-le une fois, clavardez avec lui pour toujours. Un ingénieur de minage avec un disque bien indexé est soudain plus capable qu’un autre avec un abonnement ChatGPT — parce que le modèle sur son Hashcenter connaît sa bibliothèque, pas l’Internet public gratté.
C’est le dividende du RAG « local d’abord » : la connaissance compose pour vous, pas pour le service.
Le proxy LiteLLM (astuce pour pleb-puissance)
Optionnel, mais bon à savoir.
LiteLLM est un proxy compatible OpenAI qui s’interpose entre vos outils et un zoo de fournisseurs backend. Il parle Ollama, Anthropic, OpenAI, Google, OpenRouter — tout. Crédit à l’équipe LiteLLM pour l’abstraction unifiée.
Pourquoi un pleb pourrait le vouloir :
- Un endpoint, plusieurs modèles. Vos outils pointent tous vers votre instance LiteLLM. Derrière, vous pouvez avoir sept modèles locaux plus un repli distant, les permuter librement, et rien en aval ne s’en soucie.
- Limitation de débit et budgets. Si vous ouvrez un jour une route distante pour quelque chose de précis, LiteLLM impose des plafonds.
- Journalisation. Vous pouvez voir chaque requête qui a frappé votre pile IA, à travers chaque outil.
- Clés virtuelles. Donnez des clés différentes à différents outils pour pouvoir révoquer ou limiter individuellement.
Installation :
pip install litellm[proxy]
litellm --config /chemin/vers/config.yaml
Un exemple de config pointe vers Ollama et expose des endpoints au format OpenAI sur :4000. Vos outils changent simplement leur URL de base de :11434/v1 à :4000/v1 et continuent de fonctionner. Doc complète sur docs.litellm.ai.
Démesuré pour un outil et un modèle. Justifié dès que vous opérez quatre outils, deux modèles locaux et que vous voulez de la vraie observabilité.
La perspective Hashcenter
Reculez un instant et regardez ce qui vient d’arriver.
Votre Hashcenter a commencé comme une boîte qui faisait de l’inférence. Une intégration plus tard, il est devenu la voix de votre maison. Deux intégrations plus tard, il est devenu le second cerveau qui lit vos notes. Trois intégrations plus tard, il autocomplétait votre code. Quatre plus tard, il était dans votre poche.
Cette boîte n’est plus seulement un GPU qui héberge un LLM. C’est le centre de votre vie numérique. Votre maison lui parle. Vos notes sont à côté. Votre code lui pose des questions. Votre téléphone lui sert de client léger. Chaque abonnement que vous payiez pour cette capacité — chacun achetait une parcelle de ceci, vendue en frais récurrents, conditionnelle à l’intérêt persistant d’un fournisseur infonuagique à vous servir.
Vous pouvez annuler l’abonnement maintenant. Il a une vraie valeur en dollars et vous la voyez nettement sur la prochaine facture. Ce que vous avez gagné a une autre valeur qui n’apparaît sur aucune facture : la souveraineté sur votre pile d’intelligence. Une couche de plus décentralisée.
Et si vous avez fait le tour de chauffer à l’inférence, toute la configuration chauffe aussi votre maison. Votre Hashcenter chauffe votre bâtiment et opère votre pile cognitive. La facture d’électricité, c’est une seule facture. La pile de valeur est stratifiée. C’est l’arbitrage du pleb.
Si vous planifiez encore le matériel, la voie du S19 au Hashcenter IA est la rampe la moins chère. Si vous comparez les runtimes, nous avons écrit LM Studio vs Ollama vs llama.cpp. Si vous vous demandez pourquoi Q4_K_M revient dans les noms de modèles, voyez l’explicatif sur la quantification.
Pour conclure
LLM local. API compatible OpenAI. Toute une génération d’outils écrits pour parler cette API. Voilà la pile. Chaque intégration de ce billet a la même forme — changez l’URL de base, tapez ollama dans le champ de clé d’API, choisissez un modèle. Après l’avoir fait deux fois, ça cesse de ressembler à un bricolage et commence à ressembler à la façon par défaut dont les logiciels devraient être câblés.
Vous avez maintenant une pile IA du quotidien qui dépend de zéro service tiers. Vos commandes vocales, vos notes, votre code, les prompts de votre téléphone — tout passe par une machine que vous possédez, dans un bâtiment où vous vous tenez. Voilà à quoi ressemble la propriété de votre intelligence. Une couche de plus décentralisée.
Pour aller plus loin : le Manifeste pour une IA souveraine des Bitcoiners pour le pourquoi; le Guide du pleb pour l’IA auto-hébergée pour la carte de tout.
Annulez l’abonnement. Gardez les capacités. Bienvenue à la maison.



