Dans dix minutes, un modèle qui rivalise avec tout ce qu’OpenAI livrait en 2023 tournera sur une machine que vous possédez déjà. Pas de clé d’API. Pas de limites de requêtes. Pas de prompts envoyés vers le pipeline de journalisation d’un hyperscaler. Juste des poids sur votre disque, des tokens à l’écran, et la satisfaction tranquille du pleb qui a cessé de louer sa cognition.

Ceci est le premier billet pratique de notre série sur l’IA auto-hébergée, et nous avons choisi Ollama parce que c’est la rampe d’accès la plus facile. Il enveloppe llama.cpp (le moteur d’inférence que Georgi Gerganov a offert au monde) dans une interface en ligne de commande propre, ajoute un registre de modèles et s’installe en une seule ligne. Crédit à qui de droit : l’équipe Ollama — Michael Chiang, Jeffrey Morgan et les contributeurs — a transformé « compile ce projet C++ et bagarre-toi avec les drapeaux de quantification » en « exécute cette commande ». Nous couvrirons LM Studio et llama.cpp brut dans le billet comparatif sur les runners; commencez ici.

Voilà une couche de plus décentralisée. Votre nœud valide déjà Bitcoin. Vos canaux Lightning routent déjà de la valeur. Maintenant, votre pile d’inférence tourne aussi sur votre propre métal.

Ce dont vous aurez besoin

Une machine avec au moins 8 Go de RAM. L’inférence sur CPU seul fonctionne; elle est simplement lente.
GPU fortement recommandé : NVIDIA RTX série 30 ou plus récent (CUDA), AMD RX 7000+ (ROCm sous Linux), ou Apple Silicon M1+ (Metal, automatique).
Orientation VRAM : 8 Go de VRAM font tourner confortablement les modèles 7B–8B en quantification Q4. 12–16 Go gèrent le 13B. 24 Go (une RTX 3090 usagée, le « sweet spot » du pleb — voir le billet sur la RTX 3090 usagée) font tourner le 30B ou le 70B quantifié. Détail complet dans le Guide du pleb pour l’IA auto-hébergée.
20 Go d’espace disque libre pour les modèles de départ. Prévoyez 100 Go ou plus si vous comptez accumuler une bibliothèque.

À la fin de ce billet, vous aurez Ollama installé et lancé comme service, Llama 3.1 8B téléchargé et répondant à vos prompts, et suffisamment de mémoire musculaire en ligne de commande pour télécharger, lister et changer de modèle à volonté dans le registre.

Étape 1 : Installer Ollama (~90 secondes)

Choisissez votre plateforme. Les trois chemins d’installation aboutissent au même endroit : une commande ollama dans votre $PATH et un service en arrière-plan qui écoute sur localhost:11434.

Linux

curl -fsSL https://ollama.com/install.sh | sh

Ce que fait le script : il détecte votre distribution, dépose le binaire ollama dans /usr/local/bin, crée un utilisateur système dédié ollama, installe une unité systemd (ollama.service) et la démarre. Si vous avez un GPU NVIDIA avec les pilotes déjà installés, il détectera CUDA et fera le câblage. Pareil pour AMD ROCm.

Note pour le pleb soucieux de sécurité : oui, vous dirigez un curl dans un sh. Ça fait tiquer tout Bitcoiner souverain, et c’est normal. Le script est court et auditable. Lisez-le d’abord :

curl -fsSL https://ollama.com/install.sh | less

Une fois satisfait, lancez l’installation. Vous êtes du genre à lire les scripts avant de les exécuter — c’est la ligne de base pour rester souverain.

macOS

Téléchargez le DMG depuis ollama.com. Glissez Ollama.app dans /Applications. Lancez-le une fois pour accepter l’invite de permission. Vous verrez une icône de lama dans la barre de menu. La commande ollama est automatiquement reliée par symlink; ouvrez Terminal et c’est prêt.

Windows

Récupérez l’installateur sur ollama.com. Lancez-le. Il s’installe comme service système et ajoute ollama au PATH pour l’invite de commande et PowerShell. Une icône Ollama apparaît dans la zone de notification, à côté de l’horloge.

Vérifier l’installation

ollama --version

Vous devriez voir quelque chose comme ollama version 0.5.x (votre version sera probablement plus récente au moment où vous lisez ceci). Si la commande est introuvable, ouvrez un nouveau terminal pour que votre shell relise $PATH, puis réessayez.

Capture d’écran : sortie de ollama –version dans le terminal

Si le service n’a pas démarré sous Linux :

sudo systemctl start ollama
sudo systemctl enable ollama

Étape 2 : Télécharger votre premier modèle (~3–5 minutes)

Les modèles ne sont pas livrés avec Ollama. Vous les téléchargez depuis le registre d’Ollama, comme des images Docker. Nous commençons avec Llama 3.1 8B — le modèle à poids ouverts de Meta, le bon équilibre entre qualité et taille pour un premier essai.

ollama pull llama3.1:8b

Capture d’écran : barre de progression de ollama pull en cours de téléchargement

Ce qui se passe : Ollama télécharge environ 4,7 Go de poids de modèle depuis son registre. Le format de fichier est GGUF (le format conteneur de llama.cpp), et le niveau de quantification par défaut est Q4_K_M — une quantification 4 bits qui échange une fraction de qualité de sortie contre un fichier ~4 fois plus petit et une inférence plus rapide qu’en pleine précision. Si cette phrase est du charabia, la version courte est : on écrase le modèle pour qu’il entre dans du matériel grand public, et l’écrasement est presque invisible en qualité. Le dossier approfondi sur la quantification explique pourquoi Q4 est le « sweet spot » du pleb et quand monter à Q5 ou Q6.

Les modèles atterrissent dans ~/.ollama/models/ sous Linux/macOS, ou C:\Users\<vous>\.ollama\models\ sous Windows. Si vous êtes sur un portable avec un petit SSD et un gros disque externe, définissez OLLAMA_MODELS avant de démarrer le service pour pointer vers un emplacement plus spacieux.

Le mot « token » reviendra souvent à partir d’ici. Un token vaut environ ¾ d’un mot anglais — c’est l’unité dans laquelle le modèle lit et écrit. Les « tokens par seconde » mesurent votre vitesse d’inférence. Plus, c’est mieux.

Choisissez un modèle qui entre dans votre VRAM

Ne téléchargez pas Llama 3.1 8B aveuglément si votre GPU ne peut pas le tenir. Guide approximatif :

VRAM	Premier téléchargement recommandé
Pas de GPU (CPU seul)	`ollama pull llama3.2:3b`
6–8 Go	`ollama pull llama3.2:3b` ou `ollama pull gemma3:4b`
10–12 Go	`ollama pull llama3.1:8b` (valeur par défaut de ce billet)
16 Go	`ollama pull qwen2.5:14b`
24 Go (pleb 3090 / 4090)	`ollama pull llama3.1:8b` d’abord pour vérifier, puis `ollama pull llama3.1:70b` (Q4, ~40 Go, téléchargement plus long)

Gemma 3 est un cadeau de l’équipe de recherche de Google. Llama vient du programme de poids ouverts de Meta. Qwen vient d’Alibaba. Les trois ont publié leurs poids publiquement; nous nous tenons sur leurs épaules quand nous les faisons tourner.

Étape 3 : Discuter avec lui (~30 secondes)

ollama run llama3.1:8b

La première exécution chargera le modèle en VRAM (ou en RAM si vous êtes en CPU seul). Vous verrez une invite >>>. Tapez quelque chose :

>>> Explique-moi, comme si j'opérais un nœud Bitcoin, ce que veut dire « quantification » dans les LLM.

Exemple de réponse :

En opérant un nœud Bitcoin complet, vous pourriez stocker chaque transaction en pleine précision flottante dans l’ensemble UTXO — mais personne ne le fait, parce que des entiers 8 octets suffisent et prennent moins de disque. La quantification dans les LLM est le même tour : les poids du modèle ont été entraînés en flottants 16 ou 32 bits, mais on les arrondit en entiers 4 ou 8 bits avant l’inférence. Vous perdez un cheveu de précision, vous gagnez 4 fois moins de VRAM et une inférence 2 à 3 fois plus rapide, et pour la plupart des prompts vous ne verrez pas la différence à la sortie. Q4_K_M — la valeur par défaut qu’Ollama télécharge — est le « pruned block filter » de la quantification LLM : assez petit pour tourner sur du matériel grand public, assez précis pour qu’il faille des benchmarks côte à côte pour en détecter la perte.

Capture d’écran : premier échange dans le terminal — incluez un prompt banal et sa réponse

Tapez /bye pour quitter. Tapez /? dans la session pour voir les autres commandes — /set pour les paramètres, /show pour les infos du modèle, /save pour sauvegarder une conversation, /clear pour réinitialiser le contexte.

Étape 4 : Comprendre ce qui tourne (~2 minutes)

Voir ce qui est chargé

ollama ps

Affiche chaque modèle actuellement retenu en VRAM/RAM, sa taille, et le temps restant avant déchargement. Le délai d’inactivité par défaut est de 5 minutes — après quoi Ollama libère la VRAM pour que vos jeux ou Stable Diffusion puissent la reprendre.

Capture d’écran : sortie de ollama ps montrant le modèle chargé et l’utilisation VRAM

Voir tout ce que vous avez téléchargé

ollama list

Chaque modèle sur disque, avec sa taille. Voilà votre bibliothèque locale.

Confirmer que l’accélération GPU est bien active

Sous NVIDIA, ouvrez un second terminal pendant qu’une requête tourne :

nvidia-smi

Vous devriez voir ollama (ou ollama_llama_server) dans la liste des processus, et l’utilisation GPU devrait grimper bien au-dessus de zéro pendant l’inférence. Si la colonne GPU reste à 0 % et que les ventilateurs du CPU rugissent, Ollama est retombé en CPU — généralement un désaccord de version du pilote CUDA. Le billet de dépannage propose la matrice de correctifs.

Capture d’écran : sortie de nvidia-smi durant une requête d’inférence avec un pic d’utilisation GPU

Sur macOS (Apple Silicon), Metal est automatique — pas de bascule, pas de configuration. Ouvrez Moniteur d’activité → Fenêtre → Historique GPU pendant une requête pour voir la barre de mémoire unifiée bouger.

Sous Linux avec AMD, le support ROCm est intégré; assurez-vous que votre noyau a le pilote amdgpu et que votre utilisateur fait partie des groupes render et video.

Étape 5 : Votre premier banc d’essai de vérification (~1 minute)

ollama run llama3.1:8b --verbose "Écris un haïku sur l'auto-souveraineté"

Le drapeau --verbose affiche les compteurs d’évaluation et les tokens par seconde après la réponse. C’est votre contrôle de vérité : si le chiffre est loin de ce qui est attendu, votre pile n’est pas configurée correctement.

Capture d’écran : sortie –verbose avec la ligne tokens-per-second mise en évidence

Ce qu’on considère « bon » pour Llama 3.1 8B Q4

Matériel	Tok/s attendus (débit d’éval)
CPU seul (8 cœurs moderne)	8–15
Apple Silicon M3 / M4	25–45
RTX 3060 12 Go	40–55
RTX 3090	60–80
RTX 4090	100+

Nettement en deçà de ces chiffres ? Les suspects habituels : repli CPU (revérifiez nvidia-smi), étranglement thermique ou un autre processus qui accapare la VRAM. Passez la liste de dépannage.

Étape 6 (facultative) : Autres modèles à essayer ensuite

La beauté d’Ollama, c’est que changer de modèle tient en une commande. Un petit pack de départ, un modèle par grand laboratoire à poids ouverts :

ollama pull qwen2.5:7b — La série Qwen d’Alibaba. Polyvalent et solide, surtout en multilingue.
ollama pull deepseek-r1:8b — Le modèle de raisonnement de DeepSeek. Il expose sa chaîne de pensée entre balises <think> avant de répondre; excellent pour les maths et la logique.
ollama pull gemma3:4b — Le modèle compact de Google. Frappe au-dessus de sa catégorie; tourne sur presque n’importe quoi.
ollama pull phi4:14b — Le plus récent petit modèle capable de Microsoft. Le téléchargement de 8 Go en vaut la peine.
ollama pull qwen2.5-coder:7b — La variante de Qwen spécialisée en code. Le meilleur assistant de code à poids ouverts que vous puissiez faire tourner sur 8 Go de VRAM aujourd’hui.
ollama pull codellama:7b — Le Llama d’origine adapté au code, de Meta. Plus vieux mais encore solide.

Téléchargez-en quelques-uns, comparez-les sur un même prompt, et gardez celui qui vous parle. ollama rm <modèle> retire ceux dont vous ne voulez pas.

Parcourez la bibliothèque complète sur ollama.com/library et le code source du projet sur github.com/ollama/ollama.

La suite

Vous avez un LLM local qui fonctionne. Trois prochaines étapes naturelles :

Donnez-lui une interface web façon ChatGPT — la ligne de commande suffit, mais une interface navigateur avec historique de conversations, changement de modèle et téléversement de documents en fait un outil que vous utiliserez vraiment au quotidien. Marche à suivre : Open WebUI : l’expérience ChatGPT, auto-hébergée.
Branchez-le à vos outils existants — votre modèle local peut alimenter les réponses vocales de Home Assistant, les réécritures de notes Obsidian, les Raccourcis iOS, et plus encore. Guide : Connectez votre IA auto-hébergée à Home Assistant, Obsidian et Raccourcis.
Comprenez les compromis entre runners — Ollama est facile, mais LM Studio vous donne une interface graphique et llama.cpp vous donne le contrôle brut. Comparatif : LM Studio vs Ollama vs llama.cpp.

Vous êtes auto-souverain maintenant

Il y a dix minutes, votre inférence se faisait sur le GPU de quelqu’un d’autre, selon les conditions d’utilisation de quelqu’un d’autre, journalisée dans la base de quelqu’un d’autre. Maintenant, elle se fait dans votre Hashcenter. Pas de clés d’API. Pas de plafonds d’usage. Pas de limites de débit au moment précis où vous en avez besoin. Pas de prompts qui franchissent la porte.

Voilà une couche de plus décentralisée. La même logique qui disait « opère ton propre nœud » dit « opère ton propre modèle ». Votre nœud valide le consensus. Votre modèle raisonne sur vos données. Ni l’un ni l’autre ne demande la permission.

Lisez le Manifeste pour une IA souveraine des Bitcoiners pour le pourquoi, et le Guide du pleb pour l’IA auto-hébergée pour la carte complète. Puis téléchargez un autre modèle. L’inférence locale, c’est fait pour ça.

Pour aller plus loin : l’inférence locale partage une enveloppe thermique et électrique avec le minage Bitcoin — voir Du S19 à votre premier Hashcenter IA et le Manifeste pour une IA souveraine des Bitcoiners pour l’argument complet. Côté catalogue de minage, le guide d’installation d’une chaufferette Bitcoin couvre les calculs 120V et de circuits.

Mining Profitability Calculator Calculate your mining revenue, electricity costs, and net profit with live Bitcoin data.

Try the Calculator

Installer Ollama et exécuter votre premier LLM local en 10 minutes