RTX 5090
NVIDIA · dual-slot · Released janvier 2025
Le fleuron Blackwell : 32 Go GDDR7, 1792 Go/s de bande passante — la première carte grand public qui fait tourner confortablement des modèles 70B en Q8.
Hardware spec sheet
| Vendor | NVIDIA |
|---|---|
| Category | GPU |
| VRAM / memory | 32 GB |
| Memory bandwidth | 1792 GB/s |
| FP16 TFLOPS | 120 |
| INT8 TOPS | 900 |
| TDP | 575 W |
| Architecture | Blackwell |
| Form factor | dual-slot |
| Release date | janvier 2025 |
| Street price (USD) | 1999 MSRP |
| 120V note | 575 W est agressif pour un seul circuit 120V/15A ; 120V/20A ou 240V fortement recommandé. |
La RTX 5090 est arrivée en janvier 2025 sur l’architecture NVIDIA Blackwell, successeure d’Ada Lovelace. Le saut de VRAM de 24 Go à 32 Go est l’annonce majeure pour les plebs de l’inférence : les modèles de classe 70B entrent enfin en Q8 sur une seule carte avec un contexte utilisable. De la GDDR7 sur un bus 512 bits délivre environ 1,8 To/s — presque 2× celle de la 4090 — de sorte que les tok/s évoluent proportionnellement sur les charges de travail limitées par la mémoire.
À qui elle s’adresse : aux professionnels et aux passionnés bien financés qui ont besoin de performance monocarte en 70B sans passer au territoire workstation H100/H200.
Les modèles qu’elle fait tourner confortablement : Llama 3 70B en Q8 avec un contexte de 8K, Qwen 2.5 72B en Q4 avec un contexte de 32K, Mixtral 8x22B en Q3. C’est aussi la première carte grand public où l’entraînement FP8 de LoRA d’environ 7B est vraiment praticable.
Notes Hashcenter : double-slot (!) en Founders Edition malgré un TDP de 575 W — NVIDIA est passé à une conception à chambre à vapeur traversante. 575 W est agressif pour un seul circuit 120V/15A ; 120V/20A ou 240V fortement recommandé. Le connecteur 12V-2×6 a évolué depuis le 12VHPWR avec une meilleure détection — utilisez tout de même un câble de qualité. Blackwell remonte jusqu’à l’architecture Tesla qui a lancé le parcours compute de NVIDIA en 2006.
Lecture complémentaire : Cette carte est un composant essentiel d’un AI Hashcenter de calibre pleb. Associez-la à l’argument de souveraineté développé dans le Manifeste de l’IA souveraine pour les Bitcoiners, ou examinez comment la même enveloppe 120V alimente un chauffage d’appoint Bitcoin dans notre catalogue de minage. Vous souhaitez exécuter les deux charges de travail sur un même rig ? Consultez Chauffer votre maison grâce à l’inférence.
Models that run on this hardware
Get it running
-
01
Install Ollama →
Ten-minute local LLM runtime. One binary, zero cloud.
-
02
Give it a UI →
Open-WebUI turns Ollama into a self-hosted ChatGPT.
-
03
Which runner? →
LM Studio vs Ollama vs llama.cpp — pick the right runtime for your rig.
Further reading: Heating your home with inference for turning this card into a winter-heat source, and the Sovereign AI for Bitcoiners Manifesto for the bigger picture on owner-operated AI.
