Current

RTX 5090

NVIDIA · dual-slot · Released janvier 2025

Le fleuron Blackwell : 32 Go GDDR7, 1792 Go/s de bande passante — la première carte grand public qui fait tourner confortablement des modèles 70B en Q8.

Hardware spec sheet

Vendor	NVIDIA
Category	GPU
VRAM / memory	32 GB
Memory bandwidth	1792 GB/s
FP16 TFLOPS	120
INT8 TOPS	900
TDP	575 W
Architecture	Blackwell
Form factor	dual-slot
Release date	janvier 2025
Street price (USD)	1999 MSRP
120V note	575 W est agressif pour un seul circuit 120V/15A ; 120V/20A ou 240V fortement recommandé.

La RTX 5090 est arrivée en janvier 2025 sur l’architecture NVIDIA Blackwell, successeure d’Ada Lovelace. Le saut de VRAM de 24 Go à 32 Go est l’annonce majeure pour les plebs de l’inférence : les modèles de classe 70B entrent enfin en Q8 sur une seule carte avec un contexte utilisable. De la GDDR7 sur un bus 512 bits délivre environ 1,8 To/s — presque 2× celle de la 4090 — de sorte que les tok/s évoluent proportionnellement sur les charges de travail limitées par la mémoire.

À qui elle s’adresse : aux professionnels et aux passionnés bien financés qui ont besoin de performance monocarte en 70B sans passer au territoire workstation H100/H200.

Les modèles qu’elle fait tourner confortablement : Llama 3 70B en Q8 avec un contexte de 8K, Qwen 2.5 72B en Q4 avec un contexte de 32K, Mixtral 8x22B en Q3. C’est aussi la première carte grand public où l’entraînement FP8 de LoRA d’environ 7B est vraiment praticable.

Notes Hashcenter : double-slot (!) en Founders Edition malgré un TDP de 575 W — NVIDIA est passé à une conception à chambre à vapeur traversante. 575 W est agressif pour un seul circuit 120V/15A ; 120V/20A ou 240V fortement recommandé. Le connecteur 12V-2×6 a évolué depuis le 12VHPWR avec une meilleure détection — utilisez tout de même un câble de qualité. Blackwell remonte jusqu’à l’architecture Tesla qui a lancé le parcours compute de NVIDIA en 2006.

Lecture complémentaire : Cette carte est un composant essentiel d’un AI Hashcenter de calibre pleb. Associez-la à l’argument de souveraineté développé dans le Manifeste de l’IA souveraine pour les Bitcoiners, ou examinez comment la même enveloppe 120V alimente un chauffage d’appoint Bitcoin dans notre catalogue de minage. Vous souhaitez exécuter les deux charges de travail sur un même rig ? Consultez Chauffer votre maison grâce à l’inférence.

Models that run on this hardware

Mixtral 8x7B Mistral runs at Q4 on this hardware Gemma 2 Gemma runs at Q5_K_M with headroom Gemma 3 Gemma runs at Q5_K_M with headroom Mistral Small 3 Mistral runs at Q8 / FP16 comfortably Phi-4 Phi runs at Q8 / FP16 comfortably FLUX.1 dev FLUX runs at Q8 / FP16 comfortably FLUX.1 schnell FLUX runs at Q8 / FP16 comfortably Stable Diffusion 3.5 Stable Diffusion runs at Q8 / FP16 comfortably

Get it running

01 Install Ollama →
Ten-minute local LLM runtime. One binary, zero cloud.
02 Give it a UI →
Open-WebUI turns Ollama into a self-hosted ChatGPT.
03 Which runner? →
LM Studio vs Ollama vs llama.cpp — pick the right runtime for your rig.

Further reading: Heating your home with inference for turning this card into a winter-heat source, and the Sovereign AI for Bitcoiners Manifesto for the bigger picture on owner-operated AI.

RTX 5090

Hardware spec sheet

Models that run on this hardware

Get it running

Related products, repair, and setup paths