Current

RTX A4000

NVIDIA · single-slot blower · Released avril 2021

Carte workstation Ampere monoslot avec 16 Go et soufflante. La favorite des plebs adeptes du rack silencieux pour les builds multi-GPU denses.

Hardware spec sheet

Vendor	NVIDIA
Category	GPU
VRAM / memory	16 GB
Memory bandwidth	448 GB/s
FP16 TFLOPS	19.2
INT8 TOPS	155
TDP	140 W
Architecture	Ampere
Form factor	single-slot blower
Release date	avril 2021
Street price (USD)	600-900 (used)
120V note	140 W chacune : quatre cartes sur un seul circuit 120V/15A très confortable.

La RTX A4000 est la carte workstation NVIDIA de génération Ampere optimisée pour la densité : refroidisseur monoslot à soufflante, TDP de 140 W, 16 Go de GDDR6 ECC. Lancée en avril 2021, elle partage le lignage compute d’Ampere avec la 3090 — même génération de tensor cores, même débit FP16/INT8 par CUDA core — mais dans un format qui permet de loger 4 à 7 cartes dans un seul châssis workstation.

À qui elle s’adresse : aux bâtisseurs de Hashcenter qui ont besoin de densité multi-GPU sans recourir à des cartes datacenter. Quatre A4000 dans une workstation Threadripper = 64 Go de VRAM dans un boîtier silencieux et thermiquement sain. Aussi populaire dans les déploiements en rack où le flux d’air soufflé compte.

Les modèles qu’elle fait tourner confortablement : une seule carte gère Llama 3 8B en FP16, 14B en Q8, 32B en Q4 (à l’étroit). Deux cartes se partagent un 70B en Q4.

Notes Hashcenter : la mémoire ECC est un avantage réel pour les charges de travail d’inférence longue durée où les inversions de bits constituent un mode de défaillance silencieux. Le refroidisseur à soufflante est nettement plus silencieux que celui des 3090 grand public parce que le TDP de 140 W maintient le régime ventilateur plus bas. Prix en occasion 600–900 $ en 2026. 140 W chacune signifie que quatre cartes sur un seul circuit 120V/15A, c’est très confortable. Chapeau à l’équipe workstation de NVIDIA pour une carte de compute dense réellement accessible aux plebs.

Lecture complémentaire : Cette carte est un composant essentiel d’un AI Hashcenter de calibre pleb. Associez-la à l’argument de souveraineté développé dans le Manifeste de l’IA souveraine pour les Bitcoiners, ou examinez comment la même enveloppe 120V alimente un chauffage d’appoint Bitcoin dans notre catalogue de minage. Vous souhaitez exécuter les deux charges de travail sur un même rig ? Consultez Chauffer votre maison grâce à l’inférence.

Models that run on this hardware

Mistral Small 3 Mistral runs at Q4 on this hardware Phi-4 Phi runs at Q5_K_M with headroom FLUX.1 dev FLUX runs at Q8 / FP16 comfortably FLUX.1 schnell FLUX runs at Q8 / FP16 comfortably Stable Diffusion 3.5 Stable Diffusion runs at Q8 / FP16 comfortably Mistral 7B Mistral runs at Q8 / FP16 comfortably Stable Diffusion XL Stable Diffusion runs at Q8 / FP16 comfortably Whisper Large v3 Whisper runs at Q8 / FP16 comfortably

Get it running

01 Install Ollama →
Ten-minute local LLM runtime. One binary, zero cloud.
02 Give it a UI →
Open-WebUI turns Ollama into a self-hosted ChatGPT.
03 Which runner? →
LM Studio vs Ollama vs llama.cpp — pick the right runtime for your rig.

Further reading: Heating your home with inference for turning this card into a winter-heat source, and the Sovereign AI for Bitcoiners Manifesto for the bigger picture on owner-operated AI.

RTX A4000

Hardware spec sheet

Models that run on this hardware

Get it running

Related products, repair, and setup paths