DeepSeek V3
DeepSeek · DeepSeek family · Released décembre 2024
Le MoE à l échelle frontière de DeepSeek de décembre 2024 — 671B total, 37B actifs, entraîné pour ~5,6 M$ en compute.
Model card
| Developer | DeepSeek |
|---|---|
| Family | DeepSeek |
| License | DeepSeek License |
| Modality | text |
| Parameters (B) | 671 (MoE) |
| Context window | 128000 |
| Release date | décembre 2024 |
| Primary languages | en,zh |
| Hugging Face | deepseek-ai/DeepSeek-V3 |
| Ollama | ollama pull deepseek-v3 |
DeepSeek V3 débarque : 671B MoE à poids ouverts, entraîné pour moins de 6 M$
DeepSeek vient de publier DeepSeek V3 — un modèle Mixture-of-Experts de 671 milliards de paramètres avec 37B actifs par token, publié sous licence permissive avec les poids complets sur Hugging Face. La fiche du modèle et le rapport technique sont en ligne dès aujourd’hui. Deux chiffres de la sortie vont définir la conversation : DeepSeek V3 revendique une performance compétitive avec GPT-4o et Claude 3.5 Sonnet sur la plupart des benchmarks, et l’entraînement aurait coûté 5,58 millions de dollars en temps-GPU.
Ce second chiffre est celui qui gardera les directeurs financiers des labos IA éveillés ce soir. Les labos dépensaient des sommes à neuf chiffres sur les entraînements de frontière. DeepSeek dit avoir égalé la frontière fermée pour moins de 6 M$. Que ce chiffre tienne sous examen ou non, la forme de la revendication — poids ouverts, efficacité MoE, papier public — remodèle déjà la façon dont les plebs devraient penser à l’économie de l’inférence locale. Voici ce qu’il y a dans les poids, ce que disent les benchmarks, et ce que cela signifie pour une stack IA souveraine entrant dans 2025.
Ce qu’il y a dans les poids
DeepSeek V3 est un transformer uniquement décodeur Mixture-of-Experts clairsemé. La filiation : Transformer (2017) → Switch Transformer et GShard de Google (2021) → Mixtral 8x7B (décembre 2023, le premier MoE ouvert grand public) → DeepSeek V2 (mai 2024) → DeepSeek V3 aujourd’hui. DeepSeek itère sur les architectures MoE depuis sa sortie V2, et V3 est la version passée à l’échelle et polie de cette ligne de recherche.
Spécifications clés du rapport technique :
- 671B paramètres totaux, 37B actifs par token (256 experts, routage top-8 par couche)
- Multi-head Latent Attention (MLA) : la variante d’attention signature de DeepSeek, compresse le cache KV pour dramatiquement réduire la mémoire en long contexte
- Architecture DeepSeekMoE : experts partagés + experts routés, spécialisation fine d’experts
- Équilibrage de charge sans perte auxiliaire : un nouveau truc d’entraînement qui stabilise le routage d’experts sans la perte d’équilibrage auxiliaire qui est standard dans la littérature MoE
- Multi-Token Prediction (MTP) : prédit deux tokens en avance durant l’entraînement ; désactivé à l’inférence mais améliore l’efficacité d’entraînement
- Fenêtre de contexte : 128K tokens
- Données d’entraînement : 14,8T tokens, fortement chinois + anglais, avec corpus spécialisés code et maths
- Compute d’entraînement : 2,788M heures-GPU H800, revendiqué à 5,58 M$ de coût total
- Licence : DeepSeek License Agreement — usage commercial permis
Les détails architecturaux comptent. MLA coupe le cache KV à environ 1/14 de la taille du MHA standard à la même longueur de contexte — ce qui est une amélioration significative du coût d’inférence pour quiconque tourne des charges à long contexte. L’équilibrage sans perte auxiliaire et la prédiction multi-token sont tous deux des innovations côté entraînement ; elles ne changent pas comment le modèle se comporte à l’inférence, mais elles font partie des raisons pour lesquelles DeepSeek a pu entraîner au coût revendiqué-bas.
Benchmarks au lancement
Depuis le rapport technique de DeepSeek publié aujourd’hui :
- MMLU : DeepSeek V3 à 88,5 vs GPT-4o à 87,2 et Claude 3.5 Sonnet à 88,3 — DeepSeek à parité ou légèrement devant.
- MMLU-Pro : DeepSeek V3 à 75,9 vs GPT-4o à 73,3 et Claude 3.5 Sonnet à 78,0 — Claude devant, DeepSeek devant GPT-4o.
- GPQA Diamond : DeepSeek V3 à 59,1 vs GPT-4o à 49,9 et Claude 3.5 Sonnet à 65,0.
- MATH-500 : DeepSeek V3 à 90,2 vs GPT-4o à 74,6 et Claude 3.5 Sonnet à 78,3 — DeepSeek devant par une grande marge.
- HumanEval : DeepSeek V3 à 82,6 vs Claude 3.5 Sonnet à 81,7 — DeepSeek légèrement devant.
- LiveCodeBench : DeepSeek V3 à 40,5 vs GPT-4o à 36,1 — DeepSeek devant.
- AIME 2024 (olympiade mathématique) : DeepSeek V3 à 39,2, compétitif avec les modèles de frontière fermés.
- Benchmarks chinois (CMMLU, C-Eval) : DeepSeek V3 mène décisivement tous les concurrents ouverts et fermés testés.
Comparé aux pairs ouverts, DeepSeek V3 mène Llama 3.3 70B et Qwen 2.5 72B sur presque chaque benchmark dans le rapport technique. C’est le premier modèle à poids ouverts revendiquant la parité complète avec GPT-4o et Claude 3.5 Sonnet. lmsys Chatbot Arena triera le classement de préférence réel dans les semaines à venir.
Implications pour les plebs souverains
La réponse honnête : DeepSeek V3 n’est pas un modèle de rig maison pour la plupart des plebs. 671B paramètres totaux signifie qu’il vous faut tenir beaucoup de VRAM pour le servir, même avec la rareté MoE côté compute. Les chiffres :
- fp16 : environ 1,3 To — territoire multi-nœud sérieux.
- Q8 : environ 700 Go — un grand serveur GPU (8× H100 80 Go = 640 Go VRAM, serré).
- Q4_K_M (GGUF) : environ 400 Go — exécutable sur une grande station multi-GPU ou avec offload CPU lourd.
- Q3 ou Q2 (quant agressif) : 250-300 Go — possible sur un setup 4× 3090 avec offload, mais la qualité se dégrade et les vitesses chutent.
Voir le guide de quantification GGUF pour les compromis qualité/taille — à l’échelle 600B+ MoE, la quantification agressive frappe différemment que sur un 70B dense parce que le routage d’experts est sensible à la précision des poids.
Pratiquement, les plebs qui feront tourner DeepSeek V3 localement sont ceux qui ont bâti un petit rack d’inférence — six à huit 3090 usagées, ou une station avec une ou deux H100, ou un monstre CPU+RAM (512 Go RAM système + offload GPU fait tourner V3 en Q4 lentement). C’est un setup d’échelle Hashcenter, pas un bureau. Pour tout le monde, la stack locale pratique reste à la taille Llama 3.3 70B ou Qwen 2.5 72B — toutes deux tenant sur un rig double-3090.
Ce que DeepSeek V3 change pour les plebs qui ne le font pas tourner localement : l’économie de l’inférence hébergée à poids ouverts. Plusieurs fournisseurs (together.ai, fireworks et la propre API de DeepSeek) offriront V3 à des prix bien sous les taux par token de GPT-4o ou Claude — parce que les poids sous-jacents sont ouverts et que la compétition fera baisser les prix. Pour les plebs qui veulent une qualité de frontière sans Hashcenter, V3 hébergé devient l’option de frontière la moins chère par token. Et parce que les poids sont publics, vous pouvez auditer ce que vous utilisez et changer de fournisseur librement.
Pour les plebs convertissant des sites de minage déclassés en inférence IA, V3 est le modèle où l’histoire du pivot Hashcenter commence à avoir l’air sérieuse. 671B MoE sur un petit rack GPU en Q4 est exactement la charge qui a du sens pour les opérateurs avec énergie bon marché et matériel sous-utilisé.
Comment l’exécuter dès aujourd’hui
Les poids DeepSeek V3 sont sur Hugging Face à deepseek-ai/DeepSeek-V3. La référence d’inférence de DeepSeek est dans leur dépôt GitHub, avec des chemins d’intégration vLLM et SGLang.
Pour l’inférence locale, surveillez llama.cpp pour qu’il merge le support MLA dans les prochains jours — jusque-là, les quants GGUF existent mais nécessitent des builds patchés. L’entrée de registre Ollama pour V3 apparaîtra probablement en 1-2 semaines une fois la plomberie MoE + MLA stabilisée ; notre guide d’installation Ollama en 10 minutes vous préparera. Le support LM Studio suivra la timeline de llama.cpp.
Pour les plebs sans le matériel, DeepSeek offre une API à palier gratuit à chat.deepseek.com — et openrouter.ai liste V3 dès aujourd’hui à travers plusieurs fournisseurs. Si vous rencontrez des problèmes en faisant tourner des quants localement, le guide de dépannage IA auto-hébergée couvre les suspects habituels.
Ce qui vient ensuite
DeepSeek suit typiquement une sortie V avec une sortie R (variante tunée pour le raisonnement) en quelques semaines. Attendez-vous à DeepSeek R1 (ou nommage similaire) au T1 2025 comme cousin RLHF-raisonnement, entraîné sur la base de V3. Les fine-tunes communautaires et variantes spécialistes (coder, math, multilingue) commenceront à apparaître sur Hugging Face — bien que la taille pure de V3 limite qui peut le fine-tuner.
Vue d’ensemble : la revendication de coût d’entraînement de 5,58 M$ — si elle tient — est l’histoire qui comptera le plus en 2025. Elle signifie que l’entraînement de frontière est assez bon marché pour que les labos en dehors du top-trois US puissent rivaliser. Pour les plebs souverains, c’est sain : plus de diversité dans le paysage des poids ouverts, plus de pression sur les APIs fermées pour garder les prix bas, et plus d’innovation architecturale dans l’ouvert. L’analogie Bitcoin est difficile à manquer — la décentralisation fonctionne quand le réseau a plusieurs participants capables, pas trois gardiens. Téléchargez les poids si vous avez le rig, surveillez les prix hébergés si vous ne l’avez pas, et possédez ce que vous pouvez. Consultez le Manifeste IA souveraine pour l’argumentaire, et le guide du pleb pour l’IA auto-hébergée pour la configuration qui convient à quel que soit le matériel que vous avez déjà.
Recommended hardware
Multi-GPU rig or cloud territory. For most plebs, the 70B distillation is plenty.
Get it running
-
01
Install Ollama →
Ten-minute local LLM runtime. One binary, zero cloud.
-
02
Give it a web UI →
Open-WebUI turns Ollama into a self-hosted ChatGPT.
-
03
Understand quantization →
GGUF Q4/Q8/FP16 — which weights fit your GPU, explained.
Further reading: the Sovereign AI for Bitcoiners Manifesto for why sovereign inference matters, and From S19 to Your First AI Hashcenter for repurposing your mining rack into a Hashcenter that runs models like this one.
