DeepSeek R1
DeepSeek · DeepSeek family · Released janvier 2025
Le modèle de raisonnement de DeepSeek de janvier 2025 — qualité chaîne de pensée de frontière, plus six distills sous licence MIT de 1,5B à 70B.
Model card
| Developer | DeepSeek |
|---|---|
| Family | DeepSeek |
| License | MIT (most distills) |
| Modality | text |
| Parameters (B) | 1.5,7,8,14,32,70,671 (MoE) |
| Context window | 128000 |
| Release date | janvier 2025 |
| Primary languages | en,zh |
| Hugging Face | deepseek-ai/DeepSeek-R1 |
| Ollama | ollama pull deepseek-r1 |
DeepSeek vient de publier R1 — et le monde des poids ouverts a maintenant son premier véritable modèle de raisonnement. Alors que l’industrie IA a passé les quatre derniers mois à chuchoter au sujet de o1 d’OpenAI et de son raisonnement en chaîne de pensée derrière le rideau du modèle fermé, un labo chinois que la plupart des gens ne pouvaient pas prononcer il y a un an vient d’expédier quelque chose qui égale ou bat o1 sur plusieurs benchmarks publics, sous licence MIT, avec les poids sur Hugging Face.
C’est une affaire plus grosse que ce que les chiffres de classement suggèrent. DeepSeek R1 n’est pas juste une sortie de modèle — c’est une démonstration que l’apprentissage par renforcement à partir de traces de raisonnement, fait à l’échelle sans données de chaîne de pensée étiquetées par humain, est une technique réelle et reproductible. Le papier accompagnant montre la recette. Pour les plebs souverains, cela signifie que le fossé du modèle de raisonnement qu’OpenAI a essayé de bâtir en gardant la pensée de o1 cachée vient d’être comblé de béton.
Ce qu’il y a dans les poids
DeepSeek R1 est un descendant du modèle V3 de décembre 2024 de DeepSeek — une architecture mixture-of-experts de 671B paramètres avec 37B paramètres activés par token. V3 lui-même a été un choc silencieux : un modèle à l’échelle de frontière entraîné pour un coût rapporté de 5,6 M$ en compute (un chiffre que la communauté a scruté mais pas réfuté), publié sous poids ouverts à un moment où tout le monde supposait que seuls Google, OpenAI, Anthropic et Meta pouvaient se permettre des entraînements de frontière. R1 prend V3 comme base et applique une pipeline d’entraînement à deux étapes décrite dans le papier R1 :
- R1-Zero : apprentissage par renforcement pur sur V3-Base avec récompenses basées sur des règles (la réponse maths est-elle correcte, le code compile-t-il et passe-t-il les tests). Pas de fine-tuning supervisé, pas de traces de raisonnement curées par humain. Le modèle apprend à produire de longues sections « thinking » de chaîne de pensée de façon autonome, émergeant du signal de récompense seul. Le papier DeepSeek cadre ceci comme une preuve que la capacité de raisonnement n’exige pas de données de pensée étiquetées par humain.
- R1 : une variante plus polie avec un fine-tune supervisé cold-start sur un petit ensemble de données curé, puis RL, puis rejection sampling, puis une étape RL finale. Beaucoup meilleur pour produire un raisonnement lisible et bien formaté. C’est le modèle que les plebs veulent vraiment faire tourner.
Aux côtés de R1, DeepSeek a publié six modèles distillés — des modèles plus petits et denses entraînés sur des traces de raisonnement générées par R1 lui-même. Ce sont les pièces accessibles aux plebs de la sortie :
- DeepSeek-R1-Distill-Qwen-1.5B : tourne sur un téléphone. Sérieusement.
- DeepSeek-R1-Distill-Qwen-7B : daily driver mono-GPU.
- DeepSeek-R1-Distill-Llama-8B : Llama 3.1 8B avec raisonnement intégré.
- DeepSeek-R1-Distill-Qwen-14B : le sweet spot pour cartes 24 Go.
- DeepSeek-R1-Distill-Qwen-32B : le navire-amiral pleb. Bat o1-mini en maths et code selon la sortie de DeepSeek.
- DeepSeek-R1-Distill-Llama-70B : basé sur Llama 3.3 70B, pour rigs double-3090.
Architecturalement, R1 proprement dit est le MoE de V3 — 671B total, 37B actifs, contexte 128K, multi-head latent attention (MLA) et un schéma d’équilibrage de charge sans perte auxiliaire que DeepSeek a détaillé dans le papier de V3. Les distillés sont des transformers denses conventionnels des familles Qwen 2.5 et Llama 3. Licence MIT sur tous. Pas de clauses belette d’entreprise.
Benchmarks au lancement
Selon le billet de lancement et le papier de DeepSeek, R1 sur les benchmarks publics que la plupart des gens citent :
- AIME 2024 (maths de compétition) : R1 score 79,8 %, égalant le 79,2 % de OpenAI o1-1217. o1-mini atterrit autour de 63,6 %.
- MATH-500 : R1 à 97,3 %, dépassant le 96,4 % de o1-1217.
- Codeforces Elo : R1 à 2029, compétitif avec le 2061 de o1.
- MMLU : R1 à 90,8, o1 à 91,8 — pratiquement ex æquo.
- GPQA Diamond (science de niveau graduate) : R1 à 71,5, o1 à 75,7.
Les modèles distillés sont la surprise. DeepSeek-R1-Distill-Qwen-32B score 72,6 à AIME 2024, battant le 63,6 de o1-mini. Un modèle de 32B paramètres que vous pouvez faire tourner sur une A6000 unique surpassant le produit de raisonnement plus petit d’OpenAI. Ce n’est pas un moment subtil.
Réserves à énoncer à la sortie : ce sont les chiffres auto-rapportés de DeepSeek. Le LMSys Chatbot Arena n’a pas encore accumulé assez de votes pour un classement fiable, et les reproductions communautaires sur l’Open LLM Leaderboard prendront des semaines. Les benchmarks lourds en raisonnement sont aussi notoirement sensibles au formatage des prompts, donc attendez-vous à une certaine variance de la part d’évaluateurs indépendants.
Ce que cela signifie pour le pleb souverain
Jusqu’à aujourd’hui, si vous vouliez la capacité de modèle de raisonnement — le comportement style o1 « réfléchir fort avant de répondre, montrer son travail, attraper ses propres erreurs » — vous payiez OpenAI par token et envoyiez vos requêtes à travers leur infrastructure. R1-Distill-Qwen-32B change ça. Vous pouvez faire tourner un modèle de raisonnement localement. Vous pouvez canaliser des requêtes de recherche à travers lui. Vous pouvez le placer derrière Open WebUI et avoir un assistant de raisonnement privé qui ne voit jamais d’API d’entreprise.
Exigences VRAM pour la série distillée en Q4_K_M :
- 1,5B : ~1 Go — tourne sur un Raspberry Pi 5 avec 8 Go RAM à vitesses supportables
- 7B / 8B : ~5 Go — RTX 3060 12 Go, Mac série M avec 16 Go, tout GPU modeste
- 14B : ~9 Go — tient sur une seule RTX 3060 12 Go, RTX 4070 ou Mac avec 24 Go+ de mémoire unifiée
- 32B : ~20 Go — RTX 3090/4090 unique, A5000 ou Mac série M avec 32 Go+ de mémoire unifiée. C’est le navire-amiral pleb.
- 70B : ~40 Go — double 3090/4090 ou A6000. Même budget VRAM que Llama 3.1 70B.
Pour notre rig pleb RTX 3090 usagée recommandé, le distill 32B est le meilleur modèle publié dans la dernière année pour la config « une carte, un modèle ». Il laisse 4 Go de marge sur une carte 24 Go pour un cache KV généreux, dont vous avez besoin si vous faites du long raisonnement en chaîne de pensée. La sélection de quant suit la logique habituelle que nous couvrons dans l’explicateur de quant GGUF — Q4_K_M pour les plebs VRAM-contraints, Q8 si vous avez de la place et voulez une qualité proche-FP16.
Une chose à savoir à propos du fait de faire tourner des modèles de raisonnement localement : ils sont lents. Pas à cause de l’architecture, mais parce que le modèle génère 1 000 à 10 000 tokens de « pensée » avant de livrer sa réponse finale. Sur une 3090 en Q4_K_M, une seule réponse R1-Distill-32B peut prendre 30 secondes à deux minutes. C’est normal. C’est aussi pourquoi ces modèles sont parfaits pour le travail batch — requêtes de recherche, revues de code, problèmes de maths — plutôt que chat interactif. Mettez vos questions en file, faites tourner la nuit, réveillez-vous devant des réponses.
Pour la stack pleb IA auto-hébergée, R1-Distill-32B plus un frontend Open WebUI plus le Llama 3.1 70B existant pour le chat rapide est le nouveau défaut à trois modèles. Raisonnement pour les problèmes difficiles, chat général pour daily driver, et réponses rapides à petit modèle depuis un 8B distillé.
Si vous bâtissez un Hashcenter converti depuis du matériel ASIC retiré — voir le playbook de conversion S19 — les modèles de raisonnement sont intensifs en compute et générateurs de chaleur d’une façon qui s’aligne bien avec l’argument économique. Un travail batch de raisonnement qui produit une sortie valable tout en chauffant votre maison est la version la plus propre de la thèse inférence-chaleur. Chauffer avec l’inférence a les maths de puissance.
Comment l’exécuter dès aujourd’hui
Quickstart via Ollama :
ollama pull deepseek-r1:32b
ollama pull deepseek-r1:14b
ollama pull deepseek-r1:8b
ollama run deepseek-r1:32b
Les tags par défaut d’Ollama téléchargent Q4_K_M. Les traces de raisonnement sont enveloppées dans des balises <think>...</think> dans la sortie — la plupart des UIs dont Open WebUI replient automatiquement celles-ci en sections extensibles.
Source Hugging Face : deepseek-ai/DeepSeek-R1 pour le MoE complet, et deepseek-ai/DeepSeek-R1-Distill-Qwen-32B pour le navire-amiral pleb. Les quants GGUF des mainteneurs communautaires (bartowski, unsloth) apparaissent typiquement dans les 24 heures de la sortie. Utilisateurs LM Studio : vérifiez la recherche in-app aujourd’hui ; voir notre comparaison de runners si vous choisissez entre frontends. Pour déboguer les chargements lents ou échoués, le guide de dépannage IA auto-hébergée est la référence pleb.
Ce qui vient ensuite
DeepSeek a montré leur main sur deux fronts. D’abord, le papier R1 est une recette implicite pour quiconque d’autre veut entraîner un modèle de raisonnement — attendez-vous à ce que Qwen, Mistral et l’équipe Llama répondent en quelques mois avec leurs propres sorties tunées pour le raisonnement. Deuxièmement, l’économie de l’entraînement V3, si elle tient sous examen, suggère que l’entraînement à l’échelle de frontière est vastement moins cher que les estimations dominantes de l’industrie à 100 M$+. Cela a des implications pour l’allocation de capital à travers toute la stack IA, que la thèse du pivot Hashcenter suit.
Pour les plebs, le message d’aujourd’hui est clair : les modèles de raisonnement ne sont plus une capacité de labo fermé. Téléchargez le distill 32B, placez-le derrière Open WebUI, et vous avez un assistant privé compétitif avec o1 tournant dans votre placard. La thèse IA-souveraine vient de prendre une autre couche de technologie propriétaire et de l’avoir rendue locale.
Faites tourner votre propre raisonnement. Les labos de frontière ne sont pas vos amis.
Lectures complémentaires : Pour l’argumentaire philosophique derrière le fait de faire tourner ce modèle localement plutôt que de le louer à un labo de frontière, lisez le Manifeste IA souveraine pour Bitcoiners.
Recommended hardware
Multi-GPU rig or cloud territory. For most plebs, the 70B distillation is plenty.
Get it running
-
01
Install Ollama →
Ten-minute local LLM runtime. One binary, zero cloud.
-
02
Give it a web UI →
Open-WebUI turns Ollama into a self-hosted ChatGPT.
-
03
Understand quantization →
GGUF Q4/Q8/FP16 — which weights fit your GPU, explained.
Further reading: the Sovereign AI for Bitcoiners Manifesto for why sovereign inference matters, and From S19 to Your First AI Hashcenter for repurposing your mining rack into a Hashcenter that runs models like this one.
