Command R+
Cohere · Command family · Released avril 2024
Le navire-amiral RAG-natif de Cohere d avril 2024 — 104B dense, citations ancrées et usage d outils de première classe, CC-BY-NC 4.0.
Model card
| Developer | Cohere |
|---|---|
| Family | Command |
| License | CC-BY-NC |
| Modality | text |
| Parameters (B) | 104 |
| Context window | 128000 |
| Release date | avril 2024 |
| Primary languages | en,fr,de,es,it,pt,ja,ko,zh,ar |
| Hugging Face | CohereForAI/c4ai-command-r-plus |
| Ollama | ollama pull command-r-plus |
Command R+ expédié : le navire-amiral 104B à poids ouverts RAG-natif de Cohere
Cohere vient de publier Command R+ — un transformer dense de 104 milliards de paramètres, à poids ouverts sur Hugging Face sous CC-BY-NC 4.0 (non-commercial), spécifiquement ingénieré pour la génération augmentée par récupération, l’usage d’outils et le travail multilingue de classe entreprise. Le billet de lancement le cadre comme le plus grand modèle Command en accès ouvert à ce jour et le cousin de qualité production au plus petit Command R (35B) publié un mois plus tôt. Les poids sont sur CohereForAI/c4ai-command-r-plus dès aujourd’hui.
Command R+ est un type de sortie différent de l’approche style Mistral « voici les poids, trouvez quoi en faire ». C’est un modèle opinionné, entraîné avec des flux de production spécifiques comme citoyens de première classe : sortie à citations ancrées pour RAG, appel natif de fonctions/outils avec schémas JSON structurés et couverture multilingue large à travers 10 langues que Cohere considère commercialement importantes. Pour les plebs dont le travail implique la récupération contre leurs propres corpus de documents — le cas d’usage archétypique « pointer un LLM vers mes notes Markdown » ou « construire un assistant local qui connaît ma codebase » — Command R+ est un modèle entraîné spécifiquement pour ce travail. Voici ce qu’il y a dans les poids, le cliché de benchmarks et le verdict pleb honnête sur le fait que 104B en vaille le coût VRAM quand Llama 3 arrive d’une semaine à l’autre.
Ce qu’il y a dans les poids
Command R+ est un transformer dense uniquement décodeur à 104B paramètres. La filiation Command de Cohere : le Command original (2023, fermé) → Command R (mars 2024, 35B, à poids ouverts sous CC-BY-NC) → Command R+ aujourd’hui. Cohere itère sur l’entraînement instruct de classe entreprise depuis sa fondation en 2019, et Command R+ est la version passée à l’échelle du travail d’instruction-tuning RAG-natif qu’ils publient depuis des années. Crédit à la filiation plus large du transformer (Transformer, Vaswani et al., 2017) et à la communauté de recherche NLP entreprise qui a défini le paradigme de génération augmentée par récupération.
Spécifications clés :
- 104B paramètres, dense (pas MoE)
- Fenêtre de contexte : 128K tokens — assez long pour des flux de récupération de documents substantiels
- Grouped-Query Attention pour une inférence efficace à cette échelle
- Langues : support primaire pour anglais, français, espagnol, italien, allemand, portugais, japonais, coréen, arabe et chinois
- Génération ancrée native : format de sortie structuré pour citer des documents récupérés avec références en ligne
- Appel d’outils natif : appel de fonctions basé sur schémas JSON avec support d’usage d’outils multi-étapes
- Licence : CC-BY-NC 4.0 (usage de recherche non-commercial) ; le déploiement commercial exige une licence Cohere
Le mode de génération ancrée est la capacité principale. Quand vous passez à Command R+ une requête plus un ensemble de documents récupérés, il répond dans un format qui inclut des marqueurs de citation structurés — pas juste un « selon les documents » vague, mais des numéros de référence en ligne réels liés à des IDs de documents spécifiques. C’est le format de sortie que les systèmes RAG veulent produire de toute façon ; Command R+ l’intègre dans le modèle plutôt que d’exiger des gymnastiques d’ingénierie de prompt ou du post-traitement. Pour les cas d’usage RAG de production (agents de support client, récupération de documents légaux, bases de connaissances internes), c’est une amélioration substantielle de capacité par rapport aux modèles généralistes.
L’appel d’outils natif est également bien pensé. Vous passez une liste d’outils disponibles avec des schémas JSON, et le modèle produit une sortie d’appel de fonction structurée quand il veut utiliser un outil. L’usage d’outils multi-étapes (planifier → appeler outil → raisonner sur le résultat → appeler un autre outil → répondre) est une capacité entraînée plutôt qu’un truc de prompt. Pour les flux agentiques, c’est la différence entre « fonctionne habituellement » et « fonctionne de façon fiable ».
Benchmarks au lancement
Les chiffres publiés par Cohere sont plus rares que ceux de plusieurs concurrents — la fiche HF publie MMLU à 75,7 (d’après l’évaluation Open LLM Leaderboard), et Cohere positionne le modèle principalement via des benchmarks spécifiques RAG et spécifiques usage d’outils plutôt que la suite de raisonnement standard. De la fiche du modèle Hugging Face :
- MMLU : 75,7 — respectable mais pas frontière ; derrière le palier 82,0 de Llama 3 70B et bien derrière ce que le compte de 104B paramètres pourrait suggérer si vous attendiez des gains de pur raisonnement
- Multilingue : les propres évaluations de Cohere montrent un fort transfert cross-lingual sur les 10 langues supportées, bien que l’ensemble de comparaison varie selon les langues
- Benchmarks RAG : Cohere publie des évaluations spécifiques RAG montrant Command R+ en tête des pairs à poids ouverts sur la citation fidèle et les tâches de récupération multi-sauts
- Usage d’outils : forte performance sur les évaluations style ToolBench où les flux d’agents multi-étapes comptent
La lecture honnête : Command R+ n’est pas un modèle de frontière de raisonnement pur. Un 104B dense entraîné pour le raisonnement général scorerait probablement plus haut sur MMLU. Cohere a délibérément échangé une partie de la capacité de raisonnement général pour un entraînement spécialisé sur RAG, l’usage d’outils et les flux multilingues. Pour les cas d’usage pour lesquels le modèle a été conçu, il est au sommet du tas à poids ouverts aujourd’hui. Pour les benchmarks de chat ou raisonnement génériques, Llama 3 70B (arrivant plus tard cette année) sera probablement un choix plus fort.
Implications pour les plebs souverains — réalité VRAM honnête
Ce n’est pas un modèle de rig maison grand public pour la plupart des plebs. 104B paramètres denses, c’est du matériel sérieux. Les maths VRAM :
- fp16 : ~208 Go — territoire multi-nœud ou multi-A100
- Q8 : ~104 Go — 2× A100 80 Go, ou un rig 8× RTX 3090 avec parallélisme tensoriel soigneux
- Q4_K_M (GGUF) : ~60 Go — double 3090 24 Go (48 Go total) avec offload CPU, ou un rig 4× 24 Go sans. Mac Studio M2 Ultra 128 Go fait tourner ça en Q4 avec mémoire unifiée.
- Q3/Q2 (quant agressif) : ~35-50 Go — possible sur un rig 2× 24 Go, mais la qualité se dégrade et la vitesse chute
Voir le guide de quantification GGUF pour les compromis. À 104B, Q4 est un impact qualité substantiel comparé à une précision plus élevée — pas dévastateur, mais sensible sur les flux RAG complexes où le modèle doit raisonner soigneusement à travers les documents récupérés.
Les motifs de déploiement pleb pratiques :
- Mac Studio M2 Ultra 128 Go : fait tourner Command R+ en Q4 confortablement via Ollama ou LM Studio. Le chemin Apple Silicon est véritablement attrayant pour ce modèle — mémoire unifiée et consommation électrique raisonnable, au coût d’une inférence plus lente qu’un rig GPU dédié.
- Station de travail multi-GPU (2× A6000 ou 4× 3090) : le rig pleb sérieux. Fait tourner Command R+ en Q8 avec marge. C’est du matériel d’échelle Hashcenter, pas du territoire de bureau.
- A100 cloud à la demande : le compromis réaliste pour les plebs qui ont besoin de Command R+ occasionnellement mais ne veulent pas acheter le matériel. Les locations horaires rendent l’expérimentation abordable.
Pour la plupart des plebs, la réponse honnête est : Command R (le cousin 35B, même licence CC-BY-NC) est le modèle à faire tourner, pas Command R+. Command R en Q5 tient sur une seule carte 24 Go, livre la plupart des capacités RAG-natives à un coût VRAM substantiellement plus bas et laisse de la marge pour d’autres charges. Command R+ est le modèle pour les plebs qui ont fait le saut multi-GPU ou acheté un Mac Studio spécifiquement pour l’inférence locale.
La licence CC-BY-NC est l’autre grosse considération. Le déploiement commercial exige une licence Cohere — vous ne pouvez pas légalement faire tourner Command R+ comme épine dorsale d’un produit payant sans négocier des termes. Pour la recherche, l’usage personnel et les projets sans revenus, CC-BY-NC convient. Pour tout déploiement Hashcenter commercial, c’est un blocage. Les sorties Apache 2.0 de Mistral ou les sorties Llama ultérieures (avec leurs propres particularités autour de l’usage acceptable) sont les alternatives à licence permissive.
Verdict du monde réel pour les plebs
Command R+ vaut la VRAM si tout ce qui suit s’applique :
- Vous faites tourner une charge RAG sérieuse où la qualité de citation compte (recherche légale, assistants de documentation technique, pistes d’audit)
- Vous avez 48 Go+ de VRAM disponible ou tournez Apple Silicon avec 128 Go+ de mémoire unifiée
- Votre cas d’usage est non-commercial ou vous avez une licence Cohere
- La couverture multilingue à travers les 10 langues de Cohere est une exigence substantielle plutôt qu’un plus
Ce n’est pas le bon choix si :
- Vous faites du chat général, du codage ou du travail de raisonnement — les modèles généralistes plus petits (classe Llama 70B, sorties Mistral) serviront mieux par watt
- Vous n’avez qu’une seule carte 24 Go — Command R 35B est le choix sensé à cette échelle
- Vous construisez un produit commercial sur infrastructure à poids ouverts — la licence non-commerciale est une contrainte réelle
- Votre corpus de récupération est assez petit pour que le bourrage de fenêtre de contexte batte RAG — les modèles plus petits à long contexte peuvent gérer ça directement
Pour les builds inférence-comme-chauffage, 104B dense en Q4 sur un rig multi-GPU est une charge de chaleur soutenue substantielle — 600-900 W continus pour une configuration 2× 3090 + A6000 faisant tourner Command R+ à un débit raisonnable. C’est du chauffage d’espace substantiel. Pour les conversions ASIC-vers-IA Hashcenter servant des charges internes non-commerciales, Command R+ est un modèle phare crédible, bien que Llama 3 (arrivant d’une semaine à l’autre) prendra probablement cette place par mérite pur une fois atterri.
Comment l’exécuter dès aujourd’hui
Les poids sont sur CohereForAI/c4ai-command-r-plus. L’entrée de registre Ollama est en ligne :
ollama pull command-r-plus
Nouveau à Ollama ? Le guide d’installation Ollama en 10 minutes couvre la configuration. Pour l’UI chat, Open WebUI s’associe à Ollama proprement. LM Studio charge les quants GGUF directement — les quants Q4 et Q5 de Bartowski sont apparus sur HF dans les heures suivant la sortie. Pour les déploiements de production ciblant les capacités RAG-natives spécifiquement, la propre documentation de déploiement de Cohere et le SDK Python Cohere sont le chemin canonique (bien que ce soit plus pertinent pour les clients API hébergés par Cohere que pour les auto-hébergeurs).
Des problèmes ? Le guide de dépannage IA auto-hébergée couvre le parallélisme tensoriel multi-GPU et les problèmes de chargement de gros modèles.
Ce qui vient ensuite
La cadence de sorties à poids ouverts de Cohere a été à peu près trimestrielle pour Command R, et Command R+ continue ce motif. Attendez-vous à un cycle de rafraîchissement Command R/R+ dans la prochaine année. Plus immédiatement : les benchmarks spécifiques RAG pour lesquels le modèle a été optimisé sont un petit marché aujourd’hui mais en croissance rapide, et le pari de Cohere est que les clients entreprise voudront de plus en plus des options à poids ouverts pour la souveraineté et le contrôle. Pour les plebs, c’est utile — la demande entreprise finance les entraînements qui produisent les artefacts à poids ouverts dont nous bénéficions.
Vue d’ensemble : Command R+ est une couche de plus de décentralisation dans le paysage des poids ouverts, spécifiquement dans le segment RAG et usage d’outils où les modèles généralistes ont historiquement sous-performé. La licence CC-BY-NC est la limitation claire — c’est de la décentralisation-lite, pas l’histoire Apache 2.0 complète — mais pour les plebs dont le travail est non-commercial, Command R+ est un pas de capacité en avant. Consultez le Manifeste IA souveraine pour Bitcoiners pour l’argumentaire, les rétrospectives connexes Mixtral 8x7B (l’alternative MoE clairsemée à une échelle différente) et Mistral 7B (ligne de base Apache-2.0) pour la comparaison du paysage de licences, et RTX 3090 usagée pour LLMs plus chaufferette Bitcoin pour le côté matériel de faire tourner quelque chose de cette taille à la maison. Téléchargez les poids si vous avez le rig ; saisissez Command R si vous ne l’avez pas.
Benchmarks tracked
Recommended hardware
Multi-GPU rig or cloud territory. For most plebs, the 70B distillation is plenty.
Get it running
-
01
Install Ollama →
Ten-minute local LLM runtime. One binary, zero cloud.
-
02
Give it a web UI →
Open-WebUI turns Ollama into a self-hosted ChatGPT.
-
03
Understand quantization →
GGUF Q4/Q8/FP16 — which weights fit your GPU, explained.
Further reading: the Sovereign AI for Bitcoiners Manifesto for why sovereign inference matters, and From S19 to Your First AI Hashcenter for repurposing your mining rack into a Hashcenter that runs models like this one.
