Current

Phi-4

Name: Phi-4 model dataset
Creator: Microsoft
Published: 2024-12-12T10:00:00-05:00
License: https://d-central.tech/terms-and-conditions/

Microsoft · Phi family · Released décembre 2024

Phi-4 de Microsoft Research de décembre 2024 — un modèle dense 14B sous licence MIT qui cogne bien au-dessus de sa catégorie en maths et raisonnement.

Model card

Developer	Microsoft
Family	Phi
License	MIT
Modality	text
Parameters (B)	14
Context window	16384
Release date	décembre 2024
Primary languages	en
Hugging Face	microsoft/phi-4
Ollama	`ollama pull phi4`

Phi-4 publié : le 14B de Microsoft cogne à des benchmarks de classe 70B

Microsoft vient de déployer Phi-4 — un modèle de langage de 14 milliards de paramètres qui, selon la sortie, égale ou bat des concurrents ouverts et fermés bien plus grands sur les benchmarks de raisonnement axés STEM. Le modèle atterrit aujourd’hui en research preview sur Azure AI Foundry, avec le rapport technique complet sur arXiv. Les poids suivront sur Hugging Face sous licence MIT.

Phi-4 est la quatrième génération de la ligne de recherche de petits modèles de Microsoft, et celle qui articule le plus clairement la thèse Phi : la qualité des données bat le nombre de paramètres. Là où les concurrents ont passé à l’échelle des paramètres (671B de DeepSeek V3 la semaine dernière, 70B de Llama 3.3 plus tôt ce mois-ci), Microsoft passe à l’échelle la curation des données d’entraînement et la génération de données synthétiques, gardant le modèle petit tout en revendiquant des performances de raisonnement de classe frontière. Voici ce qu’il y a dans le modèle, ce que disent les benchmarks au lancement, et ce qu’un 14B qui rivalise en STEM signifie pour une stack pleb souveraine.

Ce qu’il y a dans les poids

Phi-4 est un transformer uniquement décodeur de 14B. Architecturalement, c’est une évolution proche de Phi-3-Medium (14B, publié en avril 2024) — Microsoft note explicitement dans le rapport technique que « phi-4 apporte des changements minimaux à l’architecture phi-3 ». Les gains viennent du côté données et post-entraînement, pas d’une nouveauté architecturale.

La filiation Phi : Transformer (2017) → Phi-1 (juin 2023, 1,3B, spécialisé code) → Phi-1.5 → Phi-2 (décembre 2023, 2,7B) → Phi-3 (avril 2024, 3,8B / 7B / 14B) → Phi-4 aujourd’hui. La ligne de recherche a été dirigée par Sébastien Bubeck et collaborateurs chez Microsoft Research, et la thèse centrale — selon laquelle des données d’entraînement soigneusement curées + synthétiques peuvent livrer des capacités disproportionnées par paramètre — a tenu à travers quatre générations.

Spécifications clés :

14B paramètres, transformer uniquement décodeur dense
Fenêtre de contexte : 16K tokens (un saut clair depuis les variantes 4K/128K de Phi-3-Medium ; Phi-4 atterrit à 16K natif)
Données d’entraînement : ~9,8T tokens, avec une forte emphase sur les données synthétiques générées par des modèles enseignants plus grands (dont GPT-4)
Approche d’entraînement : curriculum multi-étapes, avec données synthétiques maths / raisonnement / code, et post-entraînement basé sur DPO
Tokenizer : SentencePiece à vocabulaire de 100 352
Licence : MIT License (à la sortie HF) — pleinement permissive, commercial OK

Le détail marquant est la stratégie des données d’entraînement. Phi-4 a été entraîné principalement sur des données synthétiques — exemples de qualité manuel générés par de plus grands modèles (GPT-4 et un « modèle enseignant pivot » mentionné dans le rapport technique), filtrés agressivement pour la qualité. Le rapport technique est explicite : Phi-4 « dépasse substantiellement son modèle enseignant sur les capacités de QA axées STEM ». C’est une revendication importante — elle dit que les modèles étudiants peuvent surpasser les enseignants sur des axes spécifiques quand le curriculum est conçu soigneusement. Que cela se généralise aux tâches non-STEM est la question ouverte que la communauté va tester.

Benchmarks au lancement

Depuis le rapport technique de Microsoft, publié aujourd’hui :

MMLU : Phi-4 à 84,8 vs Llama 3.3 70B à 86,0 et GPT-4o à 88,1 — Phi-4 est à moins de deux points de la classe 70B.
GPQA Diamond : Phi-4 à 56,1 vs Llama 3.3 70B à 50,5 et GPT-4o à 50,6 — Phi-4 est devant les deux sur le raisonnement STEM de niveau graduate.
MATH : Phi-4 à 80,4 vs Llama 3.3 70B à 77,0 et GPT-4o à 74,6 — Phi-4 devant.
HumanEval (code) : Phi-4 à 82,6 vs Llama 3.3 70B à 88,4 et GPT-4o à 90,6 — Phi-4 traîne ici ; le code n’est pas son point fort.
MGSM (maths scolaires multilingues) : Phi-4 à 80,6 vs 87,0 de Llama 3.3 70B — Phi-4 traîne sur le multilingue.
AMC-10/12 (compétitions de maths du secondaire) : Phi-4 à 91,8 — meilleur de sa classe pour sa taille.
SimpleQA (rappel factuel) : Phi-4 plus bas que les modèles plus grands, reflétant l’entraînement riche en synthétique — Phi-4 est fort en raisonnement, modéré en connaissance.

Le motif est cohérent. Phi-4 gagne en STEM, maths et raisonnement. Il perd sur le rappel factuel de longue traîne, la couverture multilingue et une partie du code. C’est le profil attendu pour un 14B curé par données : il est net là où le curriculum s’est concentré, plus faible là où il ne l’a pas fait. L’Open LLM Leaderboard le placera dans les prochains jours.

Implications pour les plebs souverains

Phi-4 à 14B atterrit dans un échelon VRAM particulièrement utile pour les plebs. Maths en Q4_K_M :

Phi-4 en fp16 : environ 28 Go. Tient sur une 3090 usagée (24 Go) avec offload léger, propre sur une carte 32 Go ou 48 Go.
Phi-4 en Q8 : environ 15 Go. Confortable sur 3090, 4080, 4090 seule, ou 4060 Ti 16 Go avec de la place.
Phi-4 en Q5_K_M : environ 10 Go. Sweet spot pour une 3060 ou 3080 12 Go.
Phi-4 en Q4_K_M : environ 8 Go. Territoire carte 8 Go seule, tourne confortablement sur une 3060 Ti ou 4060.

Voir le guide de quantification GGUF pour les compromis de qualité. Sur 14B, la plage Q5-Q6 est généralement le meilleur point prix-performance si la VRAM le permet.

Ce que cela remplace dans une stack pleb :

Charges STEM / maths / raisonnement : Phi-4 est maintenant le go-to poids ouverts sous les 20B. Si vous utilisiez Qwen 2.5 14B ou Gemma 2 27B pour les maths, faites tourner Phi-4 tête-à-tête sur vos tâches spécifiques — ce peut être une mise à niveau propre à taille plus petite.
Codage : ne remplacez pas Qwen 2.5-Coder 32B par Phi-4. Phi-4 traîne sur le code. Gardez votre modèle code ; ajoutez Phi-4 comme spécialiste STEM.
Chat factuel / connaissance de longue traîne : ne remplacez pas Llama 3.3 70B ou Qwen 2.5 72B pour le chat général. L’entraînement fortement synthétique de Phi-4 laisse des trous sur les faits obscurs que les modèles plus grands comblent.
Rigs maison mono-GPU : Phi-4 en Q5 sur une carte 12 Go est la nouvelle option « raisonnement haut de gamme à la maison » pour les plebs qui ne peuvent pas passer au dual-GPU. C’est une mise à niveau substantielle sur tout ce qui existe dans la classe 14B.

Pour les builds inférence-comme-chauffage, une 3090 unique poussant Phi-4 en charge soutenue est une source de chaleur de 350 W qui fait du travail STEM de classe frontière — excellent profil thermique. Pour les petits opérateurs de Hashcenter, 14B en Q8 permet d’empiler plus de sessions concurrentes sur un hôte mono-GPU que les modèles de classe 70B, ce qui compte quand on sert plusieurs utilisateurs par carte.

Comment l’exécuter dès aujourd’hui

Phi-4 est actuellement en research preview sur Azure AI Foundry. Microsoft a annoncé que les poids arriveront sur Hugging Face sous licence MIT dans les semaines à venir — et des miroirs communautaires des poids preview peuvent apparaître plus tôt. Une fois sur HF, Phi-4 atterrira sur le registre Ollama rapidement :

ollama pull phi4

(Cette commande fonctionnera une fois l’entrée de registre en ligne — attendez-vous à quelques jours après que les poids HF soient publics.) Nouveau à Ollama ? Le guide d’installation Ollama en 10 minutes couvre la configuration. Pour une UI chat, Open WebUI fonctionne proprement.

Utilisateurs de LM Studio : surveillez l’apparition des quants GGUF de Bartowski pour Phi-4 sur Hugging Face dans les 24 heures suivant la sortie MIT. Des problèmes ? Le guide de dépannage IA auto-hébergée couvre les embûches GPU et chargement habituelles.

Ce qui vient ensuite

Microsoft va presque certainement expédier une variante Phi-4-mini (plus petite, plus rapide, ciblée edge) suivant le motif de Phi-3. Attendez-vous à des variantes instruct au-delà du défaut d’aujourd’hui, et un Phi-4-Vision multimodal est plausible vu la précédente sortie Phi-3-Vision de Microsoft. Les fine-tunes communautaires apparaîtront sur Hugging Face une fois les poids MIT publics — la licence permissive rend le travail dérivé sans friction.

Vue d’ensemble : Phi-4 est la validation la plus forte à ce jour de la thèse données-sur-paramètres. Si un 14B peut rivaliser avec la classe 70B en STEM, la question « quelle taille doit avoir votre modèle ? » a une réponse nouvelle et plus intéressante — « ça dépend de la charge, et probablement plus petit que vous pensiez ». Pour les plebs souverains, c’est une excellente nouvelle : les modèles plus petits tiennent sur du matériel moins cher, tournent plus vite et chauffent moins — tout en faisant du vrai travail. Téléchargez les poids quand ils arriveront sur HF, testez Phi-4 contre vos charges maths et raisonnement, et possédez votre stack. Consultez le Manifeste IA souveraine pour l’argumentaire, et le guide du pleb pour l’IA auto-hébergée pour l’installation.

Lectures complémentaires : La même infrastructure de classe pleb qui fait tourner l’inférence locale fait aussi tourner une chaufferette Bitcoin. Plusieurs lecteurs arrivent du côté minage — consultez Du S19 à votre premier Hashcenter IA pour le pont.

Benchmarks tracked

GPQA HumanEval MATH MMLU MT-Bench

Recommended hardware

Runs on 16 GB VRAM — 4070 Ti or M3 Pro. Quantized Q4 fits comfortably.

Buying guide: used RTX 3090 for LLMs (2026) →

Get it running

01 Install Ollama →
Ten-minute local LLM runtime. One binary, zero cloud.
02 Give it a web UI →
Open-WebUI turns Ollama into a self-hosted ChatGPT.
03 Understand quantization →
GGUF Q4/Q8/FP16 — which weights fit your GPU, explained.

Further reading: the Sovereign AI for Bitcoiners Manifesto for why sovereign inference matters, and From S19 to Your First AI Hashcenter for repurposing your mining rack into a Hashcenter that runs models like this one.