Current

Whisper Large v3

OpenAI · Whisper family · Released novembre 2023

Le modèle ASR ouvert d OpenAI de novembre 2023 — 1,55B paramètres, sous licence MIT, la référence ouverte pour la reconnaissance vocale multilingue.

Model card

Developer	OpenAI
Family	Whisper
License	MIT
Modality	audio
Parameters (B)	1.55
Context window	0
Release date	novembre 2023
Primary languages	en,fr,de,es,it,pt,zh,ja,ko,ar,ru,hi
Hugging Face	openai/whisper-large-v3
Ollama	Not on Ollama registry

Whisper Large v3 publié : la bête de somme ASR d’OpenAI, sous licence MIT

OpenAI vient de publier Whisper Large v3 — la troisième génération de son modèle à poids ouverts de reconnaissance vocale automatique (ASR), sous licence MIT. Les poids sont sur Hugging Face à openai/whisper-large-v3 dès aujourd’hui, annoncé sur le dépôt OpenAI Whisper. Le modèle est un transformer encodeur-décodeur de 1,55 milliard de paramètres entraîné sur environ 5 millions d’heures d’audio supervisé multilingue, et c’est le modèle ouvert de référence pour la transcription, la traduction et l’identification de langues à travers des douzaines de langues.

Whisper est la bête de somme silencieuse de l’écosystème IA à poids ouverts. Les grands modèles de langage obtiennent l’attention culturelle ; Whisper est déployé. Pipelines de transcription de podcasts, outils de notes de réunions, outillage d’accessibilité, sous-titrage, interfaces vocales pour assistants auto-hébergés — tout ça tourne sur Whisper. La sortie v3 est une mise à niveau substantielle de capacité sur v2 (décembre 2022) et cimente davantage Whisper comme le défaut de transcription pour les plebs qui veulent garder les données audio hors des serveurs des autres. Voici ce qui est nouveau dans v3, les maths VRAM et CPU, et le flux pleb pour la transcription auto-hébergée.

Ce qu’il y a dans les poids

Whisper est un transformer encodeur-décodeur standard adapté pour l’audio. L’audio est converti en spectrogramme log-mel (une représentation 2D de la fréquence du son dans le temps), découpé en fenêtres de 30 secondes et alimenté à travers l’encodeur transformer. Le décodeur génère des tokens de texte de façon autorégressive, conditionné sur la sortie de l’encodeur et un ensemble de tokens de tâche spéciaux au début de la séquence. Ces tokens de tâche sont ce qui rend Whisper multitâche : les mêmes poids gèrent la transcription, la traduction vers l’anglais et l’identification de langue, sélectionnés par prompt plutôt que par des modèles séparés.

La filiation : Transformer (Vaswani et al., 2017) → recherche encodeur-décodeur pour la parole (wav2vec, VALL-E, divers) → Whisper v1 (septembre 2022, entraîné sur 680K heures) → Whisper v2 (décembre 2022, même architecture, entraînement amélioré) → Whisper Large v3 aujourd’hui.

Spécifications clés pour v3 :

1,55B paramètres, transformer encodeur-décodeur
Données d’entraînement : ~5M heures d’audio supervisé multilingue (vs ~680K pour v1), substantiellement passé à l’échelle depuis le corpus v1/v2
Spectrogramme mel : 128 bins mel (contre 80 dans v2), pour une résolution fréquentielle plus fine
Découpage audio : fenêtres de 30 secondes, avec couture à chevauchement pour l’audio continu
Langues : 99 supportées, avec un ajout cantonais nouveau dans v3
Tâches : transcription (langue source), traduction (vers l’anglais), identification de langue
Licence : MIT — pleinement permissive, usage commercial sans restriction

Les améliorations de v3, selon les notes de sortie d’OpenAI : erreurs réduites à travers la plupart des langues par rapport à v2 (réduction moyenne du taux d’erreurs de 10-20 % selon la langue), meilleure gestion de la transcription non-anglaise (gains particulièrement forts dans les langues à faibles ressources) et précision améliorée des timestamps. L’entrée spectrogramme 128-mel est le principal changement architectural — tout le reste est raffinement de données d’entraînement et de recette d’entraînement.

Cliché de benchmark — taux d’erreur de mots

Whisper est évalué avec le taux d’erreur de mots (WER), la métrique ASR standard. Plus bas est mieux. Le WER compte les éditions au niveau des mots (insertions, suppressions, substitutions) nécessaires pour transformer la transcription en vérité de terrain, normalisées par la longueur de référence. Les chiffres WER ci-dessous viennent des notes de sortie v3 d’OpenAI et de la fiche du modèle HF :

LibriSpeech test-clean : ~1,8 % WER. C’est proche du niveau humain sur de la parole anglaise propre et préparée.
LibriSpeech test-other : ~3,6 % WER. Conditions anglaises plus bruyantes — toujours solide.
Common Voice 15 : WER varie selon la langue. Anglais dans la plage 5-7 % sur des locuteurs et accents divers ; les langues à faibles ressources sensiblement améliorées sur v2.
FLEURS (multilingue) : larges gains sur v2 à travers la couverture de langues du benchmark, v3 établissant de nouveaux planchers pour la référence à poids ouverts sur plusieurs paires de langues.

Le point pratique pour les plebs : sur de l’audio anglais propre (podcasts avec bons micros, conférences préparées, voix hors-champ claires), Whisper Large v3 produit des transcriptions quasi prêtes à la publication avec relecture minimale. Sur de l’anglais bruyant ou du contenu non-anglais, le WER grimpe mais reste utilisable pour la plupart des flux. Pour les langues où v2 était marginal (gallois, amharique, javanais et autres langues similaires à faibles ressources), v3 est sensiblement meilleur.

Implications pour les plebs souverains — pourquoi ça reste le défaut

Whisper est le défaut ASR à poids ouverts depuis un an maintenant, et v3 étend plutôt qu’il ne perturbe cette position. Les raisons pour lesquelles il l’emporte sur les alternatives pour l’usage auto-hébergé :

Licence MIT — pas d’astérisques, pas de seuils de revenus, pas de restrictions par cas d’usage. Vous pouvez déployer Whisper dans n’importe quel produit à n’importe quelle échelle.
Empreinte VRAM modeste — 1,55B paramètres est petit selon les standards de 2023 et trivial selon les standards des LLM de frontière
Couverture linguistique — 99 langues depuis un seul jeu de poids
Écosystème d’outils — whisper.cpp, faster-whisper, WhisperX et le dépôt OpenAI natif supportent tous v3 rapidement après la sortie
Exécutable en CPU — inhabituel pour les modèles ouverts modernes ; Whisper tourne crédiblement en CPU, ouvrant des options de déploiement que les GPUs n’ouvrent pas

Les maths VRAM et CPU pour v3 :

Whisper Large v3 FP16 sur GPU : environ 3 Go VRAM. Tourne sur tout depuis une GTX 1060 vers le haut. Sur une RTX 3090 usagée, la transcription est 20-50× plus rapide que le temps réel.
Whisper Large v3 INT8 via faster-whisper (CTranslate2) : environ 1,5 Go VRAM. Temps réel ou plus rapide sur un GPU de portable modeste. Le déploiement recommandé pour la plupart des flux pleb.
Whisper Large v3 sur CPU via whisper.cpp : 1,5-3 Go RAM avec quantification Q5. Un CPU moderne 8-cœurs transcrit à peu près à la vitesse du temps réel — utilisable pour les flux batch et étonnamment pratique pour un modèle 1,5B.
Variantes Whisper plus petites (base, small, medium) : toujours disponibles à 74M, 244M, 769M paramètres. Pour les plebs tournant sur matériel classe Raspberry Pi ou appareils embarqués, ce sont les cibles sensées.

Motifs de déploiement que les plebs utilisent vraiment en 2023 :

Transcription de podcasts et vidéos : faster-whisper sur une boîte GPU, traitement par lots des archives d’émissions en texte recherchable. Une seule 3090 peut transcrire un podcast d’une heure en 2-3 minutes.
Notes de réunion pour home labs : Whisper + un petit LLM (Llama 3 ou Mistral 7B) pour la synthèse = transcriptions de réunions entièrement auto-hébergées sans que Zoom ou Otter ne voient l’audio.
Interfaces vocales pour assistants auto-hébergés : faster-whisper comme frontend STT pour Home Assistant voice, Rhasspy ou des pipelines vocales personnalisées. Associé à un modèle TTS (Piper, XTTS) et un LLM, c’est une stack d’assistant vocal complète tournant entièrement sur le Hashcenter.
Sous-titrage et accessibilité : WhisperX ajoute des timestamps au niveau des mots et la diarisation des locuteurs par-dessus Whisper, produisant des fichiers de sous-titres avec étiquettes de locuteur. Pour les créateurs de contenu, c’est la pipeline de sous-titres open-source.
Archivage et recherche : transcrire de grandes archives d’appels téléphoniques, d’enregistrements radio ou de vidéos familiales en corpus de texte recherchables. L’argument de confidentialité ici est tout le dossier pour l’auto-hébergement — les archives audio contiennent des données personnelles sérieuses qui n’appartiennent pas au cloud de quelqu’un d’autre.

Pour les plebs tournant des builds inférence-comme-chauffage, Whisper ne remplit pas un GPU comme le fait un LLM — la transcription batch est intermittente, pas soutenue. Mais il s’associe bien comme charge secondaire sur un Hashcenter tournant déjà des LLMs : le même matériel gère audio et texte sans avoir besoin d’infrastructure ASR dédiée.

Comment l’exécuter dès aujourd’hui

Trois chemins, chacun adapté à un contexte de déploiement différent :

faster-whisper (backend CTranslate2) — le défaut pleb pour la transcription basée GPU. Installer avec pip install faster-whisper, passer le nom de modèle large-v3, et il télécharge et tourne. Dramatiquement plus rapide que l’implémentation de référence OpenAI. github.com/SYSTRAN/faster-whisper.
whisper.cpp — l’implémentation C++ amicale-CPU, avec accélération GPU optionnelle via Metal (Apple Silicon) ou CUDA. Meilleur pour les déploiements embarqués, l’usage portable ou les serveurs CPU-seul. github.com/ggerganov/whisper.cpp.
WhisperX — faster-whisper plus timestamps au niveau des mots et diarisation des locuteurs. Le bon choix pour la génération de sous-titres ou tout flux où vous avez besoin de savoir non seulement ce qui a été dit mais quand et par qui. github.com/m-bain/whisperX.

Les poids se téléchargent automatiquement à la première utilisation pour les trois outils — vous n’avez pas besoin de les récupérer depuis HF manuellement sauf si vous déployez dans un environnement isolé. Pour les déploiements de production, le guide de dépannage IA auto-hébergée couvre les problèmes communs spécifiques à Whisper (réglage VAD, couture d’audio long format, échecs de détection de langue).

Ce qui vient ensuite

OpenAI n’a pas publié de feuille de route pour Whisper v4, et il n’y a pas de raison particulière d’en attendre une imminemment — v3 est le genre de sortie qui solidifie le défaut ASR à poids ouverts pour un couple d’années. Les développements probables sont du côté communautaire : travail de distillation continu (distil-whisper de Hugging Face produit une variante 6× plus rapide à coût qualité mineur), fine-tunes spécifiques aux langues supplémentaires, et intégration dans plus d’outils en aval.

Le paysage concurrentiel pour l’ASR à poids ouverts : SeamlessM4T de Meta est le principal pair, avec des compromis différents (focus traduction multilingue, plus grand modèle). Canary de NVIDIA et divers systèmes académiques existent mais n’ont pas la combinaison de Whisper : licence permissive, support d’outils large et capacité multi-tâche. Pour les plebs, Whisper Large v3 est le choix de référence clair entrant dans 2024.

Vue d’ensemble : un modèle 1,55B sous licence MIT qui peut transcrire 99 langues sur un portable est le genre d’outil qui rend les stacks IA auto-hébergées vraiment utiles. Les LLMs obtiennent les titres, mais pour la plupart des plebs, la pipeline audio est là où le caoutchouc rencontre la route — podcasts, appels, réunions, commandes vocales. Whisper Large v3 gère tout cela aujourd’hui, sur du matériel que les plebs possèdent déjà, sous une licence qui ne restreint pas ce qu’ils peuvent construire. Consultez le Manifeste IA souveraine pour Bitcoiners pour l’argumentaire plus large, le guide du pleb pour l’IA auto-hébergée pour la place de Whisper dans une stack maison multimodale, et chaufferette Bitcoin pour le côté matériel. Téléchargez les poids, choisissez l’outil qui convient à votre déploiement, possédez votre audio.

Recommended hardware

Runs on 8 GB VRAM or Apple Silicon 16 GB unified — a used 3060 or an M1/M2 Mac handles this fine.

Buying guide: used RTX 3090 for LLMs (2026) →

Get it running

01 Install Ollama →
Ten-minute local LLM runtime. One binary, zero cloud.
02 Give it a web UI →
Open-WebUI turns Ollama into a self-hosted ChatGPT.
03 Understand quantization →
GGUF Q4/Q8/FP16 — which weights fit your GPU, explained.

Further reading: the Sovereign AI for Bitcoiners Manifesto for why sovereign inference matters, and From S19 to Your First AI Hashcenter for repurposing your mining rack into a Hashcenter that runs models like this one.