Comment transformer votre voix en texte en temps réel avec Whisper Desktop
Les mêmes personnes qui sont à l’origine de ChatGPT ont créé un autre outil basé sur l’IA que vous pouvez utiliser dès aujourd’hui pour stimuler votre productivité. Il s’agit de Whisper, une solution de conversion de la voix en texte qui a éclipsé toutes les solutions similaires qui l’ont précédée.
Vous pouvez utiliser Whisper dans vos programmes ou en ligne de commande. Et pourtant, cela va à l’encontre de son objectif même : taper sans clavier. Si vous devez taper pour l’utiliser, pourquoi l’utiliser pour éviter de taper ? Heureusement, vous pouvez désormais utiliser Whisper via une interface graphique de bureau. Mieux encore, il peut également transcrire votre voix presque en temps réel. Voyons comment vous pouvez taper avec votre voix en utilisant Whisper Desktop.
Qu’est-ce que Whisper d’OpenAI ?
OpenAI’s Whisper est un système de reconnaissance automatique de la parole (ASR en abrégé) ou, pour le dire simplement, une solution permettant de convertir la langue parlée en texte.
Cependant, contrairement aux anciens systèmes de dictée et de transcription, Whisper est une solution d’IA entraînée sur plus de 680 000 heures de discours dans différentes langues. Whisper offre une précision inégalée et, chose impressionnante, non seulement il est multilingue, mais il peut également traduire d’une langue à l’autre.
Plus important encore, il est gratuit et disponible en tant que source ouverte. Grâce à cela, de nombreux développeurs ont intégré son code dans leurs propres projets ou créé des applications qui s’appuient sur lui, comme Whisper Desktop.
Si vous préférez la version « vanille » de Whisper et la polyvalence du terminal plutôt que des interfaces graphiques encombrantes, consultez notre article sur la transformation de votre voix en texte avec Whisper d’OpenAI pour Windows.
Whisper et Whisper Desktop sont-ils identiques ?
Malgré son nom officiel, Whisper Desktop est une interface graphique tierce pour Whisper, destinée à tous ceux qui préfèrent cliquer sur des boutons plutôt que de taper des commandes.
Whisper Desktop est une solution autonome qui ne dépend pas d’une installation Whisper existante. En prime, il utilise une version alternative et optimisée de Whisper, et devrait donc être plus performant que la version autonome.
Vous êtes à l’autre bout du spectre, et au lieu de chercher un moyen plus simple d’utiliser Whisper que le terminal, vous cherchez des moyens de l’implémenter dans vos propres solutions ? Réjouissez-vous, car OpenAI a ouvert l’accès aux API ChatGPT et Whisper.
Téléchargement & Installer Whisper Desktop
Bien que Whisper Desktop soit plus facile à utiliser que le Whisper autonome, son installation est plus alambiquée que le fait de cliquer plusieurs fois sur Suivant dans un assistant.
- Visite la page officielle de Whisper Desktop sur Github. Regardez à droite, et cliquez sur la dernière version sous Releases.
- Sous Actifs, cliquez sur WhisperDesktop.zip et téléchargez-le sur votre PC.
- Extrayez l’archive téléchargée dans un dossier et utilisez votre gestionnaire de fichiers pour le visiter. Vous y trouverez l’application Whisper Desktop. Double-cliquez dessus pour l’exécuter.
- Vous avez également besoin d’un modèle linguistique Whisper en GCML au format binaire. Whisper Desktop vous fournira deux liens pour en acquérir un. Sautez le deuxième lien pour générer votre propre modèle, car le processus est plus compliqué. Cliquez sur Visage étreint pour ouvrir cette page dans votre navigateur par défaut, d’où vous pourrez télécharger un fichier prêt à l’emploi.
- La version de Whisper Desktop que nous avons utilisée lors de la rédaction de cet article fournissait un lien vers un dépôt obsolète à Hugging Face. Si vous rencontrez le même problème, remarquez un lien vers un dépôt de nouvel emplacement. Cliquez dessus pour visiter le nouveau dépôt.
- Cliquez sur le lien qui vous amènera à l’emplacement disponible. disponibles.
- Dans cette liste, cliquez sur l’un ou l’autre des modèles ggml-medium.bin soit sur ggml-medium.en.bin selon que vous souhaitez un support multilingue ou uniquement anglais dans Whisper.
- Enfin, vous devriez avoir atteint votre destination. Notez la ligne indiquant que ce fichier est stocké dans Git LFS et qu’il est trop volumineux pour être affiché, mais que vous pouvez toujours le télécharger. Cliquez sur télécharger pour le faire.
- Une fois le téléchargement du fichier terminé, utilisez votre gestionnaire de fichiers préféré (l’Explorateur de fichiers fera l’affaire) pour déplacer le fichier du modèle linguistique téléchargé dans le même dossier que Whisper Desktop.
Transcription avec Whisper Desktop
La transcription avec Whisper Desktop est facile, mais il se peut que vous ayez besoin d’un ou deux clics pour utiliser l’application.
Relancez Whisper Desktop. Le chemin d’accès à votre modèle linguistique téléchargé est-il (encore) manquant ? Cliquez sur l’icône avec les trois points à droite du champ et sélectionnez manuellement le fichier que vous avez téléchargé depuis Hugging Face.
A partir de cet endroit, vous pouvez également utiliser le menu déroulant situé à côté de Mise en œuvre du modèle pour choisir si vous voulez exécuter Whisper sur votre GPU (GPU), sur le CPU et le GPU (Hybride), ou uniquement sur le CPU (Référence).
Les Avancées permet d’accéder à d’autres options qui affectent le fonctionnement de Whisper sur votre matériel. Cependant, comme le bouton indique clairement qu’il s’agit d’options avancées, nous vous suggérons de ne les modifier que si vous êtes en train de dépanner ou si vous savez ce que vous faites. Définir les mauvaises valeurs d’options ici peut imposer une pénalité de performance ou rendre l’application inutilisable.
Cliquez sur OK pour accéder à l’interface principale de l’application.
Si vous disposez déjà d’un enregistrement de votre voix que vous souhaitez transformer en texte écrit, cliquez sur Transcrire le fichier et sélectionnez-le. Cependant, nous utiliserons Whisper Desktop pour la transcription en direct dans le cadre de cet article.
Les options proposées sont simples. Vous pouvez sélectionner le langue Whisper utilisera, choisir si vous voulez traduire entre les langues et activez la fonction Debug Console.
La plupart des utilisateurs anglophones peuvent ignorer ces options et s’assurer que l’entrée audio correcte est sélectionnée dans le menu déroulant situé à côté de l’option Capture Device.
Assurez-vous que Enregistrer dans un fichier texte et Ajouter à ce fichier sont activées pour que Whisper Desktop enregistre sa sortie dans un fichier sans en écraser le contenu. Utilisez les options avec les trois points à droite du champ du chemin d’accès au fichier pour définir ce fichier texte.
Cliquez sur Capture pour commencer à transcrire votre discours en texte.
Whisper Desktop vous montrera trois indicateurs lorsqu’il détecte une activité vocale, lorsqu’il transcrit activement et lorsque le processus est bloqué.
Vous pouvez continuer à parler aussi longtemps que vous le souhaitez, et vous devriez de temps en temps voir les deux premiers indicateurs clignoter pendant que l’application transforme votre voix en texte. Cliquez Arrêter lorsque vous avez terminé.
Le fichier texte que vous avez sélectionné devrait s’ouvrir dans votre éditeur de texte par défaut, contenant sous forme écrite tout ce que vous avez dit jusqu’à ce que vous cliquiez sur Stop.
Il convient de noter que vous pouvez également faire le contraire de ce que nous avons vu ici : convertir n’importe quel texte en parole. De cette façon, vous pouvez écouter n’importe quoi comme s’il s’agissait d’un podcast au lieu de vous fatiguer les yeux en regardant des écrans. Pour plus d’informations à ce sujet, consultez notre article sur les meilleurs outils gratuits en ligne pour télécharger la synthèse vocale au format MP3.
Conseils pour la dactylographie vocale avec Whisper Desktop
Bien que Whisper Desktop puisse vous sauver la vie en vous permettant d’écrire avec votre voix beaucoup plus rapidement que vous ne le feriez en tapant à la machine, il est loin d’être parfait.
Lors de nos tests, nous avons constaté qu’il pouvait parfois bégayer, sauter des mots, ne pas transcrire jusqu’à ce que vous arrêtiez et redémarriez manuellement le processus, ou rester bloqué dans une boucle et retranscrire la même phrase à plusieurs reprises.
Nous pensons qu’il s’agit de problèmes temporaires qui seront résolus puisque le Whisper autonome ne présente pas les mêmes problèmes.
Mis à part ces petits problèmes, transformer votre voix en texte devrait se faire sans effort avec Whisper Desktop. Cependant, au cours de nos tests, nous avons constaté qu’il peut être encore plus performant si.
- Au lieu de prononcer seulement deux ou trois mots et de faire une pause, Whisper peut mieux vous comprendre si vous continuez plus longtemps. Essayez au moins de lui donner une phrase entière à la fois.
- Pour la même raison, évitez de démarrer et d’arrêter le processus de transcription de manière répétée.
- Chaque fois que vous vous rendez compte que vous avez fait une erreur, ignorez-la et continuez. Le chargement et le déchargement du modèle de langage semble être la partie la plus longue du processus dans l’état actuel de Whisper et de notre matériel disponible. Il est donc plus rapide de continuer à parler et d’éditer vos erreurs par la suite.
- Comme pour la version autonome de Whisper, il est préférable d’utiliser le modèle linguistique optimal pour votre matériel disponible. Vous pouvez utiliser jusqu’à moyen si votre GPU dispose de 8 Go de VRAM. Si vous disposez de moins de VRAM, optez pour les modèles les plus petits. Ne choisissez que le modèle un peu plus précis mais aussi beaucoup plus exigeant grand que si vous utilisez un GPU avec 16 Go de VRAM ou plus.
- N’oubliez pas que plus le modèle linguistique est grand, plus le processus de transcription est lent. Ne choisissez pas un modèle plus grand que nécessaire. Vous constaterez probablement que Whisper Desktop peut déjà vous « comprendre » la plupart du temps avec les modèles moyens ou plus petits, avec seulement une ou deux erreurs par paragraphe.
Vous tapez encore à la machine ? Utilisez votre voix avec Whisper
Bien qu’il faille un certain temps pour l’installer, comme vous le verrez lorsque vous l’essaierez, Whisper Desktop est bien plus performant que la plupart des autres solutions, avec une précision et une rapidité nettement supérieures.
Lorsque vous commencerez à l’utiliser pour taper avec votre voix, votre clavier ressemblera à une relique d’une époque révolue.
S’abonner à notre lettre d’information
Whisper peut-il convertir du texte en parole ?
Whisper est un modèle de reconnaissance automatique de la parole à usage général qui a été entraîné sur un grand ensemble de données audio. Le modèle peut effectuer la transcription multilingue, la traduction de la parole et la détection de la langue.
Comment convertir la parole en texte AI ?
Comment convertir de l’audio en texte avec Speak Ai ?
- Étape 1 : Téléchargez votre fichier audio ou votre URL.
- Étape 2 : Laissez-nous le temps à Speak d’opérer sa magie.
- Étape 3 : Éditez votre transcription ou faites-la transcrire par un professionnel.
- Étape 4 : Exportez votre transcription dans plusieurs formats.
Comment télécharger Whisper AI ?
Vous pouvez télécharger et installer (ou mettre à jour) la dernière version de Whisper avec la commande suivante :
- pip install -U openai-whisper.
- pip install git+https://github.com/openai/whisper.git.
- pip install –upgrade –no-deps –force-reinstall git+https://github.com/openai/whisper.git.