Comment transformer votre voix en texte avec Whisper d’OpenAI pour Windows

Whisper d’OpenAI est une nouvelle option alimentée par l’IA qui peut transformer votre voix en message. Mieux encore, cela ne coûte rien.

Cependant, il y a un hic : il est encore plus difficile à installer et à utiliser que votre utilitaire Windows typique. Surtout si vous souhaitez utiliser les cœurs Tensor de votre GPU Nvidia pour lui donner une excellente augmentation.

Ne vous inquiétez pas, cependant. C’est pourquoi nous sommes ci-dessous! Continuez à lire pour savoir exactement comment l’installer et l’utiliser, mais également, si vous en avez un, pour que Whisper utilise votre GPU Nvidia.

Qu’est-ce que Whisper d’OpenAI ?

ChatGPT fait fureur de nos jours, et nous avons vu comment vous pouvez utiliser ChatGPT par OpenAI. De plus, ce n’est pas la seule tâche intrigante d’OpenAI.

Propulsé par une découverte approfondie ainsi que par des réseaux de neurones, Whisper est un système de traitement du langage naturel capable de « comprendre » la parole et de la transcrire en message. Pourtant, c’est aussi sa propre chose, assis à une place parmi tous les services comparables :

  • Whisper est un remède IA « éduqué » sur le langage naturel. Ainsi, il est bien meilleur pour comprendre le discours humain « normal » que les remèdes plus anciens.
  • Whisper n’est pas livré avec une interface utilisateur, et il ne peut pas non plus enregistrer d’audio. Il ne peut prendre que des documents audio existants et également des données textuelles résultantes.
  • Puisqu’il est bon pour « donner un sens à la langue », Whisper a en outre le super pouvoir de la traduction automatique en une seule étape.
  • Whisper n’est pas une solution en ligne et peut fonctionner totalement hors ligne.
  • Si vous avez un GPU Nvidia raisonnablement contemporain (GTX970 ou plus récent), Whisper peut fonctionner en « mode matériel augmenté » pour augmenter son débit.
  • Il n’est pas nécessaire de s’inscrire, d’acheter un certificat ou d’acheter un abonnement.

Pourquoi les GPU AMD ne sont-ils pas pris en charge ?

Pour que les GPU soient utiles au-delà des graphiques, ils devraient certainement fonctionner comme des processeurs entièrement programmables. C’est pourquoi Nvidia a développé CUDA, officiellement considéré comme « un système informatique parallèle ainsi que la conception de spectacles ». Pour en savoir plus sur CUDA et les équipements associés (« cœurs CUDA »), lisez notre article sur ce que sont les cœurs CUDA et comment ils améliorent les jeux sur ordinateur.

CUDA est une technologie propriétaire Nvidia, uniquement compatible avec les GPU Nvidia. Les options les plus proches pour le matériel d’AMD sont OpenCL ainsi que Radeon Compute Platform. Pour en savoir plus sur la comparaison des services de chaque entreprise, consultez notre court article sur les unités de calcul AMD par rapport aux cœurs Nvidia CUDA.

Voir aussi :  Que faire lorsque la commande Exécuter n'enregistre pas l'historique sous Windows ?

Par rapport aux alternatives, CUDA est considéré comme plus mature, performant et plus facile à utiliser. Par conséquent, la plupart des développeurs se contentent de cibler CUDA, ce qui, par la suite, indique que leur logiciel ne capitalise que sur l’équipement inclus sur les GPU Nvidia. Ce qui inclut Whisper.

Comment télécharger et installer Whisper

Malheureusement, Whisper n’est pas une application autonome que vous pouvez télécharger et installer, configurer et exécuter. Il s’appuie sur divers autres logiciels, qui doivent également être configurés.

Pour Windows, pour que ce guide reste simple, nous utiliserons largement Chocolatey pour configurer la plupart des composants logiciels nécessaires. Consultez notre guide sur la manière la plus rapide de configurer le logiciel Windows pour plus d’informations sur Chocolatey.

Pour Linux et Mac, la procédure de configuration (en omettant la variable de cours Windows et les données de lot simples que nous développerons) devrait être comparable.

  1. Pour installer et utiliser Whisper, vous devez avoir Python et aussi son PÉPIN périphérique configuré et également inclus dans la variable « Path » de Windows. Pour plus d’informations à ce sujet, consultez notre article sur la manière exacte d’installer Python PIP sur Windows, Mac et Linux.
  2. Installer FFMPEG via Chocolatey avec cette commande : Aussi, montez sa version Python avec :
  3. Enfin, montez Whisper depuis sa page web Github avec :

Obtenir la version compatible CUDA de Whisper

Bien que Whisper n’utilise pas les GPU Nvidia, le torche Le package sur lequel il s’appuie traite une variante accélérée par CUDA. L’utiliser plutôt que la version « simple » peut aider Whisper à terminer ses transcriptions beaucoup plus rapidement à l’aide de votre GPU Nvidia.

Pour que Whisper utilise les cœurs CUDA de votre GPU Nvidia :

  1. Si vous avez actuellement configuré la version « vanille » de la torche, désinstallez-la et nettoyez également les résidus de celle-ci avec : Une fois que c’est fait, suivez-la avec :
  2. Installez la variante compatible CUDA de la lanterne avec :
  3. Pour vérifier si Whisper peut utiliser votre GPU Nvidia, utilisez : Vous devriez voir (par défaut : cuda) plutôt que (par défaut : processeur) .

Que faire si la torche ne s’installe pas

Si vous rencontrez l’erreur « Aucune version localisée » lors du montage de la lanterne, vous devrez peut-être monter une ancienne version de Python à côté de votre version existante.

Utilisez cette commande pour le faire :

Remplacez « OLDER_VERSION » par une variante, comme 3.10.

Ensuite, utilisez le cours de la deuxième version pour toutes les commandes Whisper « génériques » (par exemple, « c: Python310 Scripts pip.exe » plutôt que simplement « pip »).

Voir aussi :  Qu'est-ce que l'outil de résolution des problèmes de compatibilité des programmes sur Windows 11, et comment l'utiliser ?

Comment enregistrer votre voix

Vous pouvez utiliser n’importe quelle application d’enregistrement sonore pour transformer votre voix directement en fichier WAV ou MP3. Windows se compose d’une telle application – pour encore plus d’informations à ce sujet, voir comment utiliser l’application Windows 10 Voice Recorder.

Pour une option plus complète, essayez Audace . Découvrez comment le faire avec notre guide sur la façon d’utiliser Audacity pour enregistrer de l’audio sur Windows ainsi que sur Mac.

Comment commencer à transcrire avec Whisper

Bien que Whisper ne présente pas d’interface graphique simple, son utilisation est ultra-simple.

Disons que nous avons les données Dernière note. mp3 qui consiste en un discours en grec, en dossier c: MesFichiersAudio et que vous souhaitez le traduire en anglais et le transcrire dans un fichier de message.

  1. On commence par courir Invite de commandes ou PowerShell .
  2. Nous « modifions le répertoire » où les documents audio sont conservés avec cette commande :
  3. Nous publions Whisper sur les documents avec :

Une fois traitées, les données textuelles (nommées « LatestNote.mp3.txt ») apparaîtront exactement dans le même dossier. Ouvrez-le dans un éditeur de texte comme Bloc-notes pour regarder le texte traduit.

Nous avons utilisé un exemple de traduction car la transcription en anglais est beaucoup plus simple : il vous suffit de « supprimer » les indicateurs « — language » et « – job ». Par conséquent, pour une transcription simple, la commande ci-dessus serait :

Le drapeau « version » est nécessaire car Whisper en utilise un parmi plusieurs choix. Augmentons-les pour vous aider à choisir le meilleur pour vos demandes.

Quel modèle choisir ?

Whisper fournit de nombreux modèles de langage. Plus la version est grande, plus sa précision est augmentée, mais aussi plus ses besoins en matériel sont élevés. Ils sont:

  1. Minuscule.
  2. Base.
  3. Petit.
  4. Moyen.
  5. Grand.

La plupart des anglophones indigènes doivent être à l’aise avec le minuscule ou base des modèles. Les anglophones non natifs pourraient voir de meilleurs résultats avec des modèles plus grands, comme petit et aussi moyen .

Notez, cependant, que l’outil et les grandes conceptions nécessitent plus de 8 Go de VRAM (c’est-à-dire « la mémoire de votre GPU »).

Pour en choisir un, spécifiez le commutateur « –version » dans la commande :

Par exemple:

Comment rationaliser votre transcription

Devoir taper toute la commande Whisper chaque fois que vous souhaitez enregistrer de l’audio peut rapidement devenir terne. Permet de créer un fichier batch accessible à l’échelle internationale pour améliorer la procédure.

  1. Courir Windows Explorer ainsi que visiter votre lecteur C:.
  2. Créez un dossier pour vos manuscrits et dupliquez également son cours dans le Presse-papiers.
  3. Dans le menu Démarrer de Windows, recherchez « chemin » et choisissez également Modifier les variables d’ambiance du système .
  4. Trouvez le Chemin variable sous Variables utilisateur pour YOUR_USERNAME . Double-cliquez dessus pour le modifier. Cliquer sur Nouveau , ainsi que coller le cours dans votre dossier de scripts. Cliquer sur D’ACCORD pour accepter les modifications.
  5. Revenez à votre dossier de scripts dans l’Explorateur Windows. Produisez-y un nouveau fichier set appelé « wht.bat ». « A l’intérieur », positionnez cette commande :
  6. Créez 2 fichiers batch encore plus, « whs » ainsi que « whm ».
  7. Placez ceci dans le premier manuscrit :
  8. Placez ceci à l’intérieur du 2e :
Voir aussi :  La carte graphique n'est pas détectée par Windows ? 7 façons de résoudre le problème

Félicitations, vous avez maintenant trois manuscrits pour utiliser facilement les conceptions minuscules, petites et moyennes de Whisper avec vos fichiers audio ! Pour enregistrer tout type de documents audio en texte :

  1. Localisez les données avec Explorateur de fichiers Windows .
  2. Clic-droit sur une place vide et aussi ramasser Ouvert dans l’aérogare .
  3. Tapez cette commande, en remplaçant « wht » par « whs » ou « whm » pour utiliser les modèles de langage petit ou modéré :

Taper à la vitesse du son avec Whisper

Même les dactylographes les plus rapides ne peuvent égaler la vitesse à laquelle nous parlons. Cependant, jusqu’à récemment, parler au lieu de taper n’était pas idéal pour produire des fichiers.

La plupart des solutions voix-texte ont donné des résultats médiocres. Vous pouvez trouver quelques options qui valent la peine d’être essayées, mais elles étaient compliquées à utiliser ou coûteuses. La bonne nouvelle est que Whisper a changé tout cela.

Après les actions ci-dessus, vous devez être prêt à enregistrer ou à traduire votre voix avec une grande précision, en utilisant une seule commande.

Abonnez-vous à notre newsletter

Pouvez-vous utiliser OpenAI Whisper ?

Whisper Inference Time Whisper peut être utilisé à la fois sur le CPU et sur le GPU ; cependant, le temps d’inférence est excessivement lent sur le CPU lors de l’utilisation de modèles plus grands, il est donc conseillé de les exécuter uniquement sur GPU.

OpenAI Whisper est-il open source ?

Dans certains d’entre eux, le logiciel est capable de performances surhumaines, c’est-à-dire qu’il peut réellement analyser ce que quelqu’un dit mieux qu’un humain. Ce qui est si inhabituel à propos de Whisper, c’est qu’OpenAI l’a ouvert, publiant non seulement le code mais une description détaillée de son architecture.

Est-ce que Whisper AI est gratuit ?

Contrairement à DALLE-2 et GPT-3, Whisper est un modèle gratuit et open-source. Whisper est un modèle de reconnaissance automatique de la parole formé sur 680 000 heures de données multilingues collectées sur le Web.

Cliquez pour évaluer cet article !
[Total: Moyenne : ]

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *