GPT-5 : 4 nouvelles fonctionnalités attendues
Liens rapides
- Qu’est-ce que le GPT-5 d’OpenAI ?
- Plus de multimodalité
- Une fenêtre contextuelle plus grande et plus efficace
- Agents GPT
- Moins d’hallucinations
Le GPT-4 d’OpenAI est actuellement le meilleur outil d’IA générative sur le marché, mais cela ne signifie pas que nous ne regardons pas vers l’avenir. Le PDG d’OpenAI, Sam Altman, faisant régulièrement des allusions à GPT-5, il est probable que nous verrons un nouveau modèle d’IA amélioré d’ici peu.
C’est du moins ce que nous espérons. Il n’y a pas de date précise pour le lancement de GPT-5, et la plupart des informations que nous pensons connaître proviennent de la compilation d’autres informations et de la tentative de relier les points.
Néanmoins, quelle que soit la date de lancement, il y a quelques caractéristiques clés que nous souhaitons voir apparaître lorsque le GPT-5 sera lancé.
Qu’est-ce que le GPT-5 d’OpenAI ?
GPT-5 est le successeur très attendu du modèle d’IA GPT-4 d’OpenAI, largement considéré comme le modèle génératif le plus puissant du marché. Bien qu’il n’y ait actuellement aucune date de sortie officielle pour le GPT-5, il semblerait qu’il pourrait sortir dès l’été 2024. Très peu de détails sur le modèle sont connus à l’heure actuelle, mais plusieurs choses peuvent être dites avec un certain degré de certitude :
- OpenAI a déposé une marque pour le nom auprès de l’Office de l’harmonisation dans le marché intérieur (OMPI). United States Patent and Trademark Office.
- Plusieurs dirigeants d’OpenAI ont discuté ou fait allusion aux capacités possibles du modèle.
- Le PDG d’OpenAI, Sam Altman, a mentionné le modèle à plusieurs reprises lors d’une réunion en mars 2024. YouTube en mars 2024 avec Lex Fridman.
Tous ces éléments convergent vers une réalité passionnante : Le GPT-5 arrive ! Cela dit, beaucoup de choses sont des spéculations à ce stade. Mais il y a quelques éléments que nous espérons voir et que nous sommes assez confiants de voir dans le modèle. En voici quelques-uns :
1. Plus de multimodalité
La multimodalité est l’une des améliorations les plus intéressantes apportées à la famille de modèles d’intelligence artificielle GPT. Pour plus de clarté, la multimodalité est la capacité d’un modèle d’IA à traiter plus que du texte, mais aussi d’autres types d’entrées comme les images, le son et la vidéo. La multimodalité sera un critère de progrès important pour la famille de modèles GPT à l’avenir.
Le GPT-4 étant déjà capable de traiter les entrées et sorties d’images, les améliorations couvrant le traitement audio et vidéo constituent la prochaine étape pour l’OpenAI, et le GPT-5 est un bon point de départ. Google fait déjà de sérieux progrès en matière de multimodalité avec son modèle d’IA Gemini. Il serait peu caractéristique de la part d’OpenAI de ne pas réagir. Mais, bien sûr, ne nous croyez pas sur parole. Dans son Unconfuse Me podcast Lors d’une conférence de presse, Bill Gates a demandé à Sam Altman, PDG d’OpenAI, quelles étaient les étapes importantes qu’il prévoyait pour la série GPT au cours des deux prochaines années. Sa première réponse ? Le traitement vidéo.
Donc, pour GPT-5, nous prévoyons de pouvoir jouer avec des vidéos – télécharger des vidéos en tant qu’invites, créer des vidéos en déplacement, éditer des vidéos avec des invites textuelles, extraire des segments de vidéos, et trouver des scènes spécifiques dans de grands fichiers vidéo. Nous espérons pouvoir faire la même chose avec les fichiers audio. Il est vrai que c’est une grande demande. Mais compte tenu de la rapidité du développement de l’IA, c’est une attente très raisonnable.
2. Une fenêtre contextuelle plus grande et plus efficace
Ralf Jhetner Borja/flickr
Bien qu’elle soit l’un des modèles d’IA les plus sophistiqués du marché, la famille de modèles d’IA GPT possède l’une des fenêtres contextuelles les plus petites. Par exemple, Claude 3 d’Anthropic dispose d’une fenêtre contextuelle de 200 000 jetons. tandis que Gemini de Google peut traiter un million de jetons (128 000 pour l’utilisation standard). En revanche, GPT-4 dispose d’une fenêtre contextuelle relativement plus petite de 128 000 jetons, avec environ 32 000 jetons ou moins disponibles pour une utilisation réaliste sur des interfaces comme ChatGPT.
Avec l’arrivée de la multimodalité avancée, une amélioration de la fenêtre contextuelle est presque inévitable. Une augmentation d’un facteur de deux ou quatre suffirait peut-être, mais nous espérons voir quelque chose comme un facteur de dix. Cela permettra au GPT-5 de traiter beaucoup plus d’informations d’une manière beaucoup plus efficace. Cependant, une fenêtre contextuelle plus grande n’est pas toujours synonyme de meilleure qualité. Ainsi, plutôt que d’augmenter simplement la fenêtre de contexte, nous aimerions voir une augmentation de l’efficacité du traitement du contexte.
Vous voyez, un modèle peut avoir une fenêtre contextuelle d’un million de jetons (environ 700 000 mots de capacité) mais ne pas produire un résumé complet lorsqu’on lui demande de résumer un livre de 500 000 mots parce qu’il ne peut pas traiter de manière adéquate l’ensemble du contexte bien qu’il ait la capacité de le faire en théorie. Le fait de pouvoir lire un livre de 500 000 mots ne signifie pas que l’on puisse se souvenir de tout ce qu’il contient ou le traiter de manière sensée.
3. Agents GPT
Koshiro K/Shutterstock
L’une des possibilités les plus excitantes de la version 5 du GPT est sans doute l’apparition des agents GPT. Si l’expression « changer la donne » a probablement été galvaudée dans le domaine de l’IA, les agents GPT changeraient véritablement la donne dans tous les sens du terme. Mais à quel point cela changerait-il la donne ?
Actuellement, les modèles d’IA comme GPT-4 peuvent vous aider à accomplir une tâche. Ils peuvent écrire un courriel, faire une blague, résoudre un problème de mathématiques ou rédiger un article de blog à votre place. Cependant, ils ne peuvent effectuer que cette tâche particulière et ne peuvent pas réaliser un ensemble de tâches connexes qui seraient nécessaires à l’accomplissement de votre travail.
Supposons que vous soyez développeur web. Dans le cadre de votre travail, on attend de vous que vous fassiez beaucoup de choses : concevoir, écrire du code, dépanner, et bien d’autres choses encore. Actuellement, vous ne pouvez déléguer qu’une partie de ces tâches à des modèles d’IA à la fois. Vous pouvez par exemple demander au modèle GPT-4 d’écrire un code pour la page d’accueil, puis pour la page de contact, puis pour la page « À propos », etc. Vous devrez effectuer ces tâches de manière itérative. Et il y a des tâches que les modèles ne peuvent tout simplement pas accomplir.
Ce processus itératif consistant à demander aux modèles d’IA de réaliser des sous-tâches spécifiques prend du temps et est inefficace. Dans ce scénario, vous – le développeur web – êtes l’agent humain chargé de coordonner et d’inviter les modèles d’IA à effectuer une tâche à la fois jusqu’à ce que vous ayez terminé un ensemble complet de tâches connexes.
Les agents GPT promettent des robots experts spécialisés coordonnés par, espérons-le, GPT-5, capables de s’autopromouvoir et de s’attaquer à tous les sous-ensembles d’une tâche complexe de manière autonome. L’accent est mis sur les termes « autoprompte » et « autonome ».
Ainsi, si le GPT-5 est livré avec des agents GPT, vous pourriez lui demander de « construire un site web de portfolio pour Maxwell Timothy » plutôt que de simplement « écrire un code pour la page d’accueil ». Le GPT-5 serait alors théoriquement capable de s’autopromouvoir en invoquant des agents d’IA experts pour gérer les différentes sous-tâches nécessaires à la construction d’un site web. Il pourrait invoquer un GPT pour rechercher sur le web des informations sur Maxwell Timothy, un autre agent pour écrire le code des différentes pages, un autre agent pour générer et optimiser les images, et même un autre agent IA pour déployer le site, le tout sans qu’il soit nécessaire d’avoir recours à des invites humaines répétées.
4. Moins d’hallucinations
Bien qu’OpenAI ait beaucoup progressé dans le traitement des hallucinations dans ses modèles d’IA, le véritable test décisif pour GPT-5 sera sa capacité à résoudre le problème persistant des hallucinations, qui a freiné l’adoption généralisée de l’IA dans des domaines à enjeux élevés et critiques pour la sécurité, tels que les soins de santé, l’aviation et la cybersécurité. Ce sont tous des domaines qui bénéficieraient grandement d’une forte implication de l’IA, mais qui évitent actuellement toute adoption significative.
Pour plus de clarté, l’hallucination dans ce contexte fait référence à des situations où le modèle d’IA génère et présente des informations à l’apparence plausible, mais complètement fabriquées, avec un degré de confiance élevé.
Imaginez un scénario dans lequel le GPT-4 serait intégré à un système de diagnostic permettant d’analyser les symptômes des patients et les rapports médicaux. Une hallucination pourrait conduire l’IA à fournir en toute confiance un diagnostic erroné ou à recommander un traitement potentiellement dangereux sur la base de faits imaginaires et d’une logique erronée. Les conséquences d’une telle erreur dans le domaine médical pourraient être catastrophiques.
Des réserves similaires s’appliquent à d’autres domaines à fortes conséquences, tels que l’aviation, l’énergie nucléaire, les opérations maritimes et la cybersécurité. Nous ne nous attendons pas à ce que le GPT-5 résolve complètement le problème des hallucinations, mais nous pensons qu’il réduira considérablement la possibilité de tels incidents.
Alors que nous attendons avec impatience la sortie officielle de ce modèle d’IA très attendu, une chose est sûre : Le GPT-5 a le potentiel de redéfinir les limites de ce qui est possible avec l’intelligence artificielle, en ouvrant une nouvelle ère de collaboration et d’innovation entre l’homme et la machine.
Améliorez votre QI technologique grâce à nos lettres d’information gratuites
En vous abonnant, vous acceptez notre politique de confidentialité et pouvez recevoir des communications occasionnelles ; vous pouvez vous désabonner à tout moment.
Articles recommandés
Réalité virtuelle
Apple Vision Pro vs. Meta Quest 3 : Quelle est la différence et laquelle acheter ?
L’Apple Vision Pro et le Meta Quest 3 sont des casques impressionnants, mais l’un l’emporte-t-il sur l’autre ?
Smartphone
Le meilleur du MWC 2024 : les Best in Show Awards de lizengo.fr
Le MWC 2024 s’est achevé, et nous avons vu des technologies brillantes.
La technologie expliquée
Les meilleurs nouveaux smartphones lancés au MWC 2024
Le MWC 2024 livre toujours la marchandise en matière de nouveaux smartphones, et voici ce que nous avons le plus aimé.
Conseils pour les ordinateurs portables
8 façons de garder la batterie de votre ordinateur portable en bonne santé pendant longtemps
La batterie de votre ordinateur portable devrait durer longtemps, mais il y a beaucoup de choses que vous pouvez faire pour qu’elle dure encore plus longtemps.
ChatGPT
Les 5 meilleurs générateurs d’invites pour tout outil d’IA
Vous n’arrivez pas à écrire des messages-guides d’IA ? Vous n’obtenez pas le résultat ou la réponse dont vous avez besoin ? Essayez plutôt un générateur d’invites d’IA.
ChatGPT
Cette extension Chrome facilite l’envoi de messages ChatGPT
Les messages-guides de l’IA sont difficiles à utiliser ? L’AIPRM vous couvre.
Que peut-on attendre du ChatGPT 5 ?
Lors d’une récente conversation entre les PDG de Microsoft et d’OpenAI, Sam Altman a révélé que ChatGPT-5 devrait bénéficier d’importantes mises à jour de ses capacités en matière de parole, d’images et, à terme, de vidéo.
Que pourra faire GPT-5 ?
Le potentiel de GPT-5 à redéfinir l’IA, à s’approcher de l’AGI et à améliorer la précision est remarquable. L’accent mis sur la multimodalité et la résolution de problèmes tels que la rentabilité et l’évolutivité est prometteur.
Quelles sont les prévisions concernant ChatGPT 5 ?
ChatGPT 5 devrait disposer de capacités avancées de compréhension du langage naturel, ce qui lui permettra de mieux comprendre les requêtes des utilisateurs et de fournir des réponses précises avec une fluidité comparable à celle des humains. Cela améliorera l’expérience de l’utilisateur en éliminant la nécessité de reformuler les questions et en permettant des interactions plus transparentes.
Le GPT-5 atteindra-t-il l’AGI ?
Sama dit « construire pour GPT-5 et AGI maintenant ; GPT-5 en 2024, AGI en 2025 ». | Hacker News.