Le ChatGPT est-il de plus en plus bête ? OpenAI dit non

Si vous lisez Twitter ou le subreddit ChatGPT de Reddit, vous verrez qu’une question est posée plus que toute autre : le ChatGPT devient-il plus bête ?

Les performances du premier chatbot d’IA générative au monde diminuent-elles avec le temps, ou les millions d’utilisateurs de ChatGPT hallucinent-ils collectivement des problèmes de qualité ?

ChatGPT se dégrade-t-il ?

C’est une question que de nombreux utilisateurs de ChatGPT se sont posée : ChatGPT devient-il plus bête ? OpenAI publie fréquemment des mises à jour de ChatGPT afin d’améliorer ses réponses, sa sécurité et bien d’autres choses encore, en utilisant les commentaires des utilisateurs, les messages-guides et les données des utilisateurs pour informer son orientation.

Mais alors que ChatGPT semblait être une solution géniale à presque tous les problèmes lors de son lancement, de plus en plus d’utilisateurs signalent des problèmes avec ses réponses et ses résultats. Les compétences de ChatGPT en matière de raisonnement, de codage et de mathématiques sont particulièrement remarquables, bien que d’autres utilisateurs notent qu’il a également des difficultés avec les tâches créatives.

La façon la plus simple pour la plupart des utilisateurs de ChatGPT de vérifier comment ses réponses ont changé au fil du temps est de répéter une invite précédemment utilisée (de préférence dans les premiers jours de ChatGPT) et d’analyser les deux résultats.

Les réponses exigeant des résultats spécifiques, comme celles impliquant le codage et les mathématiques, sont probablement les plus faciles à comparer directement.

Voir aussi :  Founders Edition ou AIB : quel modèle de GPU vous convient le mieux ?

Une étude de Stanford suggère un déclin de ChatGPT

Un groupe de recherche réunissant l’université de Stanford et l’université de Berkley estime que les personnes qui pensent que ChatGPT est en train de changer pourraient avoir raison. Article de Lingjiao Chen, Matei Zaharia et James Zou Comment le comportement de ChatGPT évolue-t-il au fil du temps ? est l’une des premières études approfondies sur l’évolution des capacités de ChatGPT.

Le résumé du rapport explique :

Nous avons constaté que les performances et le comportement de GPT-3.5 et de GPT-4 peuvent varier considérablement dans le temps. Par exemple, GPT-4 (mars 2023) était très bon pour identifier les nombres premiers (précision de 97,6 %), mais GPT-4 (juin 2023) était très mauvais pour ces mêmes questions (précision de 2,4 %). Il est intéressant de noter que le GPT-3.5 (juin 2023) a été bien meilleur que le GPT-3.5 (mars 2023) dans cette tâche. GPT-4 était moins disposé à répondre à des questions délicates en juin qu’en mars, et GPT-4 et GPT-3.5 avaient plus d’erreurs de formatage dans la génération de code en juin qu’en mars.

Lorsqu’on a présenté à ChatGPT des problèmes mathématiques qu’il avait pu résoudre au début de l’année 2023, les réponses données plus tard dans l’année étaient extrêmement imprécises. De plus, ChatGPT a expliqué en détail pourquoi la réponse était correcte bien qu’erronée. Les cas d’hallucination de l’IA ne sont pas nouveaux, mais les chiffres des graphiques ci-dessous suggèrent un changement significatif dans le raisonnement global.

Voir aussi :  LDAC, aptX, LHDC : Explication des codecs audio Bluetooth haute résolution

Crédit d’image : Stanford/Berkeley Crédit image : Stanford/Berkeley Stanford/Berkeley

Les graphiques suggèrent que les réponses de ChatGPT sont en train de dériver, comme le souligne le rapport.

La précision de GPT-4 a chuté de 97,6 % en mars à 2,4 % en juin, et la précision de GPT-3.5 s’est considérablement améliorée, passant de 7,4 % à 86,8 %. En outre, la réponse de GPT-4 est devenue beaucoup plus compacte : sa verbosité moyenne (nombre de caractères générés) est passée de 821,2 en mars à 3,8 en juin. En revanche, la longueur de la réponse de GPT-3.5 a augmenté d’environ 40 %. Le chevauchement des réponses entre les versions de mars et de juin était également faible pour les deux services.

Le rapport explique que la chaîne de pensée du grand modèle linguistique de ChatGPT « n’a pas fonctionné » lorsqu’on lui a présenté les questions en juin. La dérive des conversations a toujours été un problème notable avec les modèles linguistiques, mais l’extrême variance des réponses suggère des problèmes de performance et des changements dans ChatGPT.

ChatGPT se dégrade-t-il ? L’OpenAI répond par la négative

Est-ce une coïncidence que les utilisateurs occasionnels et prolifiques de ChatGPT remarquent l’évolution de la qualité de ChatGPT ?

L’article de recherche suggère que non, mais le vice-président d’OpenAI pour les produits, Peter Welinder, suggère le contraire.

Voir aussi :  Qu'est-ce que l'extension de domaine .io et pourquoi les sites technologiques l'utilisent-ils ?

En outre, Welinder a ensuite souligné les versions d’OpenAI pour ChatGPT et le flux constant de mises à jour que l’entreprise a fourni tout au long de 2023.

Cela n’a pas empêché de nombreuses réponses à son tweet détaillant comment les utilisateurs ont trouvé les réponses de ChatGPT insuffisantes, beaucoup d’entre eux prenant le temps d’annoter les invites et les réponses.

OpenAI peut-elle restaurer ChatGPT dans son état d’origine ?

Les premiers jours de ChatGPT semblent bien loin maintenant ; novembre 2022 n’est plus qu’un souvenir flou, et le monde de l’IA évolue rapidement.

Pour beaucoup, l’étude de Stanford/Berkeley illustre parfaitement les problèmes et les frustrations liés à l’utilisation de ChatGPT. D’autres affirment que les ajustements et les changements apportés à ChatGPT pour en faire un outil plus sûr et plus inclusif ont également altéré directement sa capacité à raisonner correctement, réduisant ses connaissances et ses capacités générales au point de le rendre inutilisable.

Il semble qu’il n’y ait guère de doute sur le fait que ChatGPT a changé. Quant à savoir si le ChatGPT retrouvera ses prouesses d’origine, c’est une autre question.

Cliquez pour évaluer cet article !
[Total: Moyenne : ]

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *