8 facteurs clés à prendre en compte pour tester la précision des chatbots IA

L’IA a parcouru un long chemin depuis qu’elle produit des résultats non pertinents et incohérents. Les chatbots modernes utilisent des modèles de langage avancés qui répondent à des questions de connaissances générales, rédigent de longs essais et écrivent du code, entre autres tâches complexes.

Malgré ces avancées, il convient de noter que même les systèmes les plus sophistiqués ont des limites. L’IA commet toujours des erreurs. Pour déterminer quels sont les chatbots les moins sujets aux hallucinations, testez leur précision en fonction de ces facteurs.

1. La numératie

Faites passer des équations mathématiques par les chatbots. Ils testeront la capacité de la plateforme à analyser des problèmes de mots, à traduire des concepts mathématiques et à appliquer des formules correctes. Seuls quelques modèles font preuve d’une bonne capacité de calcul. En fait, l’un des pires problèmes de ChatGPT au cours de ses premiers mois d’existence était sa mauvaise compréhension des mathématiques.

L’image ci-dessous montre l’échec de ChatGPT en matière de statistiques de base.

ChatGPT s’est amélioré après OpenAI a déployé ses mises à jour de mai 2023. Mais compte tenu de ses ensembles de données limités, vous aurez toujours des difficultés avec les calculs mathématiques intermédiaires ou avancés.

De leur côté, Bing Chat et Google Bard font preuve d’une meilleure maîtrise du calcul. Ils exécutent des requêtes via leurs moteurs de recherche respectifs, ce qui leur permet de tirer des formules et des feuilles de réponses.

Essayez de reformuler vos problèmes de mots. Évitez les phrases trop longues et remplacez les verbes faibles, sinon les chatbots risquent de mal comprendre vos questions.

2. La compréhension

Les systèmes d’IA modernes peuvent assumer des tâches multiples. Les LLM avancés leur permettent de retenir les instructions précédentes et de répondre aux invites par section, alors que les systèmes plus anciens traitent des commandes singulières. Par exemple, Siri répond à une question à la fois.

Donnez aux chatbots trois à cinq tâches simultanées pour tester leur capacité à analyser des messages complexes. Les modèles moins sophistiqués ne peuvent pas traiter autant d’informations. L’image ci-dessous montre le dysfonctionnement de HuggingChat face à une invite en trois étapes – il s’arrête à la première étape et s’écarte du sujet.

Voir aussi :  Les 7 meilleurs sites web pour aider les enfants à se familiariser avec l'IA et l'apprentissage automatique

Les dernières lignes de HuggingChat sont déjà incohérentes.

ChatGPT répond rapidement au même message, générant des réponses intelligentes et sans erreur à chaque étape.

Bing Chat fournit une réponse condensée aux trois étapes. Ses restrictions rigoureuses interdisent les sorties inutilement longues qui gaspillent de la puissance de traitement.

3. Rapidité d’exécution

Étant donné que la formation à l’IA coûte des ressources considérables, la plupart des développeurs limitent les ensembles de données à des périodes spécifiques. Prenons l’exemple de ChatGPT. Ses connaissances sont limitées à septembre 2021 – vous ne pouvez pas demander de mises à jour météorologiques, de bulletins d’information ou de développements récents. Voici ChatGPT indiquant qu’il n’a pas accès aux informations en temps réel.

Bard a accès à Internet. Il extrait des données des SERPs de Google, ce qui vous permet de poser un plus grand nombre de questions, par exemple sur les événements récents, les nouvelles et les prédictions.

De même, Bing Chat tire des informations en temps réel de son moteur de recherche.

Bing Chat et Bard fournissent des informations opportunes et actualisées, mais ce dernier fournit des réponses plus détaillées. Bing se contente de présenter les données telles quelles. Vous remarquerez que ses résultats correspondent souvent mot pour mot à la formulation et au ton des sources liées.

4. Pertinence

Les chatbots doivent fournir des résultats pertinents. Ils doivent tenir compte de la signification littérale et contextuelle de vos invites lorsqu’ils répondent. Prenons l’exemple de cette conversation. Notre persona a besoin d’un nouveau téléphone, mais ne dispose que de 1 000 $ – le ChatGPT ne dépasse pas le budget.

Lorsque vous testez la pertinence, essayez de rédiger des instructions longues. Les chatbots moins sophistiqués ont tendance à prendre la tangente lorsqu’ils reçoivent des instructions confuses. Par exemple, HuggingChat peut composer des histoires fictives. Mais il risque de s’écarter du sujet principal si vous fixez trop de règles et de directives.

5. La mémoire contextuelle

La mémoire contextuelle aide l’IA à produire des résultats précis et fiables. Au lieu de prendre vos questions au pied de la lettre, elles rassemblent les détails que vous mentionnez. Prenons l’exemple de cette conversation. Bing Chat relie deux messages distincts pour former une réponse utile et concise.

Voir aussi :  Comment synchroniser les onglets de page entre Google Chrome, Firefox et Edge.

De même, la mémoire contextuelle permet aux chatbots de se souvenir des instructions. Cette image montre ChatGPT imitant la façon dont un personnage fictif parle au cours de plusieurs conversations.

Testez vous-même cette fonction en vous référant constamment à des déclarations antérieures. Nourrissez les chatbots d’informations diverses, puis forcez-les à s’en souvenir dans des réponses ultérieures.

La mémoire contextuelle est limitée. Bing Chat démarre de nouvelles conversations tous les 20 tours, tandis que ChatGPT ne peut pas traiter les invites de plus de 3 000 tokens.

6. Restrictions en matière de sécurité

L’IA ne fonctionne pas toujours comme prévu. Une formation défectueuse peut amener les technologies d’apprentissage automatique à commettre diverses erreurs, qu’il s’agisse d’erreurs mathématiques mineures ou de commentaires problématiques. Prenons l’exemple de Microsoft Tay. Les utilisateurs de Twitter ont exploité son modèle d’apprentissage non supervisé et l’ont conditionné à dire des insultes raciales.

Heureusement, les leaders mondiaux de la technologie ont tiré les leçons de la bévue de Microsoft. Bien que rentable et pratique, l’apprentissage non supervisé rend les systèmes d’IA susceptibles d’être trompés. C’est pourquoi les développeurs s’appuient principalement sur l’apprentissage supervisé de nos jours. Les chatbots comme ChatGPT apprennent toujours à partir des conversations, mais leurs formateurs filtrent d’abord les informations.

Attendez-vous à des directives différentes de la part des entreprises d’IA. Les restrictions moins rigides de ChatGPT permettent un plus large éventail de tâches, mais sont peu efficaces contre l’exploitation. En revanche, Bing Chat applique des limites plus strictes. Si elles permettent de lutter contre les tentatives d’exploitation, elles entravent également la fonctionnalité. Bing interrompt automatiquement les conversations potentiellement dangereuses.

7. Biais de l’IA

L’IA est intrinsèquement neutre. Son absence de préférences et d’émotions la rend incapable de se forger une opinion, elle se contente de présenter les informations qu’elle connaît. Voici comment ChatGPT répond aux sujets subjectifs.

Malgré cette neutralité, les biais de l’IA subsistent. Ils proviennent des schémas, des ensembles de données, des algorithmes et des modèles utilisés par les développeurs. L’IA peut être impartiale, mais les humains ne le sont pas.

Voir aussi :  Rien n'est supprimé d'Internet, jamais. Voici comment.

Par exemple, La Brookings Institution affirme que ChatGPT fait preuve de préjugés politiques de gauche. OpenAI nie ces allégations, bien entendu. Mais pour éviter des problèmes similaires avec des modèles plus récents, ChatGPT évite complètement les sorties d’opinion.

De même, Bing Chat évite les sujets sensibles et subjectifs.

Évaluez vous-même les biais de l’IA en posant des questions ouvertes basées sur l’opinion. Parlez de sujets pour lesquels il n’y a pas de bonne ou de mauvaise réponse – les chatbots non sophistiqués afficheront probablement des préférences non fondées à l’égard de groupes spécifiques.

8. Références

L’IA vérifie rarement les faits. Elle se contente d’extraire des informations de ses ensembles de données et de les reformuler à l’aide de modèles linguistiques. Malheureusement, une formation limitée provoque des hallucinations chez l’IA. Vous pouvez toujours utiliser des outils d’IA générative pour la recherche, mais veillez à vérifier les faits vous-même. Prenez les résultats avec des pincettes.

Bing Chat simplifie le processus de vérification des faits en listant ses références après chaque résultat.

Bard AI n’indique pas ses sources, mais génère des explications actualisées et approfondies en exécutant des requêtes de recherche Google. Vous obtiendrez les points principaux à partir des SERPs.

ChatGPT est sujet à des inexactitudes. Son seuil de connaissance de 2021 l’empêche de répondre aux questions sur les événements et incidents récents.

Créez de nouvelles façons de tester la précision des chatbots

L’IA n’est pas la panacée en matière de technologie. Si les systèmes d’IA et les modèles de langage sophistiqués réalisent des prouesses impressionnantes, ils commettent aussi des erreurs et des incohérences. Considérez les chatbots avec scepticisme. Vous ne pouvez utiliser les plateformes basées sur l’IA que si vous comprenez leurs fonctions et leurs limites.

Bien qu’il existe des dizaines de chatbots sur les différentes plateformes, leur fiabilité et leur précision risquent de vous décevoir. Vous perdrez simplement du temps à les tester. Pour garantir des résultats de qualité, nous vous suggérons de vous concentrer sur les trois modèles les plus robustes du marché : ChatGPT, Bing AI et Google Bard.

S’abonner à la newsletter

Cliquez pour évaluer cet article !
[Total: Moyenne : ]

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *