Utilisé un LLM ? Les LAM sont à venir, mais ils ont besoin d’être travaillés
- Les LAM sont des systèmes d’IA capables de comprendre les données humaines et d’effectuer les actions correspondantes, en s’appuyant sur les capacités des LLM.
- Les LAM peuvent effectuer des tâches complexes, comme commander un café ou faire une réservation d’hôtel.
- Bien que les LAM soient prometteurs pour l’avenir, ils ne sont pas encore prêts pour une utilisation généralisée, comme le montre l’échec du dispositif r1 de Rabbit qui n’a pas réussi à exécuter un grand nombre des fonctions annoncées.
L’essor des chatbots d’IA générative a popularisé le terme de « grand modèle de langage », la technologie d’IA sous-jacente qui travaille dans les coulisses. Les grands modèles de langage (LLM) génèrent des résultats basés sur un ensemble prédit de langage en réponse à l’entrée de l’utilisateur, ce qui donne l’impression que l’IA est capable de penser par elle-même.
Mais les LLM ne sont pas les seuls grands modèles en ville ; les grands modèles d’action (LAM) pourraient être la prochaine grande nouveauté dans le domaine de l’IA.
Qu’est-ce qu’un grand modèle d’action (LAM) ?
Un LAM est un système d’intelligence artificielle capable de comprendre les données humaines et d’effectuer l’action correspondante. Il s’agit d’une approche légèrement différente des systèmes d’IA qui se concentrent uniquement sur la génération de réponses. Le terme « grand modèle d’action » a été introduit pour la première fois par Rabbit Inc. qui développe l’appareil rabbit r1. Dans la vidéo de lancement du rabbit r1, l’entreprise explique qu’un LAM est un nouveau modèle fondamental qui permet à l’IA de passer des mots à l’action.
Les LAM sont formés sur de vastes ensembles de données relatives aux actions des utilisateurs ; ils apprennent donc en imitant les actions humaines ou par le biais de démonstrations. Grâce à la démonstration, les LAM peuvent comprendre et naviguer dans les interfaces utilisateur de différents sites web ou applications mobiles et effectuer des actions spécifiques sur la base de vos instructions. Selon Lapin un LAM peut y parvenir même si l’interface est légèrement modifiée.
Vous pouvez considérer les LAM comme une extension des capacités existantes des LLM. Alors que les LLM génèrent des textes ou des médias sur la base de l’entrée de l’utilisateur en prédisant le mot ou l’élément suivant (vous posez une question et un LLM fournit un texte ou un média), les LAM vont plus loin en ajoutant la capacité d’effectuer des actions complexes en votre nom.
Que peuvent faire les LAM ?
Les LAM permettent d’effectuer des actions complexes en votre nom. Cependant, le point critique à noter est la capacité d’effectuer des actions complexes. Cela rend les LAM plus utiles pour effectuer des tâches avancées, mais cela ne signifie pas qu’ils ne peuvent pas effectuer des actions plus simples.
En théorie, cela signifie que vous pouvez, par exemple, demander à un LAM de faire quelque chose en votre nom, comme commander un café au Starbucks le plus proche, un trajet avec Uber, et même faire une réservation d’hôtel. C’est donc différent de l’exécution de tâches simples comme demander à Google Assistant, Siri ou Alexa d’allumer votre téléviseur ou les lumières de votre salon.
Sous le capot, selon la vision partagée par Rabbit Inc, le LAM est capable d’accéder au site web ou à l’application concernée, comme Uber, et de naviguer dans son interface pour effectuer une action, par exemple commander une course ou l’annuler si l’on change d’avis.
Les LAM succéderont aux LLM, mais ils ne sont pas (encore) prêts
Le concept des LAM est passionnant, peut-être même plus que celui des LLM. Les LAM seront l’avenir après l’IA générative, nous permettant d’être en mesure d’abandonner les tâches banales et de nous concentrer sur d’autres activités gratifiantes. Cependant, aussi excitants qu’ils puissent paraître, les LAM ne sont pas encore prêts.
Le premier produit commercial qui promettait de tirer parti d’un LAM (le rabbit r1) n’a pas pleinement tenu sa promesse marketing d’effectuer des actions pour le compte de ses utilisateurs. L’appareil a échoué de manière si spectaculaire dans son principal argument de vente que de nombreuses critiques de première main l’ont qualifié d’inutilisable.
Pire encore, une enquête menée par Coffeezilla, un YouTuber, en collaboration avec un groupe restreint d’ingénieurs logiciels ayant accès à une partie de la base de code du r1, a révélé que Rabbit utilisait des scripts Playwright pour effectuer des actions au lieu d’un LAM. Ainsi, au lieu qu’un appareil exécute un modèle d’IA unique, il exécutait en fait un ensemble de scripts If > Then, ce qui est loin du LAM promis.
S’il y a quelque chose que vous pouvez retenir du dispositif r1 de Rabbit, c’est que oui, la vision est là. Cependant, il reste du travail à faire avant la réalisation, alors ne vous réjouissez pas encore.
Quelle est la différence entre un lam et un LLM ?
Quelle est la différence entre LAM et LLM ? La distinction entre les LAM et les grands modèles de langage (LLM) est la suivante : alors que les LLM sont capables de générer du texte à partir d’invites, les LAM se concentrent sur la compréhension des actions et l’orchestration de séquences d’actions pour atteindre des objectifs spécifiques.
Quels sont les deux problèmes de données couramment rencontrés lors d’une formation LLM ?
La formation des MAMAs présente deux défis majeurs qui peuvent affecter la fiabilité et l’utilité du modèle : les biais et les hallucinations. Même avec une formation approfondie sur de vastes ensembles de données, les LLM peuvent encore imiter des biais profondément enracinés présents dans les données et générer des résultats qui peuvent refléter des biais sociétaux et fausser les réponses du modèle.
Quels sont les deux cas d’utilisation des LLM ?
9 principaux cas d’utilisation de modèles de langage de grande taille. Chatbots. Les LLM exploitent de grandes quantités de données pour comprendre et répondre aux demandes des clients avec une grande précision et une compréhension du contexte. Classification des données. Génération et réécriture de documents. Traduction linguistique. Aide au diagnostic médical. Assistants personnels. Recherche. Analyse des sentiments.
- Chatbots. Les LLM exploitent de grandes quantités de données pour comprendre et répondre aux demandes des clients avec une grande précision et une compréhension du contexte.
- Classification des données.
- Génération et réécriture de documents.
- Traduction des langues.
- Aide au diagnostic médical.
- Assistants personnels.
- Recherche.
- Analyse des sentiments.
Quelle est la différence entre LLM et Lim ?
Les LLM et les LIM ont tous deux leurs propres forces et limites. Alors que les LLM excellent dans la compréhension et la génération de texte, les LIM sont capables de créer un contenu visuel à partir de descriptions textuelles. Le choix entre un LLM et un LIM dépend des exigences spécifiques de la tâche à accomplir.