Introduction à PandasAI : la bibliothèque Python d’IA générative
Pandas est la bibliothèque la plus répandue pour manipuler les ensembles de données et les cadres de données. C’est la norme depuis longtemps. Mais avec les progrès de l’intelligence artificielle, une nouvelle bibliothèque open-source appelée PandasAI a été développée pour ajouter des capacités d’IA générative à Pandas.
PandasAI ne remplace pas Pandas. Au contraire, elle lui confère des capacités d’IA générative. Ainsi, vous pouvez effectuer des analyses de données en discutant avec PandasAI. Il fait ensuite l’abstraction de ce qui se passe en arrière-plan et vous fournit le résultat de votre requête.
Installation de PandasAI
PandasAI est disponible via PyPI (Python Package Index). Créez un nouvel environnement virtuel si vous utilisez un IDE local. Utilisez ensuite le gestionnaire de paquets pip pour l’installer.
Il se peut que vous rencontriez une erreur de conflit de dépendance similaire à celle illustrée ci-dessous si vous utilisez Google Colab.
Ne rétrogradez pas la version d’IPython. Redémarrez simplement votre runtime et exécutez à nouveau le bloc de code. Cela résoudra le problème.
Le code source complet est disponible dans un dépôt GitHub.
Comprendre l’échantillon de données
L’échantillon de données que vous manipulerez avec PandasAI est le California Housing Prices dataset de Kaggle. Ce jeu de données contient des informations sur les logements issues du recensement californien de 1990. Il comporte dix colonnes qui fournissent des statistiques sur ces maisons. La carte de données qui vous aidera à en savoir plus sur ce jeu de données est disponible à l’adresse suivante Kaggle. Vous trouverez ci-dessous les cinq premières lignes de l’ensemble de données.
Chaque colonne représente une seule statistique d’une maison.
Connexion de PandasAI au grand modèle de langage
Pour connecter PandasAI à un grand modèle de langage (LLM) comme celui d’OpenAI, vous devez avoir accès à sa clé API. Pour l’obtenir, rendez-vous à l’adresse suivante plateforme OpenAI. Connectez-vous ensuite à votre compte. Sélectionnez API dans la page d’options qui s’affiche ensuite.
Ensuite, cliquez sur votre profil et sélectionnez l’option Afficher les clés API . Sur la page qui s’affiche ensuite, cliquez sur Créer une nouvelle clé secrète pour créer une nouvelle clé secrète. Enfin, nommez votre clé API.
OpenAI générera votre clé API. Copiez-la car vous en aurez besoin pour connecter PandasAI à OpenAI. Veillez à garder la clé secrète car toute personne y ayant accès peut effectuer des appels à OpenAI en votre nom. OpenAI facturera alors votre compte pour les appels.
Maintenant que vous avez la clé API, créez un nouveau script Python et collez le code ci-dessous. Vous n’aurez pas besoin de modifier ce code car la plupart du temps, vous vous en inspirerez.
Le code ci-dessus importe à la fois PandasAI et Pandas. Il lit ensuite un jeu de données. Enfin, il instancie le LLM OpenAI.
Vous êtes maintenant prêt à converser avec vos données.
Exécution de tâches simples à l’aide de PandasAI
Pour interroger vos données, passez votre dataframe et votre invite à l’instance de la classe PandasAI. Commencez par imprimer les cinq premières lignes de votre jeu de données.
La sortie de l’invite ci-dessus est la suivante :
Cette sortie est identique à celle de l’ensemble de données présenté précédemment. Cela montre que PandasAI produit des résultats corrects et est fiable.
Ensuite, vérifiez le nombre de colonnes présentes dans votre jeu de données.
Il renvoie 10, ce qui correspond au nombre correct de colonnes dans l’ensemble de données California Housing.
Vérifiez s’il y a des valeurs manquantes dans l’ensemble de données.
PandasAI renvoie que le total_bedrooms a 207 valeurs manquantes, ce qui est encore une fois correct.
Il y a beaucoup de tâches simples que vous pouvez réaliser avec PandasAI, vous n’êtes pas limité aux tâches ci-dessus.
Exécution de requêtes complexes à l’aide de PandasAI
PandasAI ne se contente pas de prendre en charge des tâches simples. Vous pouvez également l’utiliser pour effectuer des requêtes complexes sur l’ensemble de données. Par exemple, dans l’ensemble de données sur le logement, si vous souhaitez déterminer le nombre de maisons situées sur une île, dont la valeur est supérieure à 100 000 dollars et qui comptent plus de 10 pièces, vous pouvez utiliser l’invite ci-dessous.
Le résultat correct est cinq. Il s’agit du même résultat que celui obtenu par PandasAI.
Les requêtes complexes peuvent prendre du temps à un analyste de données pour les écrire et les déboguer. L’invite ci-dessus ne nécessite que deux lignes de langage naturel pour accomplir la même tâche. Il vous suffit d’avoir en tête exactement ce que vous voulez accomplir, et PandasAI s’occupera du reste.
Dessiner des graphiques à l’aide de PandasAI
Les graphiques sont une partie essentielle de tout processus d’analyse de données. Ils aident les analystes de données à visualiser les données d’une manière conviviale. PandasAI dispose également d’une fonction de dessin de graphiques. Il vous suffit de transmettre le dataframe et l’instruction.
Commencez par créer un histogramme pour chaque colonne de l’ensemble de données. Cela vous aidera à visualiser la distribution des variables.
La sortie est la suivante :
PandasAI a pu dessiner l’histogramme de toutes les colonnes sans avoir à transmettre leur nom dans l’invite.
PandasAI peut également tracer des graphiques sans que vous lui indiquiez explicitement quel graphique utiliser. Par exemple, vous pouvez vouloir découvrir la corrélation des données dans l’ensemble de données sur le logement. Pour ce faire, vous pouvez passer une invite comme suit :
PandasAI trace une matrice de corrélation comme indiqué ci-dessous :
La bibliothèque choisit une carte thermique et trace une matrice de corrélation.
Transmission de plusieurs images de données à l’instance de PandasAI
Travailler avec plusieurs dataframes peut s’avérer délicat. En particulier pour une personne qui n’a pas l’habitude de l’analyse de données. PandasAI comble cette lacune car tout ce que vous avez à faire est de passer les deux cadres de données et de commencer à utiliser des invites pour manipuler les données.
Créez deux cadres de données à l’aide de Pandas.
Vous pouvez poser à PandasAI une question qui concerne les deux cadres de données. Il vous suffit de transmettre les deux cadres de données à l’instance de PandasAI.
Elle renvoie Olivia ce qui est à nouveau la bonne réponse.
Effectuer des analyses de données n’a jamais été aussi facile, PandasAI vous permet de discuter avec vos données et de les analyser en toute simplicité.
Comprendre la technologie qui alimente PandasAI
PandasAI simplifie le processus d’analyse des données, ce qui permet aux analystes de données de gagner beaucoup de temps. Mais elle fait abstraction de ce qui se passe en arrière-plan. Vous devez vous familiariser avec l’IA générative afin d’avoir une vue d’ensemble de la manière dont PandasAI fonctionne sous le capot. Cela vous aidera également à vous tenir au courant des dernières innovations dans le domaine de l’IA générative.
Qu’est-ce que PandasAI ?
PandasAI est une bibliothèque Python qui ajoute des capacités d’IA générative à Pandas, en l’associant à de grands modèles de langage. PandasAI rend Pandas conversationnel en nous permettant de poser des questions en langage naturel à l’aide d’invites textuelles. Malgré ses capacités étonnantes, PandasAI a ses limites.
Qu’est-ce que l’IA générative ? Comment est-elle utilisée aujourd’hui ?
L’intelligence artificielle générative (IA) est le terme générique qui désigne la forme révolutionnaire d’IA créative capable de produire un contenu original à la demande. Plutôt que de se contenter d’analyser ou de classer des données, l’IA générative utilise des modèles dans les données existantes pour créer un contenu entièrement nouveau.
Quelle bibliothèque est utilisée pour programmer l’IA en Python ?
Aujourd’hui, NumPy est entièrement open-source et compte de nombreux contributeurs. Elle est également largement considérée comme la meilleure bibliothèque Python pour l’apprentissage automatique et l’IA. NumPy est principalement utilisé par les scientifiques des données pour effectuer une variété d’opérations mathématiques sur de grands tableaux et matrices multidimensionnels.
Comment fonctionne l’IA générative ?
Les modèles d’IA générative peuvent prendre des entrées telles que du texte, des images, de l’audio, de la vidéo et du code et générer un nouveau contenu dans l’une des modalités mentionnées. Par exemple, ils peuvent transformer un texte en image, une image en chanson ou une vidéo en texte.