Comment remplir les données manquantes à l’aide de pandas Python
Le nettoyage des données prend certainement beaucoup de temps dans la recherche scientifique sur les données, et manquer des données n’est qu’un des obstacles que vous rencontrerez fréquemment. pandas est un dispositif d’ajustement de données Python utile qui vous aide à réparer les valeurs manquantes dans votre ensemble de données, pour n’en nommer que quelques points.
Vous pouvez réparer les informations manquantes en les supprimant ou en les chargeant avec diverses autres valeurs. Dans cet article, nous discuterons et découvrirons les différentes méthodes pour combler les données manquantes à l’aide de pandas.
1. Utilisez la méthode fillna() :
le fillna() La fonction parcourt votre ensemble de données et remplit toutes les lignes vides avec une valeur définie. Il accepte certains débats facultatifs – gardez à l’esprit les suivants :
Valeur : Il s’agit de la valeur que vous avez l’intention de mettre dans les lignes manquantes.
Méthode : vous permet de charger les valeurs manquantes vers l’avant ou vers l’arrière. Il approuve un ‘remplir’ ou ‘remplir’ critère.
En place : Ceci approuve une déclaration conditionnelle. Si True, il personnalise complètement le DataFrame. Ou bien, ce n’est pas le cas.
Avant de commencer, assurez-vous de monter des pandas directement dans votre environnement numérique Python en utilisant pépin dans votre terminal :
Ensuite, dans le script Python, nous allons développer un DataFrame d’entraînement et insérer des valeurs vides ( Nan ) directement dans certaines lignes :
Maintenant, regardez comment vous pouvez combler ces lacunes en utilisant les différentes méthodes disponibles dans les pandas.
Remplir les valeurs manquantes avec la moyenne, la médiane ou le mode
Cette méthode consiste à remplacer les valeurs manquantes par des normes calculées. Remplir les informations manquantes avec une valeur moyenne ou médiane est applicable lorsque les colonnes concernées ont des types de données entiers ou flottants.
Vous pouvez également remplir les données manquantes avec la valeur de mode, qui est l’une des valeurs les plus courantes. Ceci est également pertinent pour les nombres entiers ou les dérives. Mais c’est plus pratique lorsque les colonnes concernées comportent des chaînes.
Voici exactement comment insérer la moyenne et la moyenne dans les lignes manquantes du DataFrame que vous avez créé précédemment :
L’insertion de la valeur modale que vous avez fournie pour la moyenne et également la moyenne sur n’enregistre pas l’ensemble du DataFrame. Cependant, vous pouvez le placer dans une colonne de détails à la place, réclamation, colonne C :
Cela dit, il est toujours possible d’insérer la valeur modale de chaque colonne dans ses lignes manquantes en même temps en utilisant une faille for :
Si vous souhaitez être spécifique à la colonne lors de l’insertion de la moyenne, de la médiane ou du mode :
Remplir les lignes nulles avec des valeurs à l’aide de ffill
Cela implique de spécifier la technique de remplissage à l’intérieur comme fillna() une fonction. Cette méthode remplit chaque ligne manquante avec la valeur de la plus proche au-dessus.
Vous pouvez également l’appeler remplissage vers l’avant :
Remplir les lignes manquantes avec des valeurs à l’aide de bfill
Ici, vous allez changer le remplir méthode indiquée ci-dessus avec remplir . Il remplit chaque ligne manquante dans le DataFrame avec la valeur locale répertoriée en dessous.
Celui-ci est appelé rétro-remplissage :
2. La méthode replace()
Vous pouvez changer le Nan valeurs dans une colonne particulière avec la moyenne, la moyenne, le mode ou tout autre type de valeur.
Voyez comment cela fonctionne en remplaçant les lignes vides dans une colonne nommée par sa moyenne, sa médiane ou son mode :
3. Remplir les données manquantes avec interpolate()
le interpoler() La fonctionnalité utilise les valeurs existantes dans le DataFrame pour estimer les lignes manquantes.
Exécutez le code d’adhésion pour voir comment cela fonctionne :
Traitez soigneusement les lignes manquantes
Bien que nous ayons seulement envisagé de remplir les données manquantes avec des valeurs par défaut telles que les normes, le mode, ainsi que d’autres techniques, d’autres stratégies existent pour prendre soin de manquer des valeurs. Les informaticiens, par exemple, suppriment parfois ces lignes manquantes, en fonction de la situation.
De plus, il est essentiel d’avoir une réflexion critique sur votre méthode avant de l’utiliser. Sinon, vous risquez d’obtenir des résultats d’analyse ou de prédiction défavorables. Certaines stratégies initiales de visualisation des données peuvent être utiles.