Comment extraire les données IMDb avec Python et Cinemagoer
L’Internet Movie Database (IMDb) est la plus grande base de données en ligne ayant des détails liés aux films, à la collection de télévision, aux vidéos maison, aux jeux vidéo et au contenu web en streaming. La base de données en ligne comprend d’innombrables documents précis que vous pouvez utiliser pour effectuer des analyses de données.
Cinemagoer (précédemment appelé IMDbPY) est une bibliothèque Python permettant de manipuler ainsi que de récupérer les données de la base de données de films IMDb. Vous pouvez accéder aux données concernant les films, les personnes et les entreprises, qui peuvent être en outre utilisées pour l’analyse.
Installation des bibliothèques requises
Vous avez besoin de monter la bibliothèque cinémagraphe bibliothèque Python pour accéder à la IMDb source de données. Exécutez la commande adhérente dans la commande motivée pour configurer la collection :
Vous devez avoir pip installé sur votre système pour monter les bibliothèques Python extérieures.
Le code utilisé dans ce projet est proposé dans une base de données GitHub et vous pouvez l’utiliser librement sous le certificat MIT.
Extraction de données IMDb à l’aide de Python.
Vous devez importer la collection cinemagoer avant de l’utiliser dans votre code.
Le code ci-dessus importe la collection cinemagoer ainsi que développe une instance de la classe cinemagoer.
Recherche de films
Vous pouvez rechercher des films dont le titre est fourni (ou similaire) en utilisant la fonction recherche _ film() méthode. Par exemple, si vous souhaitez rechercher des films ayant le titre « rock », vous devez exécuter le code suivant :
Ceci doit imprimer le tout premier film qu’il découvre, par exemple :
Vous pouvez obtenir un film par son ID IMDb. Vous pouvez ensuite retirer des informations supplémentaires comme les noms des superviseurs, ainsi que les genres. Vous devez faire des failles avec la liste de contrôle pour obtenir des détails spécifiques.
Dans le résultat, vous devez voir le nom du film donné, son ou ses superviseurs, et sa ou ses catégories :
Recherche d’une personne
Vous pouvez rechercher des personnes en utilisant la fonction recherche _ individu() approche. Par exemple, si vous avez l’intention de rechercher « Heath », vous devez exécuter le code suivant :
Vous verrez le nom de l’individu correspondant initial que la recherche localise :
Recherche de sociétés
Vous pouvez rechercher des entreprises en utilisant la fonction recherche _ entreprise() approche. Par exemple, si vous souhaitez rechercher « Universal », vous devez exécuter le code suivant :
Vous obtiendrez la liste de toutes les entreprises qui ont Universal dans leur nom.
Vous pouvez de même récupérer un individu ainsi que des informations sur l’entreprise en utilisant son ID.
La sortie révélera certainement les détails de la personne et le nom d’une entreprise :
Trouver les films supérieurs ainsi que les films inférieurs.
Vous pouvez obtenir les informations relatives aux 250 meilleurs films ainsi qu’aux 100 films les plus bas en utilisant la commande get _ top250_movies() et aussi get _ bottom100_movies() respectivement :
En réaction, vous verrez le nom du meilleur film, et le nom du plus affreux :
De même, la bibliothèque cinemagoer fournit quelques autres méthodes telles que get _ top250_tv() , get _ popular100_movies() , ainsi que get _ top250_indian_movies() .
Apprendre à utiliser les outils logiciels d’analyse de données.
L’évaluation des données est l’analyse des données en utilisant des dispositifs analytiques ou d’analyse pour extraire des détails. L’attrait de l’évaluation des données augmente chaque jour. Elle est actuellement utilisée par les organisations, les entreprises de publicité et aussi les équipes d’activités sportives. Le processus complet de l’analyse de l’information consiste à spécifier des objectifs, à poser des questions, à collecter des informations, à épurer les données, à analyser l’information, ainsi qu’à emballer les résultats.
Vous pouvez obtenir des ensembles de données pour vos tâches en utilisant des collections Python comme Cinemagoer ou via des plateformes en ligne comme Kaggle. Outre des langages complets comme Python et R, vous pouvez utiliser divers autres outils comme Microsoft Excel, Tableau et Stata pour effectuer des analyses d’informations.