Science des données (DA)
Indice degli argomenti
-
Introduzione
-
La bibliothèque Pandas permet de manipuler de grands volumes de donnée et de les analyser simplement. Pandas est l'un des outils les plus utilisés dans la science de données, n'hésitez pas à passer du temps dans la documentation.
Ressources :Vous pouvez à tout moment vous diriger vers la documentation de Pandas, prenez votre temps pour comprendre la documentation et vous l'approprier.
- Documentation Pandas : https://pandas.pydata.org/pandas-docs/stable/reference/index.html#api
- Introduction aux structures des données en Pandas : https://pandas.pydata.org/pandas-docs/stable/getting_started/dsintro.html#panel
- I/O Files en Pandas : http://pandas.pydata.org/pandas-docs/stable/user_guide/io.html
Activité 1 : Structures des données en Pandas
Distanciel - 8hNous allons étudier les structures des données principales en Pandas : Les Series et les DataFrame- Ouvrez le notebook iteration2/notebook5_introduction_pandas
- Complétez le notebook
- Publiez le notebook sur votre repository GitHub
- Complétez le test Les structures des données en Pandas
Une fois que vous avez complété le test Les structures des données en Pandas et le Notebook5 vous pouvez valider la compétence connaître les structures des données utilisées en Pandas.Activité 2 : Des fonctions avancées sur Pandas
Distanciel - 8hAllons plus loin dans la manipulations des données en utilisant les fonctions d'agrégation des données et de groupement.- Ouvrez le notebook iteration2/notebook6_pandas_advanced.ipynb
- Complétez le notebook
- Publiez le notebook sur votre repository GitHub
Une fois que vous avez complété le notebook6 vous pouvez valider la compétence utiliser les fonctions agg, apply et groupby de Pandas.Activité 3 : Lecture/Écriture des fichiers en Pandas
Distanciel - 8hNous allons importer/exporter des fichiers des données avec Pandas. Nous allons explorer les fonctions de Pandas pour connaître et manipuler les données.Pour cette activité nous allons utiliser le set des données qui se trouve dans la repository : data/fifa.csv. Le fichiers contient des données des joueurs de football.- Ouvrez le notebook iteration2/notebook7_pandas_io_files.ipynb
- Complétez le notebook
- Rajoutez le fichier data/fifa_out.csv que vous avez généré avec votre notebook dans votre repository git
Publiez les modifications sur votre repository GitHub
Une fois que vous avez complété le notebook7 vous pouvez valider les compétences lire et écrire des fichiers en Pandas et savoir manipuler des Series et DataFrame en Pandas.