Topic outline

  • Dans cette section nous allons analyser les données météo de la ville de Madrid.

    Activité 1 : Nettoyer ses données

    Présentiel - 4h

    • Un Data scientist peut passer plus de la moitié de son temps a nettoyer ses données ; c'est une procédure indispensable car les résultats des analyses et modélisation dépendent de ces données. Nettoyer veut dire enlever les anomalies, remplir ou sortir les données manquantes, choisir l'information qui nous intéresse. Regardez cette vidéo pour apprendre comment nettoyer des données en utilisant Pandas :
    • Regarder et répétez chez vous cet exercice de nettoyage de donnée, ça vous permettra de maîtriser la procédure à suivre : https://www.dataoptimal.com/data-cleaning-with-python-2018/

    Activité 2 : Explorons nos données

    Présentiel - 4h
    Dans cette partie nous allons récupérer notre jeux des données, analyser les variables que nous avons à notre disposition et choisir les variables qui nous intéressent.

    • Ouvrez le notebook iteration3/notebook10_data_preprocessing.ipynb
    • Completez la Partie0 du notebook
    • Publiez vos modifications sur votre repository GitHub

    Activité 3 : Nettoyons nos données

    Distanciel - 4h
    
    Nous allons nettoyer les données : nous allons éliminer les anomalies, nous allons completer les données manquantes et nous allons transformer les données, et nous allons manipuler des timeseries

    • Complétez la Partie1 du notebook iteration3/notebook10_data_preprocessing.ipynb
    • Publiez le fichier data/weather_madrid_clean.csv dans votre repository GitHub
    • Publiez le modifications de votre notebook sur votre respository GitHub
    • Complétez la Partie2 du notebook et publiez les modifications.

    Un fois que le notebook10 est complété vous pouvez valider la compétence   Nettoyer un ensemble de données grâce à Numpy et Pandas