Section: Iteration 4 (1) : Quel temps fait-il à Madrid ? [2] | Science des données (DA)

Section outline

Nous avons nettoyé nos données, nous avons aussi étudiés nos données et nous les connaissons mieux. Certaines techniques nous permettent de traiter nos données de façon a mieux modéliser un phénomène, ces techniques sont appelées Scaling et Normalisation. Dans cette section nous allons appliquer ces techniques pour améliorer nos données.

Activité 1 : Un peu de théorie
Distanciel - 4h

Normaliser et une technique qui permet d'uniformiser les données. Nous pouvons donc traiter des données avec des valeurs différents (température, humidité, ...) de la même façon. Ça facilite aussi les calcules statistiques et la modélisation.
Regardez cette video sur la normalisation : https://www.coursera.org/lecture/data-analysis-with-python/data-normalization-in-python-pqNBS
Il y a plusieurs méthodes de normalisation. Nous allons utiliser une bibliothèque python pour cette procédure : sklearn. Sklearn (ou SciKitLearn) met à votre disposition des fonctions pour normaliser nos données, pour créer des modèles statistiques et autres.
Nous allons utiliser le module preprocessing de sklearn pour la normalisation et échelonnage. Regardez la documentation pour continuer : https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing

Activité 2 : Premiers pas en preprocessing et sklearn
Distanciel - 8h
Nous allons nous familiariser avec preprocessing

Téléchargez le code dans ce lien, observez les effets des différentes méthodes dans les données (testez le code chez vous)
Lisser le post Quelle méthode choisir? (https://towardsdatascience.com/scale-standardize-or-normalize-with-scikit-learn-6ccc7d176a02)
Ouvrez le notebook iteration4/notebook11_normalisation_scaling.ipynb
Utilisez la documentation de preprocessing pour compléter la Partie 1 et la Partie 2 du notebook

Activité 3 : Traitons les données météo
Distanciel - 4h
Nous allons appliquer les méthodes de sklearn pour normaliser nos données.

Complétez la Partie 3 du Notebook 11
Publiez le fichier data/weather_madrid_normal.csv dans votre repository GitHub
Publiez votre notebook
Maintenant vous pouvez valider la competence normaliser un ensemble des données avec Sklearn

Section outline

Activité 1 : Un peu de théorie

Activité 2 : Premiers pas en preprocessing et sklearn

Activité 3 : Traitons les données météo