Science des données (DA)
Topic outline
-
General
-
Nous avons nettoyé nos données, nous avons aussi étudiés nos données et nous les connaissons mieux. Certaines techniques nous permettent de traiter nos données de façon a mieux modéliser un phénomène, ces techniques sont appelées Scaling et Normalisation. Dans cette section nous allons appliquer ces techniques pour améliorer nos données.
Activité 1 : Un peu de théorie
Distanciel - 4hNormaliser et une technique qui permet d'uniformiser les données. Nous pouvons donc traiter des données avec des valeurs différents (température, humidité, ...) de la même façon. Ça facilite aussi les calcules statistiques et la modélisation.
Regardez cette video sur la normalisation : https://www.coursera.org/lecture/data-analysis-with-python/data-normalization-in-python-pqNBS
Il y a plusieurs méthodes de normalisation. Nous allons utiliser une bibliothèque python pour cette procédure : sklearn. Sklearn (ou SciKitLearn) met à votre disposition des fonctions pour normaliser nos données, pour créer des modèles statistiques et autres.
Nous allons utiliser le module preprocessing de sklearn pour la normalisation et échelonnage. Regardez la documentation pour continuer : https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing
Activité 2 : Premiers pas en preprocessing et sklearn
Distanciel - 8hNous allons nous familiariser avec preprocessing- Téléchargez le code dans ce lien, observez les effets des différentes méthodes dans les données (testez le code chez vous)
- Lisser le post Quelle méthode choisir? (https://towardsdatascience.com/scale-standardize-or-normalize-with-scikit-learn-6ccc7d176a02)
- Ouvrez le notebook iteration4/notebook11_normalisation_scaling.ipynb
- Utilisez la documentation de preprocessing pour compléter la Partie 1 et la Partie 2 du notebook
Activité 3 : Traitons les données météo
Distanciel - 4hNous allons appliquer les méthodes de sklearn pour normaliser nos données.- Complétez la Partie 3 du Notebook 11
- Publiez le fichier data/weather_madrid_normal.csv dans votre repository GitHub
- Publiez votre notebook
Maintenant vous pouvez valider la competence normaliser un ensemble des données avec Sklearn