Présentation
Le Machine Learning tire sa puissance prédictive de ses données d’entraînement. Pour créer des modèles efficaces, vous devez comprendre les données que vous utilisez.
Nous allons ici découvrir comment les êtres humains et les ordinateurs catégorisent, stockent et interprètent les données. Nous allons examiner les éléments qui constituent un jeu de données correct et déterminer comment résoudre les problèmes dans nos données disponibles. Nous effectuons également des exercices pratiques d’exploration de nouvelles données et montrons comment le Deep Thinking sur un jeu de données permet de créer des modèles prédictifs plus performants.
Scénario : le dernier voyage du Titanic
En tant qu’archéologue marin, vous vous passionnez pour les catastrophes maritimes. Un soir, alors que vous parcourez des images d’os de baleines et d’anciens parchemins sur l’Atlantide, vous trouvez un jeu de données public qui répertorie les passagers et l’équipage du premier, et dernier, voyage du Titanic. Vous vous interrogez sur le destin et le hasard et vous posez cette question : quels sont les facteurs qui ont déterminé la survie d’un passager du Titanic ? Les données de cette période sont assez incomplètes. Beaucoup d’informations sont inconnues pour certains passagers. Vous devez trouver des moyens de corriger ces données avant de pouvoir les analyser entièrement.
Prérequis
- Il est utile de connaître les concepts de Machine Learning, comme les modèles et les coûts, mais cela n’est pas obligatoire.
Objectifs d’apprentissage
Dans ce module, vous allez :
- Visualiser les grands jeux de données avec l’analyse exploratoire des données.
- Nettoyer les erreurs d’un jeu de données.
- Prédire des valeurs inconnues à l’aide de données numériques et par catégorie.