Examen de données réelles
Les données présentées dans du matériel pédagogique sont souvent remarquablement parfaites, car conçues pour montrer aux étudiants comment trouver des relations claires entre les variables. Les données « réelles » sont un peu moins simples.
En raison de la complexité des données « réelles », nous devons inspecter les données brutes pour rechercher les problèmes avant de les utiliser.
Par conséquent, la meilleure pratique consiste à inspecter les données brutes et à les traiter avant de les utiliser, ce qui réduit les erreurs et problèmes. Il s’agit en général de supprimer les points de données erronés ou de modifier les données dans un format plus utile.
Problèmes des données réelles
Les données réelles peuvent présenter de nombreux problèmes susceptibles de nuire à leur utilité et à l’interprétation des résultats.
Il est important de se rendre compte que la plupart des données réelles sont influencées par des facteurs qui n’ont pas été enregistrés à ce moment-là. Prenons par exemple un tableau des temps de voitures de course et des tailles de moteur dans le cadre d’une course. D’autres facteurs qui n’ont pas été notés, comme la météo, ont probablement aussi joué un rôle. Si elle se révèle problématique, nous pouvons souvent réduire l’influence de ces facteurs en accroissant la taille du jeu de données.
Dans d’autres situations, les points de données qui se trouvent clairement en dehors des valeurs attendues (également appelés « valeurs hors norme ») peuvent parfois être supprimés sans risque des analyses. Il faut cependant veiller à ne pas enlever des points de données qui fournissent de vrais insights.
Les données réelles posent un autre problème courant : le biais. Celui-ci fait référence à une tendance à sélectionner certains types de valeurs plus fréquemment que d’autres, d’une manière qui représente la population sous-jacente, ou « réelle », de manière erronée. Il peut parfois être identifié en explorant les données tout en gardant à l’esprit quelques connaissances de base sur l’origine des données.
Les données réelles poseront toujours des problèmes, mais les scientifiques des données peuvent souvent les surmonter de différentes manières :
- Recherche des valeurs manquantes et des données mal enregistrées.
- Suppression possible des valeurs hors norme évidentes.
- Examen des facteurs réels qui affectent l’analyse et évaluation de la taille du jeu de données afin de savoir si elle est suffisamment grande pour réduire leur impact.
- Recherche de données brutes biaisées et analyse des solutions possibles pour résoudre le biais, le cas échéant.