Données correctes, erronées et manquantes

Effectué

En tant qu’effet secondaire de l’influence des données sur le Machine Learning, les modèles entraînés uniquement sur de petites quantités de données sont rarement performants dans le monde réel. Cela se produit parce que de petites quantités de données ne fournissent généralement pas de bonnes représentations du monde réel. Par exemple, quatre personnes sélectionnées aléatoirement sur Terre ne représenteraient pas de manière fiable la personne moyenne. En revanche, si nous sélectionnions 1 milliard de personnes, nos données deviendraient probablement représentatives.

Cependant, d’autres facteurs ont également de l’importance. Nous avons besoin d’échantillons de données volumineux et représentatifs qui :

  • N’ont aucune erreur.
  • Contiennent toutes les informations clés.

Nous abordons ces questions ici, avant de passer à un exercice pratique impliquant notre jeu de données Titanic.

« Représentant » - Qu’est-ce que cela signifie?

Les statisticiens s’appuient sur deux concepts clés : les populations et les échantillons, pour décider si les ressources de données disponibles facilitent réellement l’analyse et l’étude.

Nous nous concentrons sur une population. En d’autres termes, chaque point de données concevable. Pour notre scénario du Titanic, nous souhaitons savoir quels sont les facteurs qui ont eu un impact déterminant sur la survie des passagers. Cela inclut les passagers clandestins, qui ne figurent pas dans les registres officiels. En guise de deuxième exemple, si nous souhaitons examiner la relation entre les traits de la personnalité et la probabilité qu’un navire coule, notre population doit inclure tous les capitaines de navire ayant jamais existé.

Un échantillon fait référence aux données disponibles, en tant que sous-ensemble de la population totale. Pour notre jeu de données Titanic, cet échantillon comprend uniquement les personnes répertoriées dans la liste des passagers officielle. Pour notre deuxième exemple, notre échantillon peut inclure tous les capitaines de navire que nous pouvons convaincre de passer un test de personnalité à notre marina locale.

Nous devons déterminer si l’échantillon représente exactement la population. Pour notre exemple Titanic, notre échantillon est si vaste qu’il représente bien la population. En revanche, discuter uniquement avec des capitaines de navires à la marina locale ne nous donnera probablement pas un échantillon représentatif des marins qui sillonnent le globe. Les données de notre marina locale peuvent générer un modèle qui fonctionne bien pour les capitaines locaux, mais qui n’est pas très utile pour comprendre les capitaines d’autres pays/régions.

Qu’est-ce qu’une erreur de données ?

Le terme erreur de données fait référence à des données incorrectes. Un nombre suffisant d’erreurs de données peut fausser un modèle, et l’amener à faire systématiquement des prédictions erronées. C’est simple : si vous utilisez des données incorrectes, vous obtenez de mauvaises prédictions.

Les erreurs dans les données sont une réalité et nous pouvons les regrouper dans deux catégories, les erreurs de mesure et les erreurs d’entrée de données.

Le terme erreurs de mesure fait référence aux données avec des mesures de faible qualité lors de la phase de collecte des données. Ces erreurs sont souvent subtiles et difficiles, voire impossibles, à éliminer.

Le terme erreurs d’entrée de données fait référence à des données collectées avec précision, mais placées ensuite de manière incorrecte ou inexacte dans une feuille de calcul ou une ressource de gestion des données. Parfois, nous pouvons repérer plus facilement les erreurs de saisie de données que les erreurs de mesure. Par exemple, nous pouvons mesurer une personne de 1,80 m, mais oublier la virgule et écrire 18 mètres. Nous pouvons facilement voir l’erreur, car une personne de la taille d’un arbre n’existe pas.

Qu’est-ce que des données complètes ?

Un jeu de données complet n’a pas de données manquantes. Les données manquantes ont deux types. Ces données indiquent la taille et le poids de Dylan, Reece et Tom :

Name Hauteur (m) Weight (kg) - Poids (kg)
Dylan 1.8 75
Reece 82

Les données sont incomplètes en raison d’un échantillon manquant : Tom. En outre, les données de Reece n’affichent pas la taille de Reece.

Dans l’idéal, nous travaillons toujours avec des données complètes, mais nous ne disposons pas toujours de données complètes. Pour les données incomplètes, nous pouvons effectuer l’une des opérations suivantes :

  • Choisir un modèle qui peut fonctionner avec des données incomplètes.
  • Supprimer les échantillons (lignes) qui contiennent des données incomplètes et utiliser les données qui restent.
  • Ajouter artificiellement des valeurs comme substituts raisonnables aux données manquantes.

La plupart du temps, il est préférable de choisir un modèle pouvant gérer les données manquantes, mais cela n’est pas toujours possible. La suppression des données incomplètes est l’approche la plus simple, et en règle générale, elle fonctionne. Toutefois, nous devons veiller à ce que la suppression des données ne rende pas l’échantillon faussement représentatif de la population. L’ajout artificiel de données est généralement une méthode à utiliser en dernier recours.

Dans la prochaine leçon, nous allons utiliser notre jeu de données Titanic pour identifier et traiter les données incomplètes.