Examiner les différents types de données

Effectué

Les données sont simplement un autre mot pour désigner les informations collectées. Les volumes et les masses d’informations disponibles sont énormes, couvrant de nombreux types d’informations différents.

Nous pouvons classer les données de plusieurs façons. Pour tirer parti du Machine Learning, nous devons comprendre à la fois le type et les systèmes de stockage numériques des données disponibles.

Données continues, ordinales et catégorielles

Pour les opérations de données, nous avons parfois besoin de connaître ce que représentent exactement les données. Cette prise de conscience peut nous aider à choisir le modèle de Machine Learning approprié. Il peut également nous aider à organiser nos données de manière spécifique et utile.

Les données continues font référence à des informations numériques qui peuvent augmenter ou diminuer de n’importe quel montant. Par exemple, vous pouvez ajouter 1 millimètre à 1 mètre et calculer une somme de 1,001 mètre.

Les données catégorielles font référence à des données qui ne s’inscrivent pas dans un spectre continu. Dans notre scénario, les données catégorisent les personnes sur le Titanic en tant que passagers ou équipage. Les données catégorielles ne peuvent pas être stockées sous forme de nombres de manière évidente.

Les données ordinales font référence à des données catégorielles qui ont un ordre défini et qui peuvent donc prendre en charge le stockage en tant que valeurs numériques. Par exemple, nous pouvons définir des valeurs grande, moyenne et petite en tant que données ordinales, car nous pouvons les classer numériquement : grande > moyenne > petite. En revanche, les valeurs pomme, orange et noix de coco sont catégorielles, car nous ne pouvons pas les classer. Les données ordinales peuvent également faire référence à des nombres qui peuvent être augmentés ou réduits, mais uniquement selon des montants définis. Par exemple, le nombre de personnes qui embarquent sur un bateau est nécessairement un nombre entier, car personne ne peut embarquer partiellement.

Les ID sont un type spécial de données catégorielles où chaque échantillon a son propre ID. Par exemple, dans notre jeu de données, chaque personne sur le Titanic a son propre ID, même si elle a le même nom qu’une autre. Les valeurs d’identité nous aident à naviguer dans un jeu de données, mais notre analyse des données n’implique pas directement ces valeurs.

Types de données

Un ordinateur doit stocker et traiter toutes les données que nous utilisons pour le Machine Learning. Même si nous pouvons coucher sur une feuille de papier presque toutes les données que nous souhaitons, les ordinateurs stockent les informations sous la forme de séries de 0 et de 1. Cela impose des restrictions sur la façon dont nous utilisons les informations.

Le type de données fait référence au type de données stocké sur un ordinateur. Les types de données ont généralement les catégories suivantes :

  • Entiers : décomptes, par exemple 2.
  • Nombres à virgule flottante : nombres avec des décimales, par exemple 2,43.
  • Chaînes : lettres et mots.
  • Valeurs booléennes : true et false.
  • Aucun, zéro ou nul : pas de données ou plutôt absence de données.

Les termes et l’implémentation exacts de ces concepts varient d’un langage à l’autre, mais ils fonctionnent tous de manière similaire dans toutes les langues informatiques.

Parfois, deux types de données différents offrent des fonctionnalités équivalentes. Par exemple, les valeurs true/false peuvent souvent être codées sous forme de valeurs booléennes (true ou false), de chaînes (« o », « n »), d’entiers (0 ou 1) ou de nombres à virgule flottante (0,0 ou 1,0).

Types de données dérivés

À mesure que nous utilisons la technologie, nous rencontrons de nombreux types de données « primitifs » de base au-delà de la liste ci-dessus. Les ordinateurs peuvent stocker des dates, des images, des modèles 3D, etc. Nous les appelons types de données dérivés. Nous commençons par un ou plusieurs types de données primitifs pour construire un type de données dérivé.

Souvent, dans le Machine Learning, il est utile de convertir les types dérivés en représentations plus simples. Par exemple, nous pouvons stocker une valeur de date définie comme le 1er janvier 2017 sous forme d’entier ou de nombre à virgule flottante, telle que 20170101. Les nombres entiers ou à virgule flottante facilitent les calculs derrière nos modèles.

Trop de choix ?

Le fait de connaître le genre de données dont vous disposez peut vous aider à choisir le type de données approprié.

Le type de données correct peut dépendre du package que vous utilisez pour exécuter vos modèles, même si les packages sont généralement assez permissifs. En général :

  • Pour utiliser des données continues, les nombres à virgule flottante deviennent le meilleur choix.
  • Les données ordinales encodent généralement avec des valeurs de nombre entier.
  • Les données catégorielles de deux catégories uniquement peuvent généralement être encodées en tant que données de type booléen ou entier. L’utilisation de trois catégories ou plus peut être légèrement plus compliquée. Ne vous inquiétez pas. La leçon suivante abordera ce sujet !

Dans l’exercice suivant, nous allons nous entraîner à la visualisation des données pour mieux comprendre les données elles-mêmes. Dans ce cas, notez soigneusement les types de données impliqués et essayez d’identifier les types de données continus, ordinaux ou catégoriels.