Récapitulatif
Nous avons couvert beaucoup de sujets. Passons en revue quelques-uns des messages clés.
Que sont les catégories de données ?
Les données appartiennent à plusieurs catégories conceptuelles. Les principaux sont les suivants :
- Données continues (nombres).
- Données catégorielles sans ordre.
- Données ordinales qui peuvent être traitées comme des nombres ou des catégories ordonnées.
Les ordinateurs stockent les données sous forme de types distincts et nous essayons généralement de faire correspondre le type de données aux données spécifiques. Par exemple, pour stocker des données continues, les nombres à virgule flottante conviennent le mieux parce qu’ils permettent le stockage de fractions. En revanche, les données catégorielles arrivent souvent sous forme de chaînes (texte) et doivent être converties en vecteurs 1 parmi n pour que l’ordinateur les comprenne correctement.
Qu’est-ce qui caractérise un bon jeu de données ?
Nous avons appris qu’un jeu de données est utile s’il satisfait aux conditions suivantes :
- Il contient des informations pertinentes.
- Il est complet.
- Il constitue une bonne représentation de la population (monde réel).
Si les données ne sont pas complètes, nous pouvons prendre des mesures pour nous assurer que les données incomplètes ne provoquent pas de problème important. Dans ce cas, nous devons éviter l’introduction de nouveaux problèmes, notamment des modifications qui feraient que les données ne seraient plus représentatives.
Réflexion sur les données
Nous avons montré comment la visualisation des données peut aider à comprendre ce qui peut être utile dans un modèle. Le fait d’utiliser différents types de graphiques, de couleurs, etc. peut être amusant et rendre des informations complexes beaucoup plus intuitives.
Nous avons appris que la compréhension de nos données nous permet de prendre de meilleures décisions au sujet de nos modèles. Dans le dernier exercice, nous avons amélioré notre modèle à mesure que nous avons exploré le nombre de cabines sur le Titanic et examiné comment ces informations nous ont aidés. Pourtant, dans l’ensemble, nous avons constaté que nous pouvions améliorer cela en simplifiant par neuf étiquettes Deck.