Untersuchen verschiedener Datentypen

Abgeschlossen

Daten sind nur ein weiteres Wort für gesammelte Informationen. Es gibt gewaltige Mengen an verfügbaren Informationen, und es gibt sehr viele unterschiedliche Arten von Informationen.

Daten lassen sich auf vielerlei Weise kategorisieren. Bei der Arbeit mit maschinellem Lernen müssen wir sowohl die Art als auch die digitalen Speichersysteme der Daten verstehen, die uns zur Verfügung stehen.

Kontinuierliche, Ordinal- und kategorische Daten

Bei Datenvorgängen müssen wir uns manchmal bewusst werden, was diese Daten genau repräsentieren. Dieses Bewusstsein kann uns dabei helfen, das richtige Machine Learning-Modell auszuwählen. Es kann auch dabei helfen, Daten auf bestimmte und hilfreiche Arten zu strukturieren.

Kontinuierliche Daten sind numerische Informationen, die um eine beliebige Menge erhöht oder verringert werden können. Sie können beispielsweise einen Millimeter zu einem Meter hinzufügen und die Summe als 1,001 Meter berechnen.

Kategorische Daten sind Daten, die nicht in ein kontinuierliches Spektrum fallen. In unserem Szenario wurden Personen auf der Titanic als Personal oder Passagiere kategorisiert. Kategorische Daten können nicht einfach als Zahlen gespeichert werden.

Ordinaldaten sind kategorische Daten, die eine definierte Reihenfolge aufweisen und daher als numerische Werte gespeichert werden können. Beispielsweise können wir die Werte groß, mittel und klein als Ordinaldaten definieren, da wir sie in eine numerische Rangfolge bringen können: groß > mittel > klein. Die Werte Apfel, Orange und Kokosnuss dagegen sind kategorische Daten, da ihnen kein Rang zugewiesen werden kann. Ordinaldaten können sich auch auf Zahlen beziehen, die erhöht oder verringert werden können, jedoch nur in festgelegten Mengen. Beispielsweise ist garantiert, dass die Anzahl von Personen, die an Bord eines Schiffs gehen, eine ganze Zahl ist: Niemand kann nur zur Hälfte an Bord eines Schiffs gehen.

IDs beziehen sich auf eine besondere Art kategorischer Daten, bei der jede Stichprobe über eine eindeutige ID verfügt. In unserem Dataset hat beispielsweise jede Person auf der Titanic einen eigenen ID-Wert, auch wenn sie den gleichen Namen wie eine andere Person trägt. Identitätswerte helfen uns bei der Suche in einem Dataset, aber bei unseren Datenanalysen sind diese Werte nicht direkt involviert.

Datentypen

Alle Daten, die wir für das maschinelle Lernen verwenden, müssen von einem Computer gespeichert und verarbeitet werden können. Wir als Menschen können nahezu alle Arten von Daten mit einem Stift auf ein Blatt Papier schreiben, Computer dagegen speichern Informationen als Folgen der Ziffern 0 und 1. Dies schränkt die Art und Weise ein, in der wir Informationen verwenden können.

Der Datentyp bezieht sich auf die Art von Daten, die auf einem Computer gespeichert werden. Datentypen fallen in der Regel in folgende Kategorien:

  • Ganze Zahlen: Zahlen wie 2.
  • Gleitkommazahlen: Zahlen mit Dezimalstellen wie 2,43.
  • Zeichenfolgen: Buchstaben und Wörter.
  • Boolesche Werte: „true“ und „false“.
  • „None“, „void“ oder „NULL“: keine Daten, sondern das Fehlen von Daten.

Die genauen Begriffe und die Implementierung für diese Konzepte variieren von Sprache zu Sprache, aber ihre grundlegende Funktionsweise ist in allen Computersprachen sehr ähnlich.

Manchmal bieten zwei verschiedene Datentypen eine gleichwertige Funktionalität. Beispielsweise können Computer true/false-Werte als boolesche Werte („true“ oder „false“), als Zeichenfolgen („j“ oder „n“), als ganze Zahlen (0 oder 1) oder als Gleitkommazahlen (0,0 oder 1,0) verarbeiten.

Abgeleitete Datentypen

Bei der Nutzung von Technologie sind Ihnen sicherlich noch viele weitere einfachere, primitive Datentypen untergekommen. Computer können Datumsangaben, Bilder, 3D-Modelle und so weiter speichern. Diese werden als abgeleitete Datentypen bezeichnet. Wir beginnen mit einem oder mehreren primitiven Datentypen und erstellen daraus einen abgeleiteten Datentyp.

Beim maschinellen Lernen ist es oft hilfreich, abgeleitete Typen in einfachere Darstellungen zu konvertieren. Ein definierter Datumswert (z. B. 1. Januar 2017) lässt sich beispielsweise als ganze Zahl oder als Gleitkommazahl speichern (z. B. 20170101). Ganze Zahlen oder Gleitkommazahlen vereinfachen die Berechnungen hinter unseren Modellen.

Zu viele Optionen?

Wenn Sie wissen, welche Art von Daten Ihnen zur Verfügung steht, können Sie den richtigen Datentyp auswählen.

Der richtige Datentyp kann von dem Paket abhängen, das Sie zum Ausführen Ihrer Modelle verwenden, wobei Pakete im Allgemeinen recht tolerant sind. Im Allgemeinen:

  • Für die Arbeit mit kontinuierlichen Daten sind Gleitkommazahlen die beste Wahl.
  • Ordinaldaten werden in der Regel mit Integerwerten codiert.
  • Kategorische Daten, die nur zwei Kategorien umfassen, können meist als boolesche oder ganzzahlige Daten codiert werden. Das Arbeiten mit drei oder mehr Kategorien kann etwas komplizierter sein. Aber keine Sorge, dieses Thema wird in der nächsten Lektion behandelt.

In der nächsten Übung beschäftigen wir uns mit der Datenvisualisierung, um die eigentlichen Daten besser zu verstehen. Beachten Sie dabei die beteiligten Datentypen, und versuchen Sie, die kontinuierlichen, ordinalen oder kategorischen Datentypen herauszufinden.