Gute, schlechte und fehlende Daten
Ein Nebeneffekt des Einflusses von Daten auf maschinelles Lernen ist, dass Modelle, die nur mit kleinen Datenmengen trainiert wurden, in der realen Welt selten gut funktionieren. Das liegt daran, dass kleine Datenmengen die reale Welt in der Regel nicht adäquat widerspiegeln. Zum Beispiel würden vier zufällig ausgewählte Menschen auf der Erde nicht zuverlässig den Durchschnittsmenschen repräsentieren. Würden wir dagegen 1.000.000.000 Menschen auswählen, wären unsere Daten wahrscheinlich repräsentativ.
Andere Faktoren spielen aber auch eine Rolle. Wir benötigen umfangreiche, repräsentative Datenstichproben, für die Folgendes gilt:
- Sie enthalten keine Fehler.
- Sie enthalten alle wichtigen Informationen.
Diese Themen behandeln wir im Folgenden, bevor wir mit einer praktischen Übung mit unserem Titanic-Dataset weitermachen.
„Repräsentativ“ – was bedeutet das?
Statistiker arbeiten mit den zwei Schlüsselkonzepten Populationen und Stichproben, um zu entscheiden, ob die verfügbaren Datenressourcen bei ihren Analysen und Untersuchungen tatsächlich hilfreich sind.
Wir konzentrieren uns auf das Konzept der Population. Oder anders gesagt: auf jeden vorstellbaren Datenpunkt. Für unser Titanic-Szenario wollen wir wissen, welche Faktoren dazu geführt haben, dass alle an Bord überlebt haben. Dazu gehören auch blinde Passagiere, die nicht in den offiziellen Aufzeichnungen aufgeführt sind. Ein zweites Beispiel: Um die Beziehung zwischen Persönlichkeitsmerkmalen und der Wahrscheinlichkeit eines Schiffsuntergangs zu untersuchen, würde unsere Population alle Schiffskapitäne umfassen, die jemals gelebt haben.
Eine Stichprobe bezeichnet die Daten, die uns zur Verfügung stehen. Es handelt sich dabei um eine Teilmenge der Population. Für unser Titanic-Dataset besteht diese Stichprobe nur aus den Personen, die in der offiziellen Passagierliste aufgeführt sind. Beim zweiten Beispiel kann die Stichprobe alle Schiffskapitäne umfassen, die wir zu einem Persönlichkeitstest im örtlichen Jachthafen überreden können.
Wir müssen überlegen, ob die Stichprobe die Population akkurat repräsentiert. In unserem Titanic-Beispiel ist unsere Stichprobe so groß, dass sie wahrscheinlich eine gute Repräsentation der Population ist. Im Gegensatz dazu erhalten wir wahrscheinlich keinen guten Querschnitt aller Seeleute auf allen Weltmeeren, wenn wir nur die Skipper in unserem örtlichen Jachthafen befragen. Mit den Daten unseres örtlichen Jachthafens können wir vielleicht ein Modell erstellen, das gut für die örtlichen Skipper funktioniert, aber nicht sehr hilfreich ist, wenn es um Schiffskapitäne aus anderen Ländern/Regionen geht.
Was ist ein Datenfehler?
Der Begriff Datenfehler bezieht sich auf falsche Daten. Wenn genügend Datenfehler vorliegen, können sie ein Modell so verzerren, dass es ständig falsche Vorhersagen liefert. Es ist ganz einfach: Wenn Sie schlechte Daten einspeisen, erhalten Sie schlechte Vorhersagen.
Fehler in Daten sind eine Tatsache, mit der wir uns abfinden müssen. Wir können sie in zwei Kategorien einteilen: Messfehler und Dateneingabefehler.
Der Begriff Messfehler bedeutet, dass in der Phase der Datensammlung unzureichende Messungen verwendet wurden. Diese Fehler sind oft dezent und schwierig oder unmöglich zu beseitigen.
Der Begriff Dateneingabefehler bedeutet, dass Daten zwar korrekt gesammelt, dann aber falsch in eine Tabelle oder Datenverwaltungsressource eingegeben wurden. Dateneingabefehler sind manchmal einfacher zu erkennen als Messfehler. Beispielsweise wird eine Person mit einer Größe von 1,8 Meter gemessen, aber bei der Eingabe wird die Dezimalstelle übersehen, sodass „18 m“ eingetragen werden. Dieser Fehler lässt sich leicht erkennen, da eine Person in Baumgröße unrealistisch ist.
Was sind vollständige Daten?
In einem vollständigen Dataset fehlen keine Daten. Es gibt zwei Arten von fehlenden Daten. Diese Daten zeigen die Größe und das Gewicht von Dylan, Reece und Tom:
Name | Größe (m) | Weight (kg) |
---|---|---|
Dylan | 1.8 | 75 |
Reece | 82 |
Die Daten sind unvollständig, da eine Stichprobe fehlt: Tom. Außerdem fehlt bei den Daten für Reece die Größe.
Im Idealfall arbeiten wir immer mit vollständigen Daten, aber leider stehen uns diese nicht immer zur Verfügung. Bei unvollständigen Daten haben wir folgende Möglichkeiten:
- Wir können ein Modell auswählen, das mit unvollständigen Daten arbeiten kann.
- Wir können Stichproben (Zeilen) entfernen, die unvollständige Daten enthalten, und mit den restlichen Daten arbeiten.
- Wir können künstliche Werte als angemessenen Ersatz für die fehlenden Daten hinzufügen.
In den meisten Fällen ist es am besten, ein Modell auszuwählen, das fehlende Daten verarbeiten kann, aber das ist nicht immer möglich. Das Entfernen unvollständiger Daten ist der einfachste Ansatz und funktioniert in der Regel. Wir müssen jedoch vorsichtig sein, dass das Entfernen von Daten nicht dazu führt, dass eine Stichprobe die Population falsch darstellt. Das künstliche Hinzufügen von Daten in ist in der Regel die letzte Wahl.
In der nächsten Lektion arbeiten wir mit unserem Titanic-Dataset, um unvollständige Daten zu identifizieren und zu reparieren.