Einführung

Abgeschlossen

Vorhersagen durch maschinelles Lernen basieren auf den zugrunde liegenden Daten. Um effektive Modelle zu erstellen, müssen Sie die Daten verstehen, die Sie verwenden.

Hier sehen wir uns an, wie sowohl Menschen als auch Computer Daten kategorisieren, speichern und interpretieren. Wir untersuchen, was ein gutes Dataset ausmacht und wie Probleme in unseren verfügbaren Daten behoben werden können. Wir üben auch die Untersuchung neuer Daten und sehen uns an, wie ein tiefgreifendes Verständnis der Datasets bei der Erstellung besserer Vorhersagemodelle helfen kann.

Szenario: Die letzte Reise der Titanic

Als interessierter Marinearchäologe haben Sie ein ungewöhnlich großes Interesse an Katastrophen im Meer. Eines Abends sehen Sie sich Bilder von Walknochen und antiken Schriftrollen über Atlantis an und stoßen plötzlich auf ein öffentliches Dataset mit einer Liste der bekannten Passagiere und Besatzungsmitglieder der ersten (und letzten) Reise der Titanic. Sie sind fasziniert von dem schmalen Grat zwischen Schicksal und Zufall und fragen sich: Von welchen Faktoren hing das Überleben eines Titanic-Passagiers ab? Daten aus dieser Zeit sind lückenhaft. Viele Informationen zu bestimmten Passagieren sind unbekannt. Sie müssen Möglichkeiten finden, diese Daten zu ergänzen, bevor Sie sie vollständig analysieren können.

Voraussetzungen

  • Ein gewisses Maß an Vertrautheit mit den Konzepten des maschinellen Lernens (etwa mit Modellen und Kosten) ist hilfreich, aber keine Voraussetzung.

Lernziele

In diesem Modul lernen Sie Folgendes:

  • Visualisieren großer Datasets mit explorativer Datenanalyse (EDA).
  • Bereinigen der Fehler in einem Dataset
  • Vorhersagen unbekannter Werte mit numerischen und kategorischen Daten