Explorative Datenanalyse in Azure Databricks: Tools und Techniken
In diesem Artikel werden Tools und Techniken für die explorative Datenanalyse (EDA) in Azure Databricks beschrieben.
Was ist EDA und warum ist es nützlich?
Exploratory Data Analysis (EDA) umfasst Methoden zum Untersuchen von Datensätzen, um ihre Hauptmerkmale zusammenzufassen und Probleme mit den Daten zu identifizieren. Mithilfe statistischer Methoden und Visualisierungen erfahren Sie mehr über eine Datenmenge, um die Bereitschaft zur Analyse zu ermitteln und zu informieren, welche Techniken für die Datenvorbereitung angewendet werden sollen. EDA kann auch beeinflussen, welche Algorithmen Sie für das Training von ML-Modellen auswählen.
Was sind die EDA-Tools in Azure Databricks?
Azure Databricks verfügt über integrierte Analyse- und Visualisierungstools sowohl in Databricks SQL als auch in Databricks Runtime. Eine illustrierte Liste der in Azure Databricks verfügbaren Visualisierungstypen finden Sie unter Visualisierungstypen.
EDA in Databricks SQL
Hier sind einige hilfreiche Artikel zu Datenvisualisierungs- und Explorationstools in Databricks SQL:
- Visualisieren von Abfragen und Erstellen eines Dashboards
- Erstellen von Datenvisualisierungen in Databricks SQL
EDA in Databricks Runtime
Databricks Runtime stellt eine vordefinierte Umgebung bereit, in der beliebte Datenerkundungsbibliotheken bereits installiert sind. Die Liste der integrierten Bibliotheken finden Sie in den Versionshinweisen.
Darüber hinaus zeigen die folgenden Artikel Beispiele für Visualisierungstools in Databricks Runtime:
In einem Databricks Python-Notizbuch können Sie SQL und Python kombinieren, um Daten zu untersuchen. Wenn Sie Code in einer SQL-Sprachzelle in einem Python-Notizbuch ausführen, werden die Tabellenergebnisse automatisch als Python DataFrame verfügbar gemacht. Weitere Informationen finden Sie unter Erkunden von SQL-Zellenergebnissen in Python-Notebooks.