Delen via


Verkennende gegevensanalyse in Azure Databricks: hulpprogramma's en technieken

In dit artikel worden hulpprogramma's en technieken beschreven voor experimentele gegevensanalyse (EDA) in Azure Databricks.

Wat is EDA en waarom is het nuttig?

Experimentele gegevensanalyse (EDA) bevat methoden voor het verkennen van gegevenssets om hun belangrijkste kenmerken samen te vatten en eventuele problemen met de gegevens te identificeren. Met behulp van statistische methoden en visualisaties kunt u meer informatie krijgen over een gegevensset om de gereedheid voor analyse te bepalen en te informeren welke technieken moeten worden toegepast op gegevensvoorbereiding. EDA kan ook van invloed zijn op welke algoritmen u kiest om ML-modellen te trainen.

Wat zijn de EDA-hulpprogramma's in Azure Databricks?

Azure Databricks heeft ingebouwde hulpprogramma's voor analyse en visualisatie in zowel Databricks SQL als in Databricks Runtime. Zie Visualisatietypen voor een geïllustreerde lijst met de typen visualisaties die beschikbaar zijn in Azure Databricks.

EDA in Databricks SQL

Hier volgen enkele nuttige artikelen over hulpprogramma's voor gegevensvisualisatie en verkenning in Databricks SQL:

EDA in Databricks Runtime

Databricks Runtime biedt een vooraf gebouwde omgeving waarop populaire bibliotheken voor gegevensverkenning al zijn geïnstalleerd. U ziet de lijst met de ingebouwde bibliotheken in de releaseopmerkingen.

Daarnaast bevatten de volgende artikelen voorbeelden van visualisatiehulpprogramma's in Databricks Runtime:

In een Databricks Python-notebook kunt u SQL en Python combineren om gegevens te verkennen. Wanneer u code uitvoert in een SQL-taalcel in een Python-notebook, worden de tabelresultaten automatisch beschikbaar gemaakt als een Python DataFrame. Zie De resultaten van SQL-cellen verkennen in Python-notebooks voor meer informatie.