Delen via


Verkennende gegevensanalyse in Azure Databricks: hulpprogramma's en technieken

In dit artikel worden hulpprogramma's en technieken beschreven voor experimentele gegevensanalyse (EDA) in Azure Databricks.

Wat is EDA en waarom is het nuttig?

Experimentele gegevensanalyse (EDA) bevat methoden voor het verkennen van gegevenssets om hun belangrijkste kenmerken samen te vatten en eventuele problemen met de gegevens te identificeren. Met behulp van statistische methoden en visualisaties kunt u meer te weten komen over een gegevens set om de gereedheid voor analyse te bepalen en te informeren welke technieken moeten worden toegepast op gegevensvoorbereiding. EDA kan ook van invloed zijn op welke algoritmen u kiest om ML-modellen te trainen.

Wat zijn de EDA-hulpprogramma's in Azure Databricks?

Azure Databricks heeft ingebouwde hulpprogramma's voor analyse en visualisatie in zowel Databricks SQL als in Databricks Runtime. Zie Visualisatietypenvoor een geïllustreerde list van de typen visualisaties die beschikbaar zijn in Azure Databricks.

EDA in Databricks SQL

Hier volgen enkele nuttige artikelen over hulpprogramma's voor gegevensvisualisatie en verkenning in Databricks SQL:

Exploratieve data-analyse in Databricks Runtime

Databricks Runtime biedt een vooraf gebouwde omgeving waarop populaire bibliotheken voor gegevensverkenning al zijn geïnstalleerd. U kunt de list van de ingebouwde bibliotheken bekijken in de releaseopmerkingen van de .

Daarnaast bevatten de volgende artikelen voorbeelden van visualisatiehulpprogramma's in Databricks Runtime:

In een Databricks Python-notebook kunt u SQL en Python combineren om gegevens te verkennen. Wanneer u code uitvoert in een SQL-taalcel in een Python-notebook, worden de table resultaten automatisch beschikbaar gemaakt als een Python DataFrame. Voor meer informatie, zie De resultaten van SQL-cellen verkennen in Python-notebooks.