Eksploracyjna analiza danych w usłudze Azure Databricks: narzędzia i techniki
W tym artykule opisano narzędzia i techniki eksploracyjnej analizy danych (EDA) w usłudze Azure Databricks.
Co to jest EDA i dlaczego jest to przydatne?
Eksploracyjna analiza danych (EDA) obejmuje metody eksplorowania zestawów danych w celu podsumowania ich głównych cech i identyfikowania wszelkich problemów z danymi. Korzystając z metod statystycznych i wizualizacji, możesz dowiedzieć się więcej o zestawie danych, aby określić jego gotowość do analizy i poinformować, jakie techniki mają być stosowane do przygotowywania danych. EDA może również mieć wpływ na algorytmy, które mają być stosowane do trenowania modeli uczenia maszynowego.
Jakie są narzędzia EDA w usłudze Azure Databricks?
Usługa Azure Databricks ma wbudowane narzędzia do analizy i wizualizacji zarówno w usłudze Databricks SQL, jak i w środowisku Databricks Runtime. Aby zapoznać się z ilustrowaną listą typów wizualizacji dostępnych w usłudze Azure Databricks, zobacz Typy wizualizacji.
EDA w usłudze Databricks SQL
Oto kilka przydatnych artykułów dotyczących wizualizacji danych i narzędzi do eksploracji w usłudze Databricks SQL:
- Wizualizowanie zapytań i tworzenie pulpitu nawigacyjnego
- Tworzenie wizualizacji danych w usłudze Databricks SQL
EDA w środowisku Databricks Runtime
Środowisko Databricks Runtime udostępnia wstępnie utworzone środowisko, które ma już zainstalowane popularne biblioteki eksploracji danych. Listę wbudowanych bibliotek można wyświetlić w informacjach o wersji .
Ponadto w poniższych artykułach przedstawiono przykłady narzędzi do wizualizacji w środowisku Databricks Runtime:
W notesie języka Python usługi Databricks możesz połączyć języki SQL i Python w celu eksplorowania danych. Po uruchomieniu kodu w komórce języka SQL w notesie języka Python wyniki tabeli są automatycznie udostępniane jako ramka danych języka Python. Aby uzyskać szczegółowe informacje, zobacz Eksplorowanie wyników komórek SQL w notesach języka Python.