Поделиться через


Анализ аналитических данных в Azure Databricks: инструменты и методы

В этой статье описываются средства и методы для анализа аналитических данных (EDA) в Azure Databricks.

Что такое EDA и почему это полезно?

Анализ аналитических данных (EDA) включает методы для изучения наборов данных для суммирования их основных характеристик и выявления проблем с данными. С помощью статистических методов и визуализаций можно узнать о наборе данных, чтобы определить готовность к анализу и сообщить, какие методы следует применять к подготовке данных. EDA также может влиять на алгоритмы, которые вы выбираете для обучения моделей машинного обучения.

Что такое средства EDA в Azure Databricks?

Azure Databricks имеет встроенные средства анализа и визуализации как в Databricks SQL, так и в Databricks Runtime. См. иллюстрированный список типов визуализаций, доступных в Azure Databricks, в разделе Виды визуализаций.

EDA в Databricks SQL

Ниже приведены некоторые полезные статьи о средствах визуализации и исследования данных в Databricks SQL:

Исследовательский анализ данных (EDA) в среде выполнения Databricks

Databricks Runtime предоставляет предварительно созданную среду, в которой уже установлены популярные библиотеки исследования данных. Список встроенных библиотек можно просмотреть в заметках о выпуске .

Кроме того, в следующих статьях показаны примеры средств визуализации в Databricks Runtime:

В записной книжке Databricks Python можно объединить SQL и Python для изучения данных. При запуске кода в ячейке языка SQL в записной книжке Python результаты таблицы автоматически становятся доступными в виде кадра данных Python. Для получения дополнительных сведений см. изучение результатов SQL-ячеек в записных книжках Python.