Анализ аналитических данных в Azure Databricks: инструменты и методы
В этой статье описываются средства и методы для анализа аналитических данных (EDA) в Azure Databricks.
Что такое EDA и почему это полезно?
Анализ аналитических данных (EDA) включает методы для изучения наборов данных для суммирования их основных характеристик и выявления проблем с данными. С помощью статистических методов и визуализаций можно узнать о наборе данных, чтобы определить готовность к анализу и сообщить, какие методы следует применять к подготовке данных. EDA также может влиять на алгоритмы, которые вы выбираете для обучения моделей машинного обучения.
Что такое средства EDA в Azure Databricks?
Azure Databricks имеет встроенные средства анализа и визуализации как в Databricks SQL, так и в Databricks Runtime. См. иллюстрированный список типов визуализаций, доступных в Azure Databricks, в разделе Виды визуализаций.
EDA в Databricks SQL
Ниже приведены некоторые полезные статьи о средствах визуализации и исследования данных в Databricks SQL:
- визуализировать запросы и создать панель мониторинга
- Создание визуализаций данных в Databricks SQL
Исследовательский анализ данных (EDA) в среде выполнения Databricks
Databricks Runtime предоставляет предварительно созданную среду, в которой уже установлены популярные библиотеки исследования данных. Список встроенных библиотек можно просмотреть в заметках о выпуске .
Кроме того, в следующих статьях показаны примеры средств визуализации в Databricks Runtime:
В записной книжке Databricks Python можно объединить SQL и Python для изучения данных. При запуске кода в ячейке языка SQL в записной книжке Python результаты таблицы автоматически становятся доступными в виде кадра данных Python. Для получения дополнительных сведений см. изучение результатов SQL-ячеек в записных книжках Python.