Автоматизация преобразований данных

7 мин

Подготовка данных для машинного обучения — это необходимый шаг, когда требуется создать эффективные модели. Azure Databricks может эффективно обрабатывать и подготавливать большие наборы данных из-за вычислительной мощности Spark.

Давайте рассмотрим, как каждый шаг рабочего процесса машинного обучения, связанного с данными, можно выполнить в Azure Databricks.

Хранение собранных данных в хранилище Azure

При сборе данных из различных источников рекомендуется хранить данные в решении хранилища, например Хранилище BLOB-объектов Azure или Azure Data Lake.

Хранение данных в решении хранилища Azure, а не непосредственно в Azure Databricks, обеспечивает более высокую масштабируемость, повышенную безопасность и интеграцию с другими службами Azure.

Решения службы хранилища Azure обеспечивают надежную и гибкую среду для управления большими наборами данных, обеспечивая доступность данных для обработки и анализа.

Для управления доступом ко всем данным, хранящимся в облачном хранилище, используйте каталог Unity. Каталог Unity предоставляет единое решение для управления всеми ресурсами данных, что позволяет управлять разрешениями и элементами управления доступом в пределах вашего пространства данных.

Совет

Дополнительные сведения о подключении к облачному хранилищу объектов с помощью каталога Unity

Изучение и подготовка данных

После подключения к данным необходимо изучить данные с помощью анализа данных Exploratory (EDA). Основываясь на ваших результатах, вы подготавливаете данные для обработки отсутствующих данных, выполнения проектирования признаков и выполнения других преобразований данных, которые вы считаете преимуществами производительности модели.

Для первоначального анализа используйте записные книжки Databricks для изучения и понимания данных. Вы можете использовать Spark SQL или PySpark для работы с большими наборами данных, сводки данных, проверки значений NULL и понимания распределения данных.

Автоматизация разработки функций в Azure Databricks

Автоматизированные средства разработки функций и библиотеки, такие как featuretools и AutoFeat, становятся популярными, так как они упрощают процесс создания и выбора функций. Эти средства используют алгоритмы для автоматического создания функций из необработанных данных, оценки их важности и выбора наиболее подходящих для моделирования. Этот подход экономит время и сокращает зависимость от разработки функций вручную.

Автоматизация преобразований данных в Azure Databricks

После изучения можно автоматизировать преобразования данных, настроив конвейеры. Одним из способов автоматизации является настройка заданий в Azure Databricks для автоматизации записных книжек и сценариев. Задания Azure Databricks позволяют планировать и запускать записные книжки или JAR-файлы в качестве заданий, что позволяет автоматизировать рабочие процессы обработки данных.

Чтобы настроить задание в Azure Databricks, выполните следующие действия.

Создайте задание: в рабочей области Databricks перейдите на вкладку заданий и выберите его Create job. Укажите имя задания и укажите записную книжку или JAR-файл, который вы хотите запустить.
Настройте задание: задайте параметры для задания, например конфигурацию кластера, расписание выполнения задания и все зависимости. Можно также указать Уведомления по электронной почте для обновлений состояния задания.
Запустите и отслеживайте задание: после настройки задания его можно запустить вручную или разрешить ему выполняться в соответствии с заданным расписанием. Вы можете отслеживать ход выполнения задания и просматривать журналы для устранения неполадок.

Совет

Узнайте больше о создании и запуске заданий Azure Databricks.

Кроме того, службы Azure можно использовать для создания автоматизированных конвейеров данных.

Автоматизация интеграции данных с помощью Фабрика данных Azure

Фабрика данных Azure — это средство для создания конвейеров данных и управления ими. Он позволяет создавать рабочие процессы, управляемые данными, для оркестрации перемещения и преобразования данных.

Чтобы создать конвейер данных в Фабрика данных Azure, выполните следующие действия.

Создайте фабрику данных: в портал Azure создайте новый экземпляр фабрики данных.
Создайте конвейер: в пользовательском интерфейсе фабрики данных создайте новый конвейер и добавьте в него действия. Действия могут включать операции перемещения данных, преобразования данных и потока управления.
Настройка действий. Задайте параметры для каждого действия, например исходные и целевые хранилища данных, логику преобразования и все зависимости.
Планирование и мониторинг. Планирование выполнения конвейера с заданными интервалами и мониторинг его выполнения. Вы можете просматривать журналы и настраивать оповещения для любых проблем.

Совет

См. подробное описание Фабрики данных Azure.

Автоматив преобразования данных и рабочие процессы с помощью заданий Azure Databricks или Фабрика данных Azure, вы гарантируете согласованность обработки данных, что делает модели машинного обучения более эффективными и надежными.

Автоматизация преобразований данных

Хранение собранных данных в хранилище Azure

Изучение и подготовка данных

Автоматизация разработки функций в Azure Databricks

Автоматизация преобразований данных в Azure Databricks

Автоматизация интеграции данных с помощью Фабрика данных Azure

Обратная связь