Автоматизация преобразований данных
Подготовка данных для машинного обучения — это необходимый шаг, когда требуется создать эффективные модели. Azure Databricks может эффективно обрабатывать и подготавливать большие наборы данных из-за вычислительной мощности Spark.
Давайте рассмотрим, как каждый шаг рабочего процесса машинного обучения, связанного с данными, можно выполнить в Azure Databricks.
Хранение собранных данных в хранилище Azure
При сборе данных из различных источников рекомендуется хранить данные в решении хранилища, например Хранилище BLOB-объектов Azure или Azure Data Lake.
Хранение данных в решении хранилища Azure, а не непосредственно в Azure Databricks, обеспечивает более высокую масштабируемость, повышенную безопасность и интеграцию с другими службами Azure.
Решения службы хранилища Azure обеспечивают надежную и гибкую среду для управления большими наборами данных, обеспечивая доступность данных для обработки и анализа.
Для управления доступом ко всем данным, хранящимся в облачном хранилище, используйте каталог Unity. Каталог Unity предоставляет единое решение для управления всеми ресурсами данных, что позволяет управлять разрешениями и элементами управления доступом в пределах вашего пространства данных.
Совет
Дополнительные сведения о подключении к облачному хранилищу объектов с помощью каталога Unity
Изучение и подготовка данных
После подключения к данным необходимо изучить данные с помощью анализа данных Exploratory (EDA). Основываясь на ваших результатах, вы подготавливаете данные для обработки отсутствующих данных, выполнения проектирования признаков и выполнения других преобразований данных, которые вы считаете преимуществами производительности модели.
Для первоначального анализа используйте записные книжки Databricks для изучения и понимания данных. Вы можете использовать Spark SQL или PySpark для работы с большими наборами данных, сводки данных, проверки значений NULL и понимания распределения данных.
Автоматизация разработки функций в Azure Databricks
Автоматизированные средства разработки функций и библиотеки, такие как featuretools и AutoFeat, становятся популярными, так как они упрощают процесс создания и выбора функций. Эти средства используют алгоритмы для автоматического создания функций из необработанных данных, оценки их важности и выбора наиболее подходящих для моделирования. Этот подход экономит время и сокращает зависимость от разработки функций вручную.
Автоматизация преобразований данных в Azure Databricks
После изучения можно автоматизировать преобразования данных, настроив конвейеры. Одним из способов автоматизации является настройка заданий в Azure Databricks для автоматизации записных книжек и сценариев. Задания Azure Databricks позволяют планировать и запускать записные книжки или JAR-файлы в качестве заданий, что позволяет автоматизировать рабочие процессы обработки данных.
Чтобы настроить задание в Azure Databricks, выполните следующие действия.
- Создайте задание: в рабочей области Databricks перейдите на вкладку заданий и выберите его
Create job
. Укажите имя задания и укажите записную книжку или JAR-файл, который вы хотите запустить. - Настройте задание: задайте параметры для задания, например конфигурацию кластера, расписание выполнения задания и все зависимости. Можно также указать Уведомления по электронной почте для обновлений состояния задания.
- Запустите и отслеживайте задание: после настройки задания его можно запустить вручную или разрешить ему выполняться в соответствии с заданным расписанием. Вы можете отслеживать ход выполнения задания и просматривать журналы для устранения неполадок.
Совет
Узнайте больше о создании и запуске заданий Azure Databricks.
Кроме того, службы Azure можно использовать для создания автоматизированных конвейеров данных.
Автоматизация интеграции данных с помощью Фабрика данных Azure
Фабрика данных Azure — это средство для создания конвейеров данных и управления ими. Он позволяет создавать рабочие процессы, управляемые данными, для оркестрации перемещения и преобразования данных.
Чтобы создать конвейер данных в Фабрика данных Azure, выполните следующие действия.
- Создайте фабрику данных: в портал Azure создайте новый экземпляр фабрики данных.
- Создайте конвейер: в пользовательском интерфейсе фабрики данных создайте новый конвейер и добавьте в него действия. Действия могут включать операции перемещения данных, преобразования данных и потока управления.
- Настройка действий. Задайте параметры для каждого действия, например исходные и целевые хранилища данных, логику преобразования и все зависимости.
- Планирование и мониторинг. Планирование выполнения конвейера с заданными интервалами и мониторинг его выполнения. Вы можете просматривать журналы и настраивать оповещения для любых проблем.
Совет
См. подробное описание Фабрики данных Azure.
Автоматив преобразования данных и рабочие процессы с помощью заданий Azure Databricks или Фабрика данных Azure, вы гарантируете согласованность обработки данных, что делает модели машинного обучения более эффективными и надежными.