Как работает диспетчер оркестрации рабочих процессов Azure?
ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure
Azure Synapse Analytics
Совет
Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !
Примечание.
Диспетчер оркестрации рабочих процессов управляется Apache Airflow.
Примечание.
Диспетчер оркестрации рабочих процессов для Фабрика данных Azure зависит от приложения Apache Airflow открытый код. Документация и дополнительные руководства по Airflow можно найти на страницах документации по Apache Airflow или сообщества.
Диспетчер оркестрации рабочих процессов в Фабрика данных Azure использует ациклические графы на основе Python для выполнения рабочих процессов оркестрации. Чтобы использовать эту функцию, необходимо предоставить группы доступности и подключаемые модули в Хранилище BLOB-объектов Azure или через репозиторий GitHub. Вы можете запустить пользовательский интерфейс Airflow из ADF с помощью интерфейса командной строки (CLI) или пакета SDK для управления группами доступности программного обеспечения.
Создание среды диспетчера оркестрации рабочих процессов
См. раздел. Создание среды диспетчера оркестрации рабочих процессов
Импорт групп daGs
Диспетчер оркестрации рабочих процессов предоставляет два различных метода загрузки DAG из исходных файлов Python в среду Airflow. Этими методами являются:
Включение синхронизации Git: эта служба позволяет синхронизировать репозиторий GitHub с Диспетчером оркестрации рабочих процессов, что позволяет импортировать группы daG непосредственно из репозитория GitHub. См. раздел. Синхронизация репозитория GitHub в Диспетчере оркестрации рабочих процессов
Хранилище BLOB-объектов Azure: Вы можете передать группы доступности, подключаемые модули и т. д. в указанную папку в учетной записи хранения BLOB-объектов, связанной с Фабрика данных Azure. Затем вы импортируете путь к файлу папки в диспетчере оркестрации рабочих процессов. См. руководство. Импорт групп доступности баз данных с помощью Хранилище BLOB-объектов Azure
Удаление групп доступности из среды Airflow
См. раздел. Удаление daGs в диспетчере оркестрации рабочих процессов
Мониторинг запусков DAG
Чтобы отслеживать группы доступности Airflow, войдите в пользовательский интерфейс Airflow с помощью ранее созданного имени пользователя и пароля.
Выберите созданную среду Airflow.
Войдите с помощью имени пользователя и пароля, предоставленного во время создания среды выполнения интеграции Airflow. (При необходимости можно сбросить имя пользователя или пароль, изменив среду выполнения интеграции Airflow)
Устранение неполадок с импортом DAG
Проблема. Импорт DAG занимает более 5 минут: уменьшите размер импортированных групп daG с одним импортом. Одним из способов этого является создание нескольких папок DAG с меньшим количеством daG в нескольких контейнерах.
Проблема. Импортированные группы управления доступности не отображаются при входе в пользовательский интерфейс Airflow. Устранение неполадок. Войдите в пользовательский интерфейс Airflow и просмотрите, существуют ли ошибки синтаксического анализа DAG. Это может произойти, если файлы DAG содержат любой несовместимый код. Вы найдете точные номера строк и файлы, которые имеют проблему через пользовательский интерфейс Airflow.