Работа с конвейерами фабрики данных
Для работы с конвейерами в Фабрике данных Azure необходимо понимать, что они собой представляют.
Конвейер в Фабрике данных Azure представляет логическую группу действий, которые вместе выполняют определенную задачу.
Примером набора действий в одном конвейере может быть прием и очистка данных журнала в сочетании с потоком данных для сопоставления, который анализирует очищенные данные журнала.
Конвейер позволяет управлять всеми действиями как единым целым, а не по отдельности. Он дает возможность эффективно развертывать и планировать действия, не настраивая каждое отдельное действие.
Действия в конвейере — это определенные операции с данными. У каждого действия может быть несколько входных наборов данных или же ни одного, и каждое действие может производить один или несколько выходных наборов данных.
Примером может служить действие копирования, которое копирует данные из Базы данных SQL Azure в Azure Data Lake Storage 2-го поколения. Продолжая этот пример, вы можете использовать действие потока данных или записной книжки Azure Databricks для обработки и преобразования данных, скопированных в учетную запись Azure Data Lake Storage 2-го поколения, с целью подготовить их для решений бизнес-аналитики, таких как Azure Synapse Analytics.
Так как в конвейере Фабрики данных Azure можно реализовать множество действий, мы сгруппировали их в три категории.
- Действия перемещения данных. Действие копирования в фабрике данных копирует данные из хранилища-источника в хранилище-приемник.
- Действия преобразования данных. Фабрика данных Azure поддерживает такие действия преобразования, как поток данных, функция Azure, Spark и другие. Их можно добавлять в конвейеры по отдельности или связывать с другими действиями.
- Действия управления. Примеры действий потока управления — "Получение метаданных", For Each и Execute Pipeline.
Действия могут зависеть друг от друга. Под этим понимается то, как последующие действия зависят от предыдущих. Сама зависимость может основываться на условии, которое определяет, следует ли продолжать выполнение в зависимости от результата предыдущих действий. Действие может зависеть от одного или нескольких предыдущих действий с разными условиями зависимости.
Четыре условия зависимости:
- Выполнено успешно
- Неудачно
- Пропущено
- Завершено
Например, если в конвейере есть действие А, за которым следует действие Б, и действие Б зависит от действия А с условием "Выполнено", действие Б будет выполнено только в том случае, если действие A имеет состояние "Выполнено".
Действия могут выполняться параллельно при наличии нескольких действий в конвейере и последующих действий, которые не зависят от предыдущих.