Trabalhar com pipelines de data factory
Para trabalhar com pipelines do data factory, é imperativo entender o que é um pipeline no Azure Data Factory.
Um pipeline no Azure Data Factory representa um agrupamento lógico de atividades em que as atividades executam juntas uma determinada tarefa.
Um exemplo de uma combinação de atividades em um pipeline pode ser ingerir e limpar dados de log em combinação com um fluxo de dados de mapeamento que analisa os dados de log que foram limpos.
Um pipeline permite que você gerencie as atividades individuais separadas como um conjunto, que, de outra forma, seria gerenciado individualmente. Ele permite que você implante e agende as atividades com eficiência usando um só pipeline em comparação ao gerenciamento de cada atividade de modo independente.
As atividades em um pipeline são conhecidas como ações que você executa em seus dados. Uma atividade pode não usar ou usar vários conjuntos de dados de entrada e gerar um ou mais conjuntos de dados de saída.
Um exemplo de uma ação pode ser o uso de uma atividade Copy em que você copia dados de um Banco de Dados SQL do Azure para um Azure DataLake Storage Gen2. Para criar esse exemplo, você pode usar uma atividade Data Flow ou uma atividade do Azure Databricks Notebook para processar e transformar os dados que foram copiados para sua conta do Azure Data Lake Storage Gen2 para ter os dados prontos para as soluções de relatório de business intelligence como no Azure Synapse Analytics.
Como há muitas atividades possíveis em um pipeline no Azure Data Factory, agrupamos-nas em três categorias:
- Atividades de movimentação de dados: a atividade Copy no Data Factory copia dados de um armazenamento de dados de origem para um armazenamento de dados coletor.
- Atividades de transformação de dados: o Azure Data Factory dá suporte a atividades de transformação como Fluxo de Dados, Azure Function, Spark e outros que podem ser adicionados a pipelines individualmente ou encadeados com outra atividade.
- Atividades de controle: exemplos de atividades de fluxo de controle são "obter metadados", "For Each" e "Executar Pipeline".
As atividades podem depender umas das outras. O que queremos dizer é que a dependência da atividade define como as atividades subsequentes dependem das atividades anteriores. A própria dependência pode se basear em uma condição de continuar na execução de atividades definidas anteriormente para concluir uma tarefa. Uma atividade que depende de uma ou mais atividades anteriores pode ter diferentes condições de dependência.
As quatro condições de dependência são:
- Com sucesso
- Com falha
- Ignorado
- Concluído
Por exemplo, se um pipeline tiver uma atividade A seguida por uma atividade B e a atividade B tiver como uma condição de dependência da atividade A 'Êxito', a atividade B será executada somente se a atividade A tiver o status de êxito.
Se você tiver várias atividades em um pipeline e as atividades subsequentes não forem dependentes das atividades anteriores, as atividades poderão ser executadas em paralelo.