Trabalhar com pipelines de data factory

Concluído

Para trabalhar com pipelines de data factory, é imperativo entender o que é um pipeline no Azure Data Factory.

Um pipeline no Azure Data Factory representa um agrupamento lógico de atividades em que as atividades juntas executam uma determinada tarefa.

Um exemplo de uma combinação de atividades em um pipeline pode ser, ingerindo e limpando dados de log em combinação com um fluxo de dados de mapeamento que analisa os dados de log que foram limpos.

Um pipeline permite que você gerencie as atividades individuais separadas como um conjunto, que de outra forma seria gerenciado individualmente. Ele permite que você implante e agende as atividades de forma eficiente usando um único pipeline, em vez de gerenciar cada atividade de forma independente.

As atividades em um pipeline são chamadas de ações que você executa em seus dados. Uma atividade pode ter zero ou mais conjuntos de dados de entrada e produzir um ou mais conjuntos de dados de saída.

Um exemplo de uma ação pode ser o uso de uma atividade de cópia, onde você copia dados de um Banco de Dados SQL do Azure para um Azure DataLake Storage Gen2. Para aproveitar este exemplo, você pode usar uma atividade de fluxo de dados ou uma atividade do Bloco de Anotações do Azure Databricks para processar e transformar os dados que foram copiados para sua conta do Azure Data Lake Storage Gen2, para ter os dados prontos para soluções de relatórios de business intelligence, como no Azure Synapse Analytics.

Como há muitas atividades que são possíveis em um pipeline no Azure Data Factory, agrupamos as atividades em três categorias:

  • Atividades de movimentação de dados: a atividade de cópia no Data Factory copia dados de um armazenamento de dados de origem para um armazenamento de dados de coletor.
  • Atividades de transformação de dados: o Azure Data Factory dá suporte a atividades de transformação, como Fluxo de Dados, Função do Azure, Spark e outras que podem ser adicionadas a pipelines individualmente ou encadeadas com outra atividade.
  • Atividades de controle: Exemplos de atividades de fluxo de controle são 'obter metadados', 'Para cada um' e 'Executar pipeline'.

As atividades podem depender umas das outras. O que queremos dizer é que a dependência de atividades define como as atividades subsequentes dependem de atividades anteriores. A dependência em si pode ser baseada em uma condição de continuar ou não na execução de atividades definidas anteriormente para concluir uma tarefa. Uma atividade que depende de uma ou mais atividades anteriores, pode ter diferentes condições de dependência.

As quatro condições de dependência são:

  • Efetuado com êxito
  • Com Falha
  • Omitida
  • Concluído

Por exemplo, se um pipeline tiver uma Atividade A, seguida por uma Atividade B e a Atividade B tiver como condição de dependência a Atividade A 'Êxito', a Atividade B só será executada se a Atividade A tiver o status de bem-sucedida.

Se tiver múltiplas atividades num pipeline e as atividades subsequentes não estiverem dependentes das atividades anteriores, as atividades podem ser executadas em paralelo.