Compreender o fluxo de controle da fábrica de dados
O que é fluxo de controle
O fluxo de controle é uma orquestração de atividades de pipeline que inclui atividades de encadeamento em uma sequência, ramificação, definição de parâmetros no nível de pipeline e passagem de argumentos enquanto invoca o pipeline sob demanda ou a partir de um gatilho.
O fluxo de controle também pode incluir contêineres de looping, que podem passar informações para cada iteração do contêiner de looping.
Se um loop For Each for usado como uma atividade de fluxo de controle, o Azure Data Factory poderá iniciar várias atividades em paralelo usando essa abordagem. Isso permite que você crie uma lógica de processamento complexa e iterativa dentro dos pipelines criados com o Azure Data Factory, que dá suporte à criação de diversos padrões de integração de dados, como a criação de um data warehouse moderno.
Algumas das atividades comuns de fluxo de controle são descritas nas seções abaixo.
Encadeamento de atividades
No Azure Data Factory, você pode encadear atividades em uma sequência dentro de um pipeline. É possível usar a propriedade dependsOn em uma definição de atividade para encadeá-la com uma atividade upstream.
Ramificar atividades
Use o Azure Data Factory para ramificar atividades dentro de um pipeline. Um exemplo de uma atividade de ramificação é a atividade If-condition , que é semelhante a uma instrução if-fornecida em linguagens de programação. Uma atividade de ramificação avalia um conjunto de atividades e, quando a condição é avaliada como verdadeira, um conjunto de atividades é executado. Quando ele é avaliado como falso, então um conjunto alternativo de atividades é executado.
Parâmetros
Pode definir parâmetros ao nível do pipeline e passar argumentos quando é invocado o pipeline a pedido ou a partir de um acionador. Em seguida, as atividades consomem os argumentos mantidos em um parâmetro à medida que são passados para o pipeline.
Transmissão de estado personalizado
A passagem de estado personalizada é possível com o Azure Data Factory. A passagem de estado personalizado é uma atividade que criou a saída ou o estado da atividade que precisa ser consumida por uma atividade subsequente no pipeline. Um exemplo é que, em uma definição JSON de uma atividade, você pode acessar a saída da atividade anterior. O uso da passagem de estado personalizada permite criar fluxos de trabalho onde os valores estão passando pelas atividades.
Contentores de ciclo
O guarda-chuva de contêineres de looping do fluxo de controle, como a atividade ForEach, define a repetição em um pipeline. Ele permite que você itere em uma coleção e execute atividades especificadas no loop definido. Funciona de forma semelhante ao "para cada estrutura de looping" usado em linguagens de programação. Além de cada atividade, há também uma atividade Till. Esta funcionalidade é semelhante a um loop do-until usado na programação. O que ele faz é executar um conjunto de atividades (fazer) em um loop até que a condição (até) seja atendida.
Fluxos baseados em acionadores
Os pipelines podem ser acionados por tempo sob demanda (baseado em eventos, por exemplo, postagem de blob) ou relógio de parede.
Invocar um pipeline de outro pipeline
A atividade Executar Pipeline com o Azure Data Factory permite que um pipeline do Data Factory invoque outro pipeline.
Fluxos delta
Os casos de uso relacionados ao uso de fluxos delta são cargas delta. As cargas delta em padrões ETL só carregarão dados que foram alterados desde uma iteração anterior de um pipeline. Recursos como atividade de pesquisa e agendamento flexível ajudam a lidar com trabalhos de carga delta. No caso de usar uma atividade de pesquisa, ela lerá ou pesquisará um valor de nome de registro ou tabela de qualquer fonte externa. Este resultado pode ser ainda referenciado por atividades subsequentes.
Outros fluxos de controlo
Há muito mais atividades de fluxo de controle. Veja os seguintes itens para outras atividades úteis:
Atividade da Web: a atividade da Web no Azure Data Factory usando fluxos de controle pode chamar um RESTendpoint personalizado de um pipeline do Data Factory. Conjuntos de dados e serviços vinculados podem ser passados para serem consumidos pela atividade.
Obter atividade de metadados: a atividade Obter metadados recupera os metadados de quaisquer dados no Azure Data Factory.