Entender os pipelines

Concluído

Os pipelines no Microsoft Fabric encapsulam uma sequência de atividades que executam tarefas de movimentação e processamento de dados. Você pode usar um pipeline para definir atividades de transferência e transformação de dados e orquestrar essas atividades por meio de atividades de fluxo de controle que gerenciam ramificações, loops e outras lógicas típicas de processamento. A tela gráfica do pipeline na interface do usuário do Fabric permite criar pipelines complexos com pouca ou nenhuma codificação.

Captura de tela de um pipeline no Microsoft Fabric.

Principais conceitos de pipeline

Para criar pipelines no Microsoft Fabric, é necessário entender alguns conceitos básicos.

Atividades

As atividades são as tarefas executáveis em um pipeline. Você pode definir um fluxo de atividades conectando-as em uma sequência. O resultado de uma atividade específica (êxito, falha ou conclusão) pode ser usado para direcionar o fluxo para a próxima atividade na sequência.

Há duas grandes categorias de atividade em um pipeline.

  • Atividades de transformação de dados: atividades que encapsulam operações de transferência de dados, incluindo atividades Copiar Dados simples que extraem dados de uma fonte e os carregam em um destino, e atividades de Fluxo de Dados mais complexas que encapsulam fluxos de dados (Gen2) que aplicam transformações aos dados à medida que eles são transferidos. Outras atividades de transformação de dados incluem atividades de Notebook para executar um notebook do Spark, atividades de Procedimento Armazenado para executar códigos SQL, atividades de exclusão de dados para Excluir dados existentes, entre outras. No OneLake, é possível configurar o destino para um lakehouse, warehouse, banco de dados SQL ou outras opções.

  • Atividades de fluxo de controle: atividades que podem ser usadas para implementar loops, branching condicional ou gerenciar variáveis e valores de parâmetros. A ampla variedade de atividades de fluxo de controle permite implementar uma lógica de pipeline complexa para orquestrar o fluxo de ingestão e transformação de dados.

Dica

Para saber mais sobre o conjunto completo de atividades de pipeline disponíveis no Microsoft Fabric, confira Visão geral de atividades na documentação do Microsoft Fabric.

Parâmetros

Os pipelines podem ser parametrizados, o que permite fornecer valores específicos a serem usados sempre que um pipeline for executado. Por exemplo, talvez você queira usar um pipeline para salvar dados ingeridos em uma pasta, mas tenha a flexibilidade de especificar um nome de pasta sempre que o pipeline for executado.

O uso de parâmetros aumenta a capacidade de reutilização dos pipelines, permitindo criar processos flexíveis de ingestão e transformação de dados.

Execuções de pipeline

Cada vez que um pipeline é executado, uma execução de pipeline de dados é iniciada. As execuções podem ser iniciadas sob demanda na interface do usuário do Fabric ou agendadas para iniciar em uma frequência específica. Use a ID de execução exclusiva para revisar os detalhes da execução a fim de confirmar se ela foi concluída com sucesso e investigue as configurações específicas usadas para cada execução.