Explorar os pipelines de ingestão de dados

Concluído

Agora que você entende um pouco sobre a arquitetura de uma solução de data warehousing em grande escala e algumas das tecnologias de processamento distribuído que podem ser usadas para lidar com grandes volumes de dados, é hora de explorar como os dados são incluídos em um armazenamento de dados analíticos de uma ou mais fontes.

Diagrama de um pipeline.

No Azure, a ingestão de dados em larga escala é melhor implementada criando pipelines que orquestram processos de ETL. Você pode criar e executar pipelines usando o Azure Data Factory ou pode usar o recurso de pipeline no Microsoft Fabric se quiser gerenciar todos os componentes da sua solução de armazenamento de dados em um espaço de trabalho unificado.

Em ambos os casos, os pipelines consistem em uma ou mais atividades que operam nos dados. Um conjunto de dados de entrada fornece os dados de origem, e as atividades podem ser definidas como um fluxo de dados que manipula de os dados maneira incremental até que um conjunto de dados de saída seja produzido. Os pipelines usam serviços vinculados para carregar e processar dados, permitindo que você use a tecnologia certa para cada etapa do fluxo de trabalho. Por exemplo, você pode usar um serviço vinculado ao Armazenamento de Blobs do Azure para ingerir o conjunto de dados de entrada e, em seguida, usar serviços como o Banco de Dados SQL do Azure para executar um procedimento armazenado que procura valores de dados relacionados, antes de executar uma tarefa de processamento de dados no Azure Databricks ou aplicar lógica personalizada usando uma Função do Azure. Por fim, você pode salvar o conjunto de dados de saída em um serviço vinculado, como o Microsoft Fabric. Os pipelines também podem incluir algumas atividades internas, que não exigem um serviço vinculado.