Projetar uma solução de integração de dados com o Azure Data Factory

Concluído

O Azure Data Factory é um serviço de integração de dados baseado na nuvem que pode ajudá-lo a criar e agendar fluxos de trabalho orientados por dados. Você pode usar o Azure Data Factory para orquestrar a movimentação de dados e transformar dados em escala. Os fluxos de trabalho orientados por dados, ou pipelines, ingerem dados de armazenamentos de dados diferentes. O Azure Data Factory é um processo de integração de dados ETL, que significa extrair, transformar e carregar. Esse processo de integração combina dados de várias fontes de dados em um único armazenamento de dados.

Coisas a saber sobre o Azure Data Factory

Há quatro etapas principais para criar e implementar um fluxo de trabalho controlado por dados na arquitetura do Azure Data Factory:

  1. Ligue-se e recolha. Primeiro, ingira os dados para coletar todos os dados de diferentes fontes em um local centralizado.
  2. Transformar e enriquecer. Em seguida, transforme os dados usando um serviço de computação como o Azure Databricks e o Azure HDInsight Hadoop.
  3. Fornecer integração e entrega contínuas (CI/CD) e publicar. Ofereça suporte a CI/CD usando o GitHub e o Azure Pipelines para entregar o processo ETL incrementalmente antes de publicar os dados no mecanismo de análise.
  4. Monitorizar. Por fim, use o portal do Azure para monitorar o pipeline para atividades agendadas e para quaisquer falhas.

O diagrama a seguir mostra como o Azure Data Factory orquestra a ingestão de dados de diferentes fontes de dados. Os dados são ingeridos em um blob de armazenamento e armazenados no Azure Synapse Analytics. Os componentes de análise e visualização também estão conectados ao Azure Data Factory. O Azure Data Factory fornece uma interface de gerenciamento comum para todas as suas necessidades de integração de dados.

Diagrama que mostra a arquitetura do Azure Data Factory.

Componentes do Azure Data Factory

O Azure Data Factory tem os seguintes componentes que trabalham juntos para fornecer a plataforma para movimentação e integração de dados.

Diagrama que mostra um pipeline, atividades, conjuntos de dados e serviços vinculados no Azure Data Factory.

  • Pipelines e atividades: Os pipelines fornecem um agrupamento lógico de atividades que executam uma tarefa. Uma atividade é uma única etapa de processamento em um pipeline. O Azure Data Factory dá suporte à movimentação de dados, transformação de dados e atividades de controle.
  • Conjuntos de dados: Os conjuntos de dados são estruturas de dados dentro de seus armazenamentos de dados.
  • Serviços vinculados: os serviços vinculados definem as informações de conexão necessárias para que o Azure Data Factory se conecte a recursos externos.
  • Fluxos de dados: os fluxos de dados permitem que os engenheiros de dados desenvolvam lógica de transformação de dados sem escrever código. As atividades de fluxo de dados podem ser operacionalizadas usando os recursos existentes de agendamento, controle, fluxo e monitoramento do Azure Data Factory.
  • Tempos de execução de integração: Os tempos de execução de integração são a ponte entre a atividade e os objetos de Serviços vinculados. Há três tipos de tempo de execução de integração: Azure, auto-hospedado e Azure-SSIS.

Cenário de negócio

Um desafio significativo para um varejista de melhoria doméstica em rápido crescimento como o Tailwind Traders é que ele gera um alto volume de dados armazenados em sistemas de armazenamento relacionais, não relacionais e outros na nuvem e no local. A gerência quer insights de negócios acionáveis a partir desses dados o mais próximo possível do tempo real. Além disso, a equipe de vendas quer configurar e implantar soluções de up-selling e cross-selling. Como você pode criar uma solução de ingestão de dados em grande escala na nuvem? Quais serviços e soluções do Azure você deve adotar para ajudar na movimentação e transformação de dados entre vários armazenamentos de dados e recursos de computação?

Vamos analisar como os componentes do Azure Data Factory estão envolvidos em um cenário de preparação e movimentação de dados para Tailwind Traders. Eles têm muitas fontes de dados diferentes para se conectar e esses dados precisam ser ingeridos e transformados por meio de procedimentos armazenados que são executados nos dados. Finalmente, os dados devem ser enviados para uma plataforma de análise para análise.

  • Nesse cenário, o serviço vinculado permite que o Tailwind Traders ingira dados de diferentes fontes e armazena cadeias de conexão para acionar serviços de computação sob demanda.
  • Você pode executar procedimentos armazenados para transformação de dados que acontece por meio do serviço vinculado no Azure-SSIS, que é o ambiente de tempo de execução de integração para Tailwind Traders.
  • Os componentes de conjuntos de dados são usados pelo objeto de atividade e o objeto de atividade contém a lógica de transformação.
  • Você pode acionar o pipeline, que é todas as atividades agrupadas.
  • Você pode usar o Azure Data Factory para publicar o conjunto de dados final consumido por tecnologias, como Power BI ou Machine Learning.

Coisas a considerar ao usar o Azure Data Factory

Avalie o Azure Data Factory em relação aos seguintes critérios de decisão e considere como o serviço pode beneficiar sua solução de integração de dados para Tailwind Traders.

  • Considere os requisitos para a integração de dados. O Azure Data Factory atende a duas comunidades: a comunidade de big data e a comunidade de data warehousing relacional que usa o SQL Server Integration Services (SSIS). Dependendo das necessidades de dados da sua organização, você pode configurar pipelines na nuvem usando o Azure Data Factory. Você pode acessar dados de serviços de dados locais e na nuvem.
  • Considere recursos de codificação. Se você preferir uma interface gráfica para configurar pipelines, a ferramenta de criação e monitoramento do Azure Data Factory é a opção certa para suas necessidades. O Azure Data Factory fornece um processo de baixo código/sem código para trabalhar com fontes de dados.
  • Considere o suporte para várias fontes de dados. O Azure Data Factory suporta 90+ conectores para integração com fontes de dados diferentes.
  • Considere a infraestrutura sem servidor. Há vantagens em usar uma solução totalmente gerenciada e sem servidor para integração de dados. Não há necessidade de manter, configurar ou implantar servidores, e você ganha a capacidade de dimensionar com cargas de trabalho flutuantes.