Elaborar uma integração de dados e solução analítica com o Azure Synapse Analytics

Concluído

O Azure Synapse Analytics combina recursos de análise de Big Data, armazenamento de dados corporativos e integração de dados. O serviço permite executar consultas em dados sem servidor ou dados em escala. O Azure Synapse dá suporte à ingestão de dados, exploração, transformação e gerenciamento de dados e dá suporte à análise para todas as suas necessidades de BI e aprendizado de máquina.

Informações importantes sobre o Azure Synapse Analytics

O Azure Synapse Analytics implementa uma arquitetura de MPP (processamento paralelo maciço) e tem as características a seguir.

  • A arquitetura do Azure Synapse Analytics inclui um nó de controle e um pool de nós de computação.

    Diagrama que mostra a arquitetura do Azure Synapse Analytics.

    O nó de controle é o cérebro da arquitetura. É o front-end que interage com todos os aplicativos. Os nós de computação fornecem a potência de computação. Os dados a serem processados são distribuídos uniformemente entre os nós.

  • Você envia consultas na forma de instruções Transact-SQL e o Azure Synapse Analytics as executa.

  • O Azure Synapse usa uma tecnologia chamada PolyBase que permite recuperar e consultar dados de fontes relacionais e não relacionais. Você pode salvar os dados lidos como tabelas SQL no serviço do Azure Synapse.

Componentes do Azure Synapse Analytics

O Azure Synapse Analytics é composto pelos cinco elementos:

Diagrama que mostra uma visão geral dos recursos do Azure Synapse Analytics.

  • Pool de SQL do Azure Synapse: o SQL do Synapse oferece modelos de recursos dedicados e sem servidor para trabalhar com uma arquitetura baseada em nó. Para custo e desempenho previsíveis, você pode criar pools de SQL dedicados. Para cargas de trabalho irregulares ou não planejadas, você pode usar o ponto de extremidade SQL sem servidor e sempre disponível.
  • Pool do Spark do Azure Synapse: esse pool é um cluster de servidores que executam o Apache Spark para processar dados. Você escreve sua lógica de processamento de dados usando uma das quatro linguagens compatíveis: Python, Scala, SQL e C# (por meio do .NET para Apache Spark). O Apache Spark para Azure Synapse integra o Apache Spark: o mecanismo de Big Data de código aberto usado para preparação de dados, engenharia de dados, ETL e aprendizado de máquina.
  • Pipelines do Azure Synapse: os Pipelines do Azure Synapse aplicam as funcionalidades do Azure Data Factory. Os Pipelines são o serviço de integração de dados e ETL baseado em nuvem que lhe permite criar fluxos de trabalho orientados a dados para orquestrar a movimentação e a transformação de dados em escala. Você pode incluir atividades que transformam os dados conforme eles são transferidos ou combinar dados de várias fontes.
  • Link do Azure Synapse: esse componente permite que você se conecte ao Azure Cosmos DB. Você pode usá-lo para executar uma análise quase em tempo real dos dados operacionais armazenados em um banco de dados do Azure Cosmos DB.
  • Azure Synapse Studio: esse elemento é um IDE baseado na Web que pode ser usado centralmente para trabalhar com todos os recursos do Azure Synapse Analytics. Use o Azure Synapse Studio para criar pools de SQL e Pools do Spark, definir e executar pipelines e configurar links para fontes de dados externas.

Opções analíticas

O Azure Synapse Analytics dá suporte a uma variedade de cenários analíticos. Ao examinar a tabela, considere como os cenários se aplicam à organização Tailwind Traders.

Análise Cenário Descrição
Descritiva O que está acontecendo? O Azure Synapse aplica a funcionalidade de pool de SQL dedicado que permite a você criar um data warehouse persistente para analisar perguntas do tipo o que fazer agora. Você pode fazer uso do pool de SQL sem servidor para preparar os dados de arquivos armazenados em um data lake para criar um data warehouse de maneira interativa.
Diagnostic Por que isso está acontecendo? Você pode usar a funcionalidade de pool de SQL sem servidor no Azure Synapse para explorar de maneira interativa os dados de um data lake. Os pools de SQL sem servidor permitem que um usuário pesquise outros dados para responder perguntas relacionadas a motivação.
Preditiva O que é provável que aconteça? Azure Synapse Analytics usa o próprio mecanismo integrado do Apache Spark e os pools do Spark do Azure Synapse para análise preditiva. Ele combina essa ação com outros serviços, como os Serviços do Azure Machine Learning e o Azure Databricks, para ajudar você a responder a perguntas sobre o futuro.
Prescritiva O que precisa ser feito? Você pode usar dados de análise prescritiva em tempo real ou quase em tempo real como auxílio para identificar soluções para perguntas de qual ação tomar. O Azure Synapse Analytics fornece essa funcionalidade por meio de Apache Spark e do Link do Azure Synapse, bem como pela integração de tecnologias de streaming, como o Azure Stream Analytics.

Cenário empresarial

Vamos examinar um cenário em que a empresa está atendendo clientes com informações do mercado de ações. Você precisa fornecer uma combinação de processamento de lote e fluxo para dar suporte à infraestrutura da Tailwind Traders. Os dados atualizados podem ser usados para ajudar a monitorar em tempo real onde uma decisão instantânea é necessária para tomar decisões informadas de compra ou venda em frações de segundo. Os dados históricos são igualmente importantes para uma exibição das tendências no desempenho. Que tipo de data warehouse e solução de integração de dados você recomendaria que fornecesse acesso aos fluxos de dados brutos e às informações de negócios preparadas derivadas desses dados? Com o Azure Synapse Analytics, você pode ingerir dados de fontes externas e, em seguida, transformar e agregar esses dados em um formato adequado para processamento analítico.

O que considerar ao escolher o Azure Data Factory ou o Azure Synapse Analytics

A tabela a seguir compara os critérios da solução de armazenamento para usar o Azure Data Factory versus o Azure Synapse Analytics. Examine os critérios e considere qual solução é ideal para a Tailwind Traders.

Comparar Fábrica de dados do Azure Azure Synapse Analytics
Compartilhamento de dados Os dados podem ser compartilhados entre diferentes data factories Sem suporte
Modelos de solução Os modelos de solução são fornecidos com a galeria de modelos do Azure Data Factory Os modelos de solução são fornecidos no Centro de conhecimento do Workspace do Synapse
Fluxos de runtime de integração entre regiões Há suporte para fluxos de dados entre regiões Sem suporte
Dados de monitoramento O monitoramento de dados é integrado ao Azure Monitor Os logs de diagnóstico estão disponíveis no Azure Monitor
Monitorar trabalhos do Spark para fluxo de dados Sem suporte Os trabalhos do Spark podem ser monitorados para o fluxo de dados usando pools do Spark do Synapse

O Azure Synapse Analytics é uma solução ideal para muitos outros cenários. Considere as seguintes opções:

  • Considere a variedade de fontes de dados. Quando você tem uma variedade de fontes de dados que usam o Azure Synapse Analytics para ETL sem código e atividades de fluxo de dados.
  • Considere usar aprendizado de máquina. Quando você precisar implementar soluções do Machine Learning usando o Apache Spark, poderá usar o Azure Synapse Analytics para obter suporte interno para o Azure Machine Learning.
  • Considere a integração do data lake. Quando você tem dados existentes armazenados em um data lake e precisa de integração com o Azure Data Lake e fontes de entrada adicionais, o Azure Synapse Analytics fornece integração perfeita entre os dois componentes.
  • Considere a análise em tempo real. Quando precisa de análise em tempo real, você pode usar recursos como o Link do Azure Synapse para analisar dados em tempo real e oferecer insights.