Como o Azure Synapse Analytics funciona

Concluído

Para dar suporte às necessidades de análise das organizações atuais, o Azure Synapse Analytics combina um serviço centralizado para armazenamento e processamento de dados com uma arquitetura extensível, por meio da qual os serviços vinculados permitem integrar armazenamentos de dados usados normalmente, plataformas de processamento e ferramentas de visualização.

Criação e uso de um workspace do Azure Synapse Analytics

Um workspace do Synapse Analytics define uma instância do serviço do Synapse Analytics, no qual você pode gerenciar os serviços e os recursos de dados necessários para a solução de análise. Você pode criar um workspace do Synapse Analytics em uma assinatura do Azure interativamente usando o portal do Azure ou automatizar a implantação usando o Azure PowerShell, a CLI (interface de linha de comando) do Azure ou um modelo do ARM ou do Bicep.

Depois de criar um workspace do Synapse Analytics, você pode gerenciar os serviços nele e executar as tarefas de análise de dados com eles usando o Synapse Studio, um portal na Web para Azure Synapse Analytics.

Captura de tela do Azure Synapse Studio.

Como trabalhar com arquivos em um data lake

Um dos principais recursos em um workspace do Synapse Analytics é um data lake, em que os arquivos de dados podem ser armazenados e processados em escala. Normalmente, um workspace tem um data lake padrão, que é implementado como serviço vinculado a um contêiner do Azure Data Lake Storage Gen2. Você pode adicionar serviços vinculados para vários data lakes baseados em diferentes plataformas de armazenamento, conforme necessário.

Captura de tela de um serviço vinculado do Data Lake no Azure Studio.

Ingestão e transformação de dados com pipelines

Na maioria das soluções de análise de dados corporativas, os dados são extraídos de várias fontes operacionais e transferidos para um data lake central ou data warehouse para análise. O Azure Synapse Analytics inclui suporte interno para criar, executar e gerenciar pipelines, que orquestram as atividades necessárias para recuperar os dados de uma série de fontes, transformar os dados conforme necessário e carregar os dados transformados resultantes em um repositório analítico.

Captura de tela de um pipeline no Azure Synapse Studio.

Observação

Os pipelines no Azure Synapse Analytics são baseados na mesma tecnologia subjacente que o Azure Data Factory. Se você já estiver familiarizado com o Azure Data Factory, pode aproveitar as habilidades existentes para criar soluções de transformação e ingestão de dados no Azure Synapse Analytics.

Consulta e manipulação de dados com o SQL

O SQL é uma linguagem onipresente para consultar e manipular dados, além de ser a base para bancos de dados relacionais, incluindo a popular plataforma de banco de dados do Microsoft SQL Server. O Azure Synapse Analytics permite a consulta e manipulação de dados baseados em SQL por meio de dois tipos de pool de SQL baseados no mecanismo de banco de dados relacional do SQL Server:

  • Um pool interno sem servidor, otimizado para usar a semântica de SQL relacional para consultar dados baseados em arquivo em um data lake.
  • Pools de SQL dedicados personalizados, que hospedam data warehouses relacionais.

O sistema SQL do Azure Synapse usa um modelo de processamento de consulta distribuído para paralelizar operações SQL, resultando em uma solução altamente escalonável para processamento de dados relacionais. Você pode usar o pool interno sem servidor para análise econômica e processamento de dados de arquivo no data lake e usar os pools de SQL dedicados para criar data warehouses relacionais para modelagem e relatório de dados corporativos.

Captura de tela de uma consulta SQL e bancos de dados no Azure Synapse Studio.

Processamento e análise de dados com o Apache Spark

O Apache Spark é uma plataforma de código aberto para análise de Big Data. O Spark executa o processamento distribuído de arquivos em um data lake, executando trabalhos que podem ser implementados com qualquer uma das várias linguagens de programação compatíveis. As linguagens compatíveis no Spark incluem Python, Scala, Java, SQL e C#.

No Azure Synapse Analytics, você pode criar um ou mais pools do Spark e usar notebooks interativos para combinar códigos e anotações, à medida que cria soluções para análise de dados, aprendizado de máquina e visualização de dados.

Captura de tela de um notebook do Spark no Azure Synapse Studio.

Como explorar os dados com o Data Explorer

O Azure Synapse Data Explorer é um mecanismo de processamento de dados no Azure Synapse Analytics, baseado no serviço Azure Data Explorer. O Data Explorer usa uma sintaxe de consulta intuitiva chamada KQL (Linguagem de Consulta Kusto), para habilitar uma análise de alto desempenho e baixa latência de dados em lote e de streaming.

Captura de tela de um script da Linguagem de Consulta Kusto no Azure Synapse Studio.

Integração com outros serviços de dados do Azure

O Azure Synapse Analytics pode ser integrado a outros serviços de dados do Azure para soluções de análise de ponta a ponta. As soluções integradas incluem:

  • O Link do Azure Synapse permite a sincronização quase em tempo real entre dados operacionais no Azure Cosmos DB, Banco de Dados SQL do Azure, SQL Server e Microsoft Power Platform Dataverse e o armazenamento de dados analíticos que podem ser consultados no Azure Synapse Analytics.
  • A integração do Microsoft Power BI permite que analistas de dados integrem um workspace do Power BI a um workspace do Synapse e realizem a visualização interativa de dados no Azure Synapse Studio.
  • A integração do Microsoft Purview permite que as organizações cataloguem ativos de dados no Azure Synapse Analytics e torna mais fácil para os engenheiros de dados localizar os ativos de dados e acompanhar a linhagem de dados, ao implementar pipelines de dados que ingerem dados no Azure Synapse Analytics.
  • A integração do Azure Machine Learning permite que analistas de dados e cientistas de dados integrem o treinamento e o consumo de modelos preditivos em soluções analíticas.