Como funciona o Azure Synapse Analytics

Concluído

Para dar suporte às necessidades de análise das organizações atuais, o Azure Synapse Analytics combina um serviço centralizado para armazenamento e processamento de dados com uma arquitetura extensível por meio da qual os serviços vinculados permitem integrar armazenamentos de dados comumente usados, plataformas de processamento e ferramentas de visualização.

Criando e usando um espaço de trabalho do Azure Synapse Analytics

Um espaço de trabalho do Synapse Analytics define uma instância do serviço Synapse Analytics na qual você pode gerenciar os serviços e recursos de dados necessários para sua solução de análise. Você pode criar um espaço de trabalho do Synapse Analytics em uma assinatura do Azure interativamente usando o portal do Azure ou pode automatizar a implantação usando o Azure PowerShell, a interface de linha de comando (CLI) do Azure ou com um modelo do Azure Resource Manager ou Bicep.

Depois de criar um espaço de trabalho do Synapse Analytics, você pode gerenciar os serviços nele e executar tarefas de análise de dados com eles usando o Synapse Studio, um portal baseado na Web para o Azure Synapse Analytics.

Captura de ecrã do Azure Synapse Studio.

Trabalhando com arquivos em um data lake

Um dos principais recursos em um espaço de trabalho do Synapse Analytics é um data lake, no qual os arquivos de dados podem ser armazenados e processados em escala. Um espaço de trabalho normalmente tem um data lake padrão, que é implementado como um serviço vinculado a um contêiner do Azure Data Lake Storage Gen2. Você pode adicionar serviços vinculados para vários data lakes baseados em diferentes plataformas de armazenamento, conforme necessário.

Captura de ecrã de um serviço ligado ao data lake no Azure Studio.

Ingerir e transformar dados com pipelines

Na maioria das soluções de análise de dados empresariais, os dados são extraídos de várias fontes operacionais e transferidos para um data lake central ou data warehouse para análise. O Azure Synapse Analytics inclui suporte interno para criar, executar e gerenciar pipelines que orquestram as atividades necessárias para recuperar dados de uma variedade de fontes, transformar os dados conforme necessário e carregar os dados transformados resultantes em um repositório analítico.

Captura de ecrã de um pipeline no Azure Synapse Studio.

Nota

Os pipelines no Azure Synapse Analytics baseiam-se na mesma tecnologia subjacente do Azure Data Factory. Se já estiver familiarizado com o Azure Data Factory, pode tirar partido das suas competências existentes para criar soluções de ingestão e transformação de dados no Azure Synapse Analytics.

Consultando e manipulando dados com SQL

SQL (Structured Query Language) é uma linguagem ubíqua para consultar e manipular dados e é a base para bancos de dados relacionais, incluindo a popular plataforma de banco de dados Microsoft SQL Server. O Azure Synapse Analytics dá suporte à consulta e manipulação de dados com base em SQL por meio de dois tipos de pool SQL baseados no mecanismo de banco de dados relacional do SQL Server:

  • Um pool interno sem servidor otimizado para usar semântica SQL relacional para consultar dados baseados em arquivo em um data lake.
  • Pools SQL dedicados personalizados que hospedam data warehouses relacionais.

O sistema SQL do Azure Synapse usa um modelo de processamento de consulta distribuído para paralelizar operações SQL, resultando em uma solução altamente escalável para processamento de dados relacionais. Você pode usar o pool sem servidor interno para análise e processamento econômicos de dados de arquivos no data lake e usar pools SQL dedicados para criar data warehouses relacionais para modelagem e relatórios de dados corporativos.

Captura de ecrã de uma consulta SQL e bases de dados no Azure Synapse Studio.

Processamento e análise de dados com o Apache Spark

O Apache Spark é uma plataforma de código aberto para análise de big data. O Spark executa o processamento distribuído de arquivos em um data lake executando trabalhos que podem ser implementados usando qualquer uma de uma variedade de linguagens de programação suportadas. As linguagens suportadas no Spark incluem Python, Scala, Java, SQL e C#.

No Azure Synapse Analytics, você pode criar um ou mais pools do Spark e usar blocos de anotações interativos para combinar código e anotações à medida que cria soluções para análise de dados, aprendizado de máquina e visualização de dados.

Captura de ecrã de um bloco de notas do Spark no Azure Synapse Studio.

Explorando dados com o Data Explorer

O Azure Synapse Data Explorer é um mecanismo de processamento de dados no Azure Synapse Analytics baseado no serviço Azure Data Explorer. O Data Explorer usa uma sintaxe de consulta intuitiva chamada Kusto Query Language (KQL) para permitir a análise de alto desempenho e baixa latência de dados em lote e streaming.

Captura de ecrã de um script Kusto Query Language no Azure Synapse Studio.

Integração com outros serviços de dados do Azure

O Azure Synapse Analytics pode ser integrado com outros serviços de dados do Azure para soluções de análise de ponta a ponta. As soluções integradas incluem:

  • O Azure Synapse Link permite a sincronização quase em tempo real entre dados operacionais no Azure Cosmos DB, Banco de Dados SQL do Azure, SQL Server e Microsoft Power Platform Dataverse e armazenamento de dados analíticos que podem ser consultados no Azure Synapse Analytics.
  • A integração do Microsoft Power BI permite que os analistas de dados integrem um espaço de trabalho do Power BI a um espaço de trabalho do Synapse e executem a visualização interativa de dados no Azure Synapse Studio.
  • A integração do Microsoft Purview permite que as organizações catalogem ativos de dados no Azure Synapse Analytics e torna mais fácil para os engenheiros de dados encontrar ativos de dados e rastrear a linhagem de dados ao implementar pipelines de dados que ingerem dados no Azure Synapse Analytics.
  • A integração do Azure Machine Learning permite que analistas de dados e cientistas de dados integrem o treinamento e o consumo de modelos preditivos em soluções analíticas.