Compreender os recursos e casos de uso do pool SQL sem servidor do Azure Synapse
O Azure Synapse Analytics é um serviço de análise integrado que reúne uma ampla gama de tecnologias comumente usadas para processar e analisar dados em escala. Uma das tecnologias mais prevalentes usadas em soluções de dados é o SQL - uma linguagem padrão do setor para consultar e manipular dados.
Pools SQL sem servidor no Azure Synapse Analytics
O Azure Synapse SQL é um sistema de consulta distribuído no Azure Synapse Analytics que oferece dois tipos de ambientes de tempo de execução:
- Pool SQL sem servidor: processamento de consultas SQL sob demanda, usado principalmente para trabalhar com dados em um data lake.
- Pool SQL dedicado: instâncias de banco de dados relacional em escala empresarial usadas para hospedar data warehouses nos quais os dados são armazenados em tabelas relacionais.
Neste módulo, nos concentraremos no pool SQL sem servidor, que fornece um ponto de extremidade pago por consulta para consultar os dados em seu data lake. Os benefícios de usar o pool SQL sem servidor incluem:
- Uma sintaxe Transact-SQL familiar para consultar dados no local sem a necessidade de copiar ou carregar dados em um armazenamento especializado.
- Conectividade integrada a partir de uma ampla gama de business intelligence e ferramentas de consulta ad-hoc, incluindo os drivers mais populares.
- Processamento de consultas distribuído criado para dados em grande escala e funções computacionais - resultando em um desempenho de consulta rápido.
- Tolerância a falhas na execução de consultas integrada, resultando em altas taxas de confiabilidade e sucesso, mesmo para consultas de longa execução envolvendo grandes conjuntos de dados.
- Nenhuma infraestrutura para configurar ou clusters para manter. Um ponto de extremidade interno para esse serviço é fornecido em cada espaço de trabalho do Azure Synapse, para que você possa começar a consultar dados assim que o espaço de trabalho for criado.
- Sem custos para os recursos reservados, você só é cobrado pelos dados processados pelas consultas que você executa.
Quando usar pools SQL sem servidor
O pool SQL sem servidor é adaptado para consultar os dados que residem no data lake, portanto, além de eliminar a carga de gerenciamento, elimina a necessidade de se preocupar em ingerir os dados no sistema. Basta apontar a consulta para os dados que já estão no lago e executá-la.
O modelo de recursos sem servidor Synapse SQL é ótimo para cargas de trabalho não planejadas ou "intermitentes" que podem ser processadas usando o ponto de extremidade SQL sem servidor sempre ativo em seu espaço de trabalho do Azure Synapse Analytics. O uso do pool sem servidor ajuda quando você precisa saber o custo exato de cada consulta executada para monitorar e atribuir custos.
Nota
O pool SQL sem servidor é um sistema de análise e não é recomendado para cargas de trabalho OLTP, como bancos de dados usados por aplicativos para armazenar dados transacionais. Cargas de trabalho que exigem tempos de resposta de milissegundos e procuram identificar uma única linha em um conjunto de dados não são adequadas para pool SQL sem servidor.
Os casos de uso comuns para pools SQL sem servidor incluem:
- Exploração de dados: a exploração de dados envolve a navegação no data lake para obter informações iniciais sobre os dados e é facilmente alcançável com o Azure Synapse Studio. Você pode navegar pelos arquivos em seu armazenamento de data lake vinculado e usar o pool SQL interno sem servidor para gerar automaticamente um script SQL para selecionar as 100 melhores linhas de um arquivo ou pasta, assim como faria com uma tabela no SQL Server. A partir daí, você pode aplicar projeções, filtragem, agrupamento e a maior parte da operação sobre os dados como se os dados estivessem em uma tabela regular do SQL Server.
- Transformação de dados: enquanto o Azure Synapse Analytics fornece excelentes recursos de transformação de dados com o Synapse Spark, alguns engenheiros de dados podem achar a transformação de dados mais fácil de alcançar usando SQL. O pool SQL sem servidor permite que você execute transformações de dados baseadas em SQL; interativamente ou como parte de um pipeline de dados automatizado.
- Data warehouse lógico: após a exploração inicial dos dados no data lake, você pode definir objetos externos, como tabelas e exibições, em um banco de dados SQL sem servidor. Os dados permanecem armazenados nos arquivos do data lake, mas são abstraídos por um esquema relacional que pode ser usado por aplicativos cliente e ferramentas analíticas para consultar os dados como fariam em um banco de dados relacional hospedado no SQL Server.