Guia estratégico da POC do Synapse: exploração do Data Lake com pool de SQL sem servidor no Azure Synapse Analytics
Este artigo apresenta uma metodologia de alto nível para preparar e executar um projeto de POC (prova de conceito) eficaz do Azure Synapse Analytics para o pool de SQL sem servidor.
Observação
Este artigo faz parte da série de artigos Guia estratégico de prova de conceito do Azure Synapse. Para obter uma visão geral da série, confira Guia estratégico de prova de conceito do Azure Synapse.
Preparação para a POC
Um projeto de POC pode ajudar você a tomar uma decisão comercial informada sobre a implementação de um ambiente de análise avançada e de Big Data em uma plataforma baseada em nuvem que tira proveito do pool de SQL sem servidor no Azure Synapse. Se você precisar explorar ou obter insights de dados no data lake, ou otimizar o pipeline de transformação de dados existente, poderá se beneficiar do uso do pool de SQL sem servidor. Ele é adequado aos seguintes cenários:
- Descoberta básica e exploração: tire conclusões rapidamente sobre os dados armazenados em vários formatos (Parquet, CSV, JSON) no data lake, permitindo que você planeje a melhor maneira de obter insights deles.
- Data warehouse lógico: forneça uma abstração relacional sobre dados brutos ou díspares sem realocá-los nem transformá-los, permitindo a exibição sempre atualizada dos dados.
- Transformação de dados: execute consultas de data lake simples, escalonáveis e com alto desempenho usando T-SQL. Você pode colocar os resultados da consulta em ferramentas de BI (business intelligence) ou carregá-los em um banco de dados relacional. Os sistemas de destino podem incluir pools de SQL dedicados do Azure Synapse ou o Banco de Dados SQL do Azure.
Diferentes funções profissionais podem se beneficiar do pool de SQL sem servidor:
- Os engenheiros de dados podem explorar o data lake, transformar e preparar dados usando pool de SQL sem servidor e simplificar seus pipelines de transformação de dados.
- Os cientistas de dados podem analisar rapidamente o conteúdo e a estrutura dos dados armazenados no data lake usando a função T-SQL OPENROWSET e sua inferência de esquema automática.
- Os analistas de dados podem escrever consultas T-SQL em suas ferramentas de consulta preferidas, que podem se conectar ao pool de SQL sem servidor. Eles podem explorar dados em tabelas externas do Spark que foram criadas por cientistas ou engenheiros de dados.
- Os profissionais de BI podem criar rapidamente relatórios do Power BI que se conectam ao data lake ao a tabelas do Spark.
Um projeto de POC do pool de SQL sem servidor identificará suas principais metas e drivers de negócios para os quais o suporte do pool de SQL sem servidor foi projetado. Ele também testará os principais recursos e coletará métricas para dar suporte às suas decisões de implementação. Uma POC não foi projetada para ser implantada em um ambiente de produção. Ela é um projeto de curto prazo que se concentra em questões-chave, e seu resultado pode ser descartado.
Antes de começar a planejar o projeto de POC do pool de SQL sem servidor:
- Identifique eventuais restrições ou diretrizes que sua organização tenha em relação a mover dados para a nuvem.
- Identifique patrocinadores executivos ou empresariais para um projeto de plataforma de análise avançada e big data. Garanta o suporte à migração para a nuvem.
- Identifique a disponibilidade de especialistas técnicos e usuários de negócios para dar suporte a você durante a execução da POC.
Antes de começar a se preparar para o projeto de POC, recomendamos primeiro ler a documentação do pool de SQL sem servidor.
Dica
Se você não estiver familiarizado com pools de SQL sem servidor, recomendamos que percorra o caminho de aprendizagem Criar soluções de análise de dados usando pools de SQL sem servidor do Azure Synapse.
Definir as metas
Um projeto de POC bem-sucedido exige planejamento. Comece identificando por que você está fazendo um POC a fim de entender por completo as motivações reais. As motivações podem incluir modernização, redução de custos, melhoria de desempenho ou experiência integrada. Documente metas claras para seu POC, bem como critérios que definirão o sucesso dele. Pergunte-se:
- O que você deseja obter como resultado do seu POC?
- O que você fará com esses resultados?
- Quem usará os resultados?
- O que definirá se o POC foi bem-sucedido?
Tenha em mente que um POC deve ser um esforço curto e concentrado para comprovar rapidamente um conjunto limitado de conceitos e funcionalidades. Esses conceitos e funcionalidades devem ser representativos da carga de trabalho geral. Se você tiver uma longa lista de itens a serem provados, talvez seja o caso de planejar mais de um POC. Nesse caso, defina portões entre as POCs para determinar se você precisa continuar a seguinte. Considerando as diferentes funções profissionais que podem usar um pool de SQL sem servidor (e os diferentes cenários aos quais o pool de SQL sem servidor dá suporte), você pode optar por executar várias POCs. Por exemplo, uma POC poderia se concentrar em requisitos da função de cientista de dados, como descoberta e exploração de dados em formatos diferentes. Outra pode se concentrar em requisitos da função de engenharia de dados, como transformação de dados e criação de um data warehouse lógico.
Ao considerar suas metas de POC, faça as seguintes perguntas para definir as metas:
- Você está migrando de uma plataforma existente de análise avançada e de big data (local ou na nuvem)?
- Você está migrando, mas deseja fazer o menor número possível de alterações na ingestão e no processamento de dados existentes?
- Você está migrando, mas deseja fazer algumas melhorias extensas ao longo do percurso?
- Você está criando uma plataforma de análise avançada e big data totalmente nova (projeto greenfield)?
- Quais são suas dificuldades atuais? Por exemplo, escalabilidade, desempenho ou flexibilidade.
- A quais novos requisitos de negócios você precisa dar suporte?
- Quais são os SLAs que você precisa atender?
- Quais serão as cargas de trabalho? Por exemplo, exploração de dados em diferentes formatos de dados, exploração básica, um data warehouse lógico, preparação e/ou transformação de dados, análise interativa T-SQL, consulta T-SQL de tabelas do Spark ou consultas de relatório no data lake.
- Quais são as habilidades dos usuários que serão proprietários do projeto (caso a POC seja implementada)?
Aqui estão alguns exemplos de configuração de meta de POC:
- Por que estamos fazendo uma POC?
- Precisamos saber se podemos explorar todos os formatos de arquivo bruto que armazenamos usando o pool de SQL sem servidor.
- Precisamos saber se nossos engenheiros de dados podem avaliar rapidamente novos feeds de dados.
- Precisamos saber se o desempenho da consulta data lake que usa o pool de SQL sem servidor atenderá aos nossos requisitos de exploração de dados.
- Precisamos saber se o pool de SQL sem servidor é uma boa opção para alguns de nossos requisitos de visualizações e relatório.
- Precisamos saber se o pool de SQL sem servidor é uma boa opção para alguns de nossos requisitos de ingestão de dados e relatório.
- Precisamos saber se nossa mudança para o Azure Synapse caberá em nosso orçamento.
- No final desta PoC:
- Teremos os dados para identificar as transformações de dados adequadas ao pool de SQL sem servidor.
- Teremos os dados para identificar quando o pool de SQL sem servidor poderá ser usado da melhor forma durante a visualização de dados.
- Teremos os dados para saber a facilidade com que nossos engenheiros de dados e cientistas de dados poderão adotar a nova plataforma.
- Teremos informações para estimar melhor o esforço necessário para concluir a implementação ou o projeto de migração.
- Teremos uma lista de itens que talvez precisem de mais testes.
- Nossa POC será bem-sucedida se tivermos os dados necessários e concluirmos o teste identificado para determinar como o pool de SQL sem servidor dará suporte à nossa plataforma de big data e análise avançada baseada em nuvem.
- Determinaremos se podemos passar para a próxima fase ou se mais testes de POC são necessários para finalizar nossa decisão.
- Poderemos tomar uma decisão comercial sólida com suporte de pontos de dados específicos.
Planejar o projeto
Use suas metas para identificar testes específicos e fornecer os resultados identificados. É importante garantir que você tenha pelo menos um teste para fundamentar cada meta e resultado esperados. Além disso, identifique tarefas específicas de análise e exploração de dados, transformações específicas e processamento existente específico que você deseja testar. Identifique um conjunto de dados específico e uma base de código que você possa usar.
Aqui está um exemplo do nível necessário de especificidade no planejamento:
- Objetivo: precisamos saber se os engenheiros de dados podem obter o processamento equivalente do processo ETL existente chamado "Validação diária de arquivo bruto em lote" dentro do SLA necessário.
- Resultado: teremos os dados para determinar se podemos usar consultas T-SQL para executar o processo ETL "Validação diária de arquivo bruto em lote" dentro do SLA necessário.
- Teste: as consultas de validação A, B e C são identificadas pela engenharia de dados e representam as necessidades gerais de processamento de dados. Compare o desempenho dessas consultas com o parâmetro de comparação obtido do sistema existente.
Avaliar o conjunto de dados da POC
Usando os testes específicos que você identificou, selecione um conjunto de dados para fundamentar os testes. Reserve um tempo para examinar esse conjunto de dados. Você deve verificar se o conjunto de dados representará adequadamente seu processamento futuro em termos de conteúdo, complexidade e escala. Não use um conjunto de dados muito pequeno porque ele não terá desempenho representativo. Por outro lado, não use um conjunto de dados muito grande porque a POC não deve se tornar uma migração completa de dados. Obtenha os parâmetros de comparação apropriados com sistemas existentes para que você possa usá-los na comparação do desempenho.
Importante
Verifique com os proprietários de negócios se há impedimentos antes de mover os dados para a nuvem. Identifique todas as preocupações de segurança ou de privacidade ou necessidades de ofuscação de dados que devem ser feitas antes de mover dados para a nuvem.
Criar uma arquitetura geral
Com base na visão geral da arquitetura proposta para seu estado futuro, identifique os componentes que farão parte do POC. Sua arquitetura geral do estado futuro provavelmente contém muitas fontes de dados, vários consumidores de dados, componentes de Big Data e, possivelmente, consumidores de dados de IA (machine learning e inteligência artificial). Sua arquitetura de POC deve identificar especificamente componentes que farão parte do POC. O mais importante: ela deve identificar todos os componentes que não fazem parte do teste de POC.
Se você já estiver usando o Azure, identifique todos os recursos já existentes (ID do Microsoft Entra, ExpressRoute e outros) que você pode usar durante a POC. Identifique também as regiões do Azure que sua organização usa. Agora é um ótimo momento para identificar a taxa de transferência de sua conexão com o ExpressRoute e verificar com outros usuários de negócios que sua POC poderá consumir parte dessa taxa de transferência sem ter impacto negativo nos sistemas de produção.
Identificar recursos da POC
Identifique especificamente os recursos técnicos e os compromissos de tempo necessários para dar suporte ao seu POC. Seu POC precisará de:
- Um representante comercial para supervisionar os requisitos e os resultados.
- Um especialista em dados de aplicativo para fornecer os dados da POC e conhecimento sobre processos e lógica existentes.
- Um especialista em pool de SQL sem servidor.
- Um consultor especialista para otimizar os testes de POC.
- Recursos que serão necessários para componentes específicos do seu projeto de POC, mas não necessariamente necessários durante o POC. Esses recursos podem incluir administradores de rede, administradores do Azure, administradores do Active Directory, administradores do portal do Azure e outros.
- Verifique se todos os recursos de serviços do Azure necessários estão provisionados e se o nível de acesso necessário foi concedido, incluindo acesso a contas de armazenamento.
- Verifique se você tem uma conta com as permissões de acesso a dados necessárias para recuperar dados de todas as fontes de dados no escopo do POC.
Dica
É recomendável contratar um consultor especialista para auxiliar em seu POC. A comunidade de parceiros da Microsoft tem disponibilidade global de consultores especialistas que podem ajudá-lo a apurar, avaliar ou implementar o Azure Synapse.
Definir a linha do tempo
Examine os detalhes de planejamento do POC e as necessidades de negócios a fim de identificar um período para o POC. Faça estimativas realistas do tempo necessário para concluir as metas do POC. O tempo para concluir o POC será influenciado pelo tamanho do conjunto de dados utilizado, o número de testes e a complexidade deles, e o número de interfaces a serem testadas. Se você estimar que seu POC será executado por mais de quatro semanas, considere reduzir o escopo para se concentrar nas metas de maior prioridade. Obtenha a aprovação e o comprometimento de todos os principais recursos e patrocinadores antes de continuar.
Colocar a POC em prática
Recomendamos que você execute seu projeto de POC com disciplina e rigor equivalentes a um projeto de produção. Execute o projeto de acordo com o plano e gerencie um processo de solicitação de alteração para evitar o crescimento descontrolado do escopo do POC.
Veja alguns exemplos de tarefas gerais:
- Crie um workspace do Synapse, contas de armazenamento e recursos do Azure identificados no plano POC.
- Configure a rede e segurança de acordo com suas necessidades.
- Conceda acesso apropriado aos membros da equipe da POC. Confira este artigo sobre permissões para acessar arquivos diretamente no Armazenamento do Azure.
- Carregue o conjunto de dados de POC.
- Implemente e configure os testes e/ou migre o código existente para scripts e exibições do pool de SQL sem servidor.
- Execute os testes:
- Muitos testes podem ser executados em paralelo.
- Registre seus resultados em um formato consumível e facilmente compreensível.
- Monitore a solução de problemas e o desempenho.
- Avalie seus resultados e apresente resultados.
- Trabalhe com os stakeholders técnicos e equipes de negócios para planejar a próxima etapa do projeto. A próxima fase pode ser uma POC de acompanhamento ou uma implementação de produção.
Interpretar os resultados da POC
Ao concluir todos os testes de POC, você avaliará os resultados. Comece avaliando se as metas do POC foram atingidas e se as saídas desejadas foram coletadas. Determine se mais testes são necessários ou se alguma questão precisa ser abordada.