Partilhar via


Metodologia de sucesso da implementação da Sinapse: Avalie o projeto de integração de dados

Nota

Este artigo faz parte da série de artigos de sucesso da implementação do Azure Synapse by design . Para obter uma visão geral da série, consulte Azure Synapse implementation success by design.

O Azure Synapse Analytics contém o mesmo mecanismo de integração de dados e experiências que o Azure Data Factory (ADF), permitindo que você crie pipelines de ETL avançados em escala sem sair do Azure Synapse Analytics.

A imagem mostra os componentes do Azure Synapse, com o componente Integração de Dados realçado.

Este artigo descreve como avaliar o design dos componentes de integração de dados para seu projeto. Especificamente, ele ajuda você a determinar se os pipelines do Azure Synapse são os mais adequados para seus requisitos de integração de dados. O tempo investido na avaliação do projeto antes do desenvolvimento da solução pode ajudar a eliminar alterações inesperadas no projeto que podem afetar o cronograma ou o custo do projeto.

Análise de lacunas de ajuste

Você deve realizar uma análise completa de lacunas de ajuste de sua estratégia de integração de dados. Se você escolher os pipelines do Azure Synapse como a ferramenta de integração de dados, revise os pontos a seguir para garantir que eles sejam os mais adequados para seus requisitos de integração de dados e orquestração. Mesmo se você escolher diferentes ferramentas de integração de dados, você ainda deve revisar os seguintes pontos para validar que todos os principais pontos de design foram considerados e que a ferramenta escolhida dará suporte às suas necessidades de solução. Essas informações devem ter sido capturadas durante a avaliação realizada anteriormente nesta metodologia.

  • Analise suas fontes de dados e destinos (destinos):
    • Valide se os armazenamentos de origem e destino são armazenados de dados suportados.
    • Se não forem suportados, verifique se pode utilizar as opções extensíveis.
  • Analise os pontos de desencadeamento da sua integração de dados e a frequência:
    • A agenda de suporte dos pipelines do Azure Synapse, a janela de tombamento e os gatilhos de eventos de armazenamento.
    • Valide o intervalo mínimo de recorrência e os eventos de armazenamento suportados em relação às suas necessidades.
  • Analise os modos necessários de integração de dados:
  • Analise o design de computação:
    • A computação necessária para os pipelines precisa ser sem servidor ou provisionada?
    • Os pipelines do Azure Synapse dão suporte a ambos os modos de tempo de execução de integração (IR): sem servidor ou auto-hospedado em uma máquina Windows.
    • Valide portas, firewalls e configuração de proxy ao usar o IR auto-hospedado (provisionado).
  • Analise os requisitos de segurança, a configuração de rede e firewall do ambiente e compare-os com o design de configuração de segurança, rede e firewall:
    • Analise como as fontes de dados são protegidas e conectadas em rede.
    • Analise como os armazenamentos de dados de destino estão protegidos e ligados em rede. Os pipelines do Azure Synapse têm diferentes estratégias de acesso a dados que fornecem uma maneira segura de conectar armazenamentos de dados por meio de pontos de extremidade privados ou redes virtuais.
    • Use o Azure Key Vault para armazenar credenciais sempre que aplicável.
    • Use o ADF para criptografia de credenciais de chave gerenciada pelo cliente (CMK) e armazene-as no IR auto-hospedado.
  • Revise o design para monitoramento contínuo de todos os componentes de integração de dados.

Considerações sobre arquitetura

Ao analisar o design de integração de dados, considere as seguintes recomendações e diretrizes para garantir que os componentes de integração de dados de sua solução forneçam excelência operacional contínua, eficiência de desempenho, confiabilidade e segurança.

Excelência operacional

Para excelência operacional, avalie os seguintes pontos.

  • Ambiente: Ao planejar seus ambientes, separe-os por desenvolvimento/teste, teste de aceitação do usuário (UAT) e produção. Use as opções organizacionais da pasta para organizar seus pipelines e conjuntos de dados por trabalhos de negócios/ETL para oferecer suporte a uma melhor manutenção. Use anotações para marcar seus pipelines para que você possa monitorá-los facilmente. Crie pipelines reutilizáveis usando parâmetros, iteração e atividades condicionais.
  • Monitoramento e alerta: os espaços de trabalho do Synapse incluem o Monitor Hub, que possui informações de monitoramento avançadas de cada pipeline executado. Ele também se integra ao Log Analytics para análise e alertas de log adicionais. Você deve implementar esses recursos para fornecer notificações de erro proativas. Além disso, use os caminhos Upon Failure para implementar o tratamento personalizado de erros.
  • Implantação e teste automatizados: os pipelines do Azure Synapse são incorporados ao espaço de trabalho Synapse, para que você possa aproveitar a automação e a implantação do espaço de trabalho. Use modelos ARM para minimizar as atividades manuais ao criar espaços de trabalho Synapse. Além disso, integre espaços de trabalho Synapse com o Azure DevOps para criar controle de versão de código e automatizar a publicação.

Eficiência de desempenho

Para eficiência de desempenho, avalie os seguintes pontos.

  • Siga as orientações de desempenho e os recursos de otimização ao trabalhar com a atividade de cópia.
  • Escolha conectores otimizados para transferência de dados em vez de conectores genéricos. Por exemplo, use o PolyBase em vez de inserir em massa ao mover dados do Azure Data Lake Storage Gen2 (ALDS Gen2) para um pool SQL dedicado.
  • Ao criar um novo IR do Azure, defina o local da região como resolução automática ou selecione a mesma região que os armazenamentos de dados.
  • Para IR auto-hospedado, escolha o tamanho da máquina virtual (VM) do Azure com base nos requisitos de integração.
  • Escolha uma conexão de rede estável, como o Azure ExpressRoute, para uma largura de banda rápida e consistente.

Fiabilidade

Quando você executa um pipeline usando o IR do Azure, ele é sem servidor por natureza e, portanto, fornece resiliência pronta para uso. Há pouco para os clientes gerenciarem. No entanto, quando um pipeline é executado em um IR auto-hospedado, recomendamos que você o execute usando uma configuração de alta disponibilidade nas VMs do Azure. Essa configuração garante que os pipelines de integração não sejam quebrados, mesmo quando uma VM fica offline. Além disso, recomendamos que você use o Azure ExpressRoute para uma conexão de rede rápida e confiável entre o local e o Azure.

Segurança

Uma plataforma de dados segura é um dos principais requisitos de todas as organizações. Você deve planejar completamente a segurança para toda a plataforma, em vez de componentes individuais. Aqui estão algumas diretrizes de segurança para soluções de pipeline do Azure Synapse.

  • Proteja a movimentação de dados para a nuvem usando pontos de extremidade privados do Azure Synapse.
  • Use identidades gerenciadas do Microsoft Entra para autenticação.
  • Use o RBAC (controle de acesso baseado em função) do Azure e o Synapse RBAC para autorização.
  • Armazene credenciais, segredos e chaves no Cofre de Chaves do Azure em vez de no pipeline. Para obter mais informações, consulte Usar segredos do Cofre de Chaves do Azure em atividades de pipeline.
  • Conecte-se a recursos locais por meio do Azure ExpressRoute ou VPN em pontos de extremidade privados.
  • Habilite as opções Saída segura e Entrada segura em atividades de pipeline quando os parâmetros armazenarem segredos ou senhas.

Próximos passos

No próximo artigo da série Azure Synapse success by design, saiba como avaliar seu design de pool SQL dedicado para identificar problemas e validar se ele atende às diretrizes e requisitos.