Zonas de aterragem de dados
As zonas de aterragem de dados estão ligadas à sua zona de aterragem para gestão de dados através de emparelhamento de rede virtual ou pontos de extremidade privados. Cada zona de aterrissagem de dados é considerada uma zona de aterrissagem relacionada à arquitetura da zona de aterrissagem do Azure.
Importante
Antes de provisionar uma zona de aterrissagem de dados, verifique se seu modelo operacional de DevOps e CI/CD está em vigor e se uma zona de aterrissagem de gerenciamento de dados está implantada.
Cada zona de aterrissagem de dados tem várias camadas que permitem agilidade para as integrações de dados de serviço e aplicativos de dados que ela contém. Você pode implantar uma nova zona de aterrissagem de dados com um conjunto padrão de serviços que permitem que a zona de aterrissagem de dados comece a ingerir e analisar dados.
Uma assinatura típica do Azure associada a uma zona de aterrissagem de dados tem a seguinte estrutura:
Camada | Necessário | Grupos de recursos |
---|---|---|
camada de serviços da plataforma | Sim | |
Serviços principais | Sim | |
Aplicação de dados | Opcional |
|
Relatórios e visualização | Opcional |
Observação
Embora a camada de serviços principais esteja marcada como necessária, nem todos os grupos de recursos e serviços incluídos neste artigo podem ser necessários para sua zona de aterrissagem de dados.
Arquitetura da zona de aterrissagem de dados
A arquitetura da zona de aterrissagem de dados ilustra as camadas, seus grupos de recursos e os serviços que cada grupo de recursos contém. A arquitetura oferece uma visão geral de todos os grupos e funções associados à sua zona de pouso de dados e a extensão do acesso deles aos seus planos de controle e dados. A arquitetura também ilustra como cada camada se alinha com as responsabilidades do Modelo Operacional.
Dica
Antes de implantar uma zona de aterrissagem de dados, certifique-se de considerar o número de zonas de aterrissagem de dados iniciais que deseja implantar.
Serviços da plataforma
A camada de serviços da plataforma inclui os serviços necessários para permitir a conectividade e a observabilidade à sua zona de aterrissagem de dados no contexto da análise em escala de nuvem. A tabela a seguir lista os grupos de recursos recomendados.
Grupo de Recursos | Necessário | Descrição |
---|---|---|
network-rg |
Sim | Ligação em rede |
security-rg |
Sim | Segurança e Monitorização |
Ligação em rede
O grupo de recursos de rede contém serviços de conectividade, incluindo Redes Virtuais do Azure , Grupos de Segurança de Rede (NSG) e tabelas de rotas . Todos esses serviços são implantados em um único grupo de recursos.
A rede virtual da sua zona de aterrissagem de dados é automaticamente emparelhada com a rede virtual da sua zona de aterrissagem de gestão de dados e com a rede virtual da sua assinatura de conectividade .
Segurança e Monitorização
O grupo de recursos de segurança e monitorização inclui o Azure Monitor e o Microsoft Defender for Cloud de modo a coletar telemetria de serviço, definir critérios e alertas de monitorização e aplicar políticas e verificações aos serviços.
Serviços principais
A camada de serviços principais inclui serviços fundamentais necessários para habilitar sua zona de aterrissagem de dados no contexto de análises em escala de nuvem. A tabela a seguir lista os grupos de recursos que fornecem o conjunto padrão de serviços disponíveis em cada zona de aterrissagem de dados implantada.
Grupo de Recursos | Necessário | Descrição |
---|---|---|
storage-rg |
Sim | Serviços de data lake |
runtimes-rg |
Sim | Tempos de execução de integração compartilhada |
mgmt-rg |
Sim | Agentes CI/CD |
external-data-rg |
Sim | Armazenamento externo de dados |
data-ingestion-rg |
Opcional | Serviços de ingestão de dados partilhados |
shared-applications-rg |
Opcional | Aplicações partilhadas (Sinapse ou Databricks) |
Armazenamento
Conforme mostrado no diagrama, três contas do Azure Data Lake Storage Gen2 são provisionadas em um único grupo de recursos de serviços de data lake. Os dados transformados em diferentes estágios são guardados em um dos lagos de dados da zona de receção de dados. Os dados estão disponíveis para consumo por suas equipes de análise, ciência de dados e visualização.
As camadas do data lake usam terminologia diferente, dependendo da tecnologia e do fornecedor. Esta tabela fornece orientações sobre como aplicar termos para análises em escala de nuvem:
Análise em escala de nuvem | Lago Delta | Outros termos | Descrição |
---|---|---|---|
Cru | Bronze | Desembarque e Conformidade | Tabelas de Ingestão |
Enriquecido | Prata | Zona de Normalização | Mesas refinadas. Entidades completas armazenadas, conjuntos de registos prontos para consumo a partir de sistemas de registo. |
Com curadoria | Ouro | Zona de Produtos | Tabelas de características ou agregadas. Zona principal para aplicativos, equipes e usuários consumirem produtos de dados. |
Desenvolvimento | -- | Zona de Desenvolvimento | Localização para engenheiros de dados e cientistas, compreendendo um sandbox de análise e uma zona de desenvolvimento de produto. |
Observação
No diagrama anterior, cada zona de aterrissagem de dados tem três contas de armazenamento de data lake. No entanto, dependendo de suas necessidades, você pode optar por consolidar suas camadas brutas, enriquecidas e selecionadas em uma conta de armazenamento e manter outra conta de armazenamento chamada "espaço de trabalho" para que os consumidores de dados tragam outros produtos de dados úteis.
Para mais informações, consulte:
- Visão geral do Armazenamento do Azure Data Lake para análise em escala de nuvem
- Padronização de Dados
- Provisionar contas do Azure Data Lake Storage Gen2 para cada zona de aterrissagem de dados
- Principais considerações para o Armazenamento do Azure Data Lake
- Controle de acesso e configurações de data lake no Azure Data Lake Storage
Tempos de execução de integração compartilhada
O Azure Data Factory e o Azure Synapse Analytics Pipelines usam tempos de execução de integração (IR) para acessar fontes de dados com segurança em redes emparelhadas ou isoladas. Os RIs partilhados devem ser implementados numa máquina virtual (ou Conjuntos de Escala de Máquinas Virtuais do Azure) no grupo de recursos do runtime de integração partilhado.
Para habilitar o grupo de recursos compartilhados:
- Crie pelo menos um Azure Data Factory no grupo de recursos de integração compartilhada da zona de aterrissagem de dados. Use-o apenas para ligar o runtime de integração partilhado auto-hospedado, não para pipelines de dados.
- Crie e configure um ambiente de execução de integração autogerido na máquina virtual.
- Associe o runtime de integração autoalojado às fábricas de dados do Azure nas suas zonas de receção de dados.
- Utilize scripts do PowerShell para atualizar periodicamente o runtime de integração auto-hospedado.
Observação
A implantação descreve a implantação de uma única máquina virtual com um runtime de integração autogerido. Você pode associar um tempo de execução de integração auto-hospedado a várias máquinas virtuais locais ou no Azure. Essas máquinas são chamadas de nós e você pode ter até quatro nós associados a um tempo de execução de integração auto-hospedado. Os benefícios de ter vários nós são:
- Maior disponibilidade do tempo de execução de integração auto-hospedado para que ele não seja mais o único ponto de falha em seu aplicativo de dados ou na orquestração da integração de dados em nuvem.
- Melhor desempenho e taxa de transferência durante a movimentação de dados entre serviços de dados locais e na nuvem. Obtenha mais informações sobre comparações de desempenho .
Você pode associar vários nós instalando o software de tempo de execução de integração auto-hospedado partir do Centro de Download. Em seguida, registre-o usando uma das chaves de autenticação obtidas do cmdlet
Mais informações são detalhadas em Alta disponibilidade e escalabilidade do Azure Data Factory.
Importante
Implante tempos de execução de integração compartilhada o mais próximo possível da fonte de dados. Você pode implantar os tempos de execução de integração em uma zona de aterrissagem de dados, em nuvens de terceiros ou em uma nuvem privada, desde que a máquina virtual tenha conectividade com a(s) fonte(s) de dados necessária(s).
Gestão
Os agentes CI/CD são executados em máquinas virtuais e ajudam a implantar artefatos do repositório de código-fonte, incluindo aplicativos de dados e alterações na zona de aterrissagem de dados.
Para obter mais informações, consulte agentes de pipeline do Azure.
Armazenamento externo
Os editores de dados de parceiros precisam colocar dados na sua plataforma para que as suas equipas de aplicações de dados possam integrá-los nos seus data lakes. Você também pode ter fontes de dados internas ou externas que não suportam os requisitos de conectividade ou autenticação impostos no restante das zonas de aterrissagem de dados. Usar uma conta de armazenamento separada é a abordagem recomendada para receber dados e, em seguida, um tempo de execução de integração compartilhada ou processo de ingestão semelhante para trazê-los para seu pipeline de processamento. Como visto no diagrama a seguir, o seu grupo de recursos de armazenamento para ingestão de uploads permite provisionar armazenamento de blobs para esses casos de uso.
As equipes de aplicativos de dados solicitam os blobs de armazenamento. Essas solicitações são aprovadas pela equipe de operações da zona de pouso de dados. Os dados devem ser excluídos de seu blob de armazenamento de origem depois de serem ingeridos no armazenamento de dados brutos.
Importante
Como os blobs de Armazenamento do Azure são provisionados em uma base
Ingestão de dados
Esse grupo de recursos é opcional e não impede que você implante sua zona de pouso. É aplicável se você tiver ou estiver desenvolvendo um mecanismo de ingestão independente de dados que ingere automaticamente dados com base em metadados registrados, incluindo cadeias de conexão, caminhos para transferência de dados e agendas de ingestão.
O grupo de recursos de ingestão e processamento tem serviços-chave para esse tipo de estrutura.
Implante uma instância do Banco de Dados SQL do Azure para armazenar metadados usados pelo Azure Data Factory. Provisione um Cofre de Chaves do Azure para armazenar segredos relacionados a serviços de ingestão automatizados. Esses segredos podem incluir:
- Credenciais do metastore do Azure Data Factory
- Credenciais do principal de serviço para o seu processo de ingestão automatizado
Para obter mais informações, consulte Como as estruturas de ingestão automatizadas dão suporte à análise em escala de nuvem no Azure.
Os serviços incluídos neste grupo de recursos incluem:
Serviço | Necessário | Orientações |
---|---|---|
Azure Data Factory | Sim | O Azure Data Factory é o seu mecanismo de orquestração para uma ingestão de dados agnóstica. |
Banco de Dados SQL do Azure | Sim | O Banco de Dados SQL do Azure é o metastore do Azure Data Factory. |
Hubs de Eventos ou Hub IoT | Opcional | O Event Hubs ou o IoT Hub podem fornecer streaming em tempo real para o Event Hubs, além de processamento em lote e streaming através de um espaço de trabalho de engenharia do Databricks. |
Azure Databricks | Opcional | Você pode implantar o Azure Databricks ou o Azure Synapse Spark para uso com seu mecanismo de ingestão independente de dados. |
Azure Synapse | Opcional | Você pode implantar o Azure Databricks ou o Azure Synapse Spark para usar com o mecanismo de ingestão agnóstico de dados. |
Aplicações partilhadas
Esse grupo de recursos opcional é usado quando há a necessidade de ter um conjunto de serviços compartilhados disponibilizados para todas as equipes que criam aplicativos de dados nessa zona de aterrissagem de dados. Exemplos de usos incluem:
- Um espaço de trabalho do Azure Databricks usado como um Metastore compartilhado para todos os outros espaços de trabalho do Databricks criados na mesma zona de aterrissagem de dados (ou região)
- Uma instância compartilhada do Azure Synapse Analytics usando Pools SQL sem servidor para permitir que os usuários consultem contas de armazenamento isoladas.
Observação
O Azure Databricks usa o Unity Catalog para controlar o acesso e a visibilidade dos metastores nos espaços de trabalho do Databricks. O Catálogo Unity está ativado ao nível de inquilino, mas os metastores estão alinhados às regiões do Azure. Na prática, isso significa que todos os espaços de trabalho Databricks habilitados para Unity Catalog em uma determinada região do Azure precisarão se registrar no mesmo Metastore. Para obter mais informações, consulte Unity Catalog Best Practices.
Siga as práticas recomendadas de análise em escala de nuvem para integrar o Azure Databricks:
- Acesso seguro ao Azure Data Lake Gen2 a partir do Azure Databricks
- Práticas recomendadas do Azure Databricks
Aplicação de dados
Cada zona de aterrissagem de dados pode ter vários aplicativos de dados. Você pode criar esses aplicativos ingerindo dados de várias fontes. Você também pode criar aplicativos de dados de outros aplicativos de dados dentro da mesma zona de aterrissagem de dados ou de outras zonas de aterrissagem de dados. A criação dos aplicativos de dados está sujeita à aprovação do administrador de dados.
Grupo de recursos de aplicativo de dados
Seu grupo de recursos de aplicativo de dados inclui todos os serviços necessários para fazer esse aplicativo de dados. Por exemplo, um Banco de Dados do Azure é necessário para o MySQL, que é usado por uma ferramenta de visualização. Os dados devem ser ingeridos e transformados antes de chegarem ao banco de dados MySQL. Nesse caso, você pode implantar o Banco de Dados do Azure para MySQL e um Azure Data Factory no grupo de recursos do aplicativo de dados.
Dica
Se você optar por não implementar um mecanismo agnóstico de dados para ingerir uma vez a partir de fontes operacionais, ou se conexões complexas não forem facilitadas em seu mecanismo agnóstico de dados, crie um aplicativo de dados alinhado à fonte. Para obter mais informações, consulte Aplicativos de dados (alinhados à origem).
Para obter mais informações sobre como integrar produtos de dados, consulte aplicativos de dados de análise em escala de nuvem no Azure.
Relatórios e visualização
Você pode usar ferramentas de visualização e relatório em Espaços de Trabalho de Malha, que têm muitas semelhanças com os Espaços de Trabalho do Power BI, sem precisar implantar recursos exclusivos em sua zona de aterrissagem de dados. Você pode incluir um grupo de recursos para implantar a capacidade do Fabric, máquinas virtuais para gateways de dados ou outros serviços de dados necessários para entregar a sua aplicação de dados ao utilizador final.