Visão geral do Armazenamento Azure Data Lake para análise em escala de nuvem

Artigo
10/10/2024

O Azure Data Lake é um armazenamento de dados massivamente escalável e seguro para cargas de trabalho de análise de alto desempenho. Você pode criar contas de armazenamento dentro de um único grupo de recursos para análises em escala de nuvem. Recomendamos o provisionamento de três contas do Azure Data Lake Storage Gen2 em um único grupo de recursos semelhante ao storage-rg grupo de recursos descrito no artigo Visão geral da zona de aterrissagem de dados da arquitetura de análise em escala de nuvem.

Cada conta de armazenamento dentro de sua zona de aterrissagem de dados armazena dados em um dos três estágios, que se alinham a uma arquitetura medalhão:

Dados brutos (bronze)
Dados enriquecidos (prata) e curados (ouro)
Lagos de dados de desenvolvimento

Um aplicativo de dados pode consumir dados enriquecidos e selecionados de uma conta de armazenamento que foi ingerida um serviço automatizado de ingestão agnóstica de dados. Você pode criar um aplicativo de dados alinhado à fonte se não implementar um mecanismo agnóstico de dados ou facilitar conexões complexas para a ingestão de dados de fontes operacionais. Este aplicativo de dados segue o mesmo fluxo de um mecanismo agnóstico de dados ao ingerir dados de fontes de dados externas.

O Data Lake Storage Gen2 oferece suporte a ACLs (listas de controle de acesso) refinadas que protegem os dados nos níveis de arquivo e pasta. As listas de controle de acesso podem ajudar sua organização a implementar medidas de segurança rígidas para autenticação e autorização de produtos de dados para:

Armazene dados de forma segura através de encriptação em repouso.
Controles de acesso para usuários e grupos de segurança do Microsoft Entra por meio da integração com o Microsoft Entra.

Planejamento do data lake

Ao planejar um data lake, considere sempre a consideração apropriada à estrutura, governança e segurança. Vários fatores influenciam a estrutura e a organização de cada data lake:

O tipo de dados armazenados
Como seus dados são transformados
Quem acede aos seus dados
Quais são os seus padrões de acesso típicos

Agrupar consumidores e produtores com base nas suas necessidades de acesso aos dados. É uma boa ideia planejar a implementação e a governança de controle de acesso em todo o seu data lake.

Se o seu data lake contiver alguns ativos de dados e processos automatizados, como descarregamento de extração, transformação, carga (ETL), é provável que seu planejamento seja bastante fácil. Se o seu data lake contém centenas de ativos de dados e envolve interação automatizada e manual, espere passar mais tempo planejando, pois você precisa de muito mais colaboração dos proprietários de dados.

Analogia do pântano de dados

Um pântano de dados é um data lake não gerenciado que é quase inacessível aos usuários. Os pântanos de dados ocorrem quando você não implementa medidas de qualidade e governança de dados. Às vezes, você pode ver um pântano de dados em um data warehouse com modelos híbridos existentes.

Governança e organização adequadas evitam pântanos de dados. Quando você cria uma base sólida para seu data lake, aumenta sua chance de sucesso sustentado do data lake e do valor comercial.

À medida que o tamanho, a complexidade, o número de ativos de dados e o número de usuários ou departamentos do seu data lake crescem, é cada vez mais crítico ter um sistema de catálogo de dados robusto. Seu sistema de catálogo de dados garante que os usuários possam localizar, marcar e classificar dados enquanto processam, consomem e controlam seu data lake.

Para obter mais informações, consulte Visão geral de governança de dados.

Contas de armazenamento em um data lake lógico

Considere se sua organização precisa de uma ou várias contas de armazenamento e considere quais sistemas de arquivos são necessários para criar seu data lake lógico. A tecnologia de armazenamento único fornece vários métodos de acesso a dados e ajuda a padronizar em toda a organização.

O Data Lake Storage Gen2 é uma plataforma como serviço (PaaS) totalmente gerenciada. Várias contas de armazenamento ou sistemas de arquivos não podem incorrer em um custo monetário até que os dados sejam acessados ou armazenados. Cada recurso do Azure tem sobrecarga administrativa e operacional durante o provisionamento, a segurança e a governança, incluindo backups e recuperação de desastres.

Nota

Três lagos de dados são ilustrados em cada zona de pouso de dados. No entanto, dependendo de suas necessidades, você poderá consolidar as camadas brutas, enriquecidas e selecionadas em uma conta de armazenamento. Você pode criar outra conta de armazenamento chamada "desenvolvimento", onde os consumidores de dados podem trazer outros produtos de dados úteis.

Considere os seguintes fatores ao decidir entre uma abordagem consolidada ou de três contas de armazenamento:

Isolamento de ambientes de dados e previsibilidade
- Você pode isolar atividades executadas nas zonas bruta e de desenvolvimento para evitar o efeito potencial na zona selecionada, que contém dados com grande valor comercial necessários para a tomada de decisões críticas
Recursos e funcionalidades no nível da conta de armazenamento
- Você pode escolher se as opções de gerenciamento do ciclo de vida ou as regras de firewall devem ser aplicadas na zona de aterrissagem de dados ou no nível do data lake.
- Crie várias contas de armazenamento, mas não silos indesejados.
- Evite projetos de dados duplicados devido à falta de visibilidade ou compartilhamento de conhecimento em toda a organização.
- Certifique-se de ter uma boa governança de dados, ferramentas de acompanhamento de projetos e um catálogo de dados instalado.
Interação de ferramentas e tecnologias de processamento de dados com dados em vários lagos com base nas permissões configuradas
Lagos regionais versus globais
- Consumidores ou processos distribuídos globalmente no lago são sensíveis à latência causada por distâncias geográficas.
- Armazenar dados localmente é uma boa prática.
- Restrições regulatórias e soberania de dados podem exigir que os dados permaneçam em uma região específica.
- Para obter mais informações, consulte Implantações em várias regiões.

Implementações em múltiplas regiões

Quando ditado por regras de residência de dados ou por um requisito de manter os dados próximos a uma base de usuários, talvez seja necessário criar contas do Azure Data Lake em várias regiões do Azure. Você precisa criar uma zona de aterrissagem de dados em uma região e, em seguida, replicar dados globais usando AzCopy, Azure Data Factory ou produtos de parceiros. Os dados locais vivem na região, enquanto os dados globais são replicados em várias regiões.

Próximos passos

Zonas e contentores Data Lake

Partilhar via