Compartilhar via


Arquitetura do Data Lakehouse: estrutura bem arquitetada do Databricks

Esse conjunto de artigos de arquitetura do data lakehouse fornece princípios e práticas recomendadas para a implementação e a operação de um lakehouse usando o Azure Databricks.

Estrutura bem arquitetada do Databricks para a lakehouse

Well-Architected Framework: diagrama do data lakehouse.

O well-architected lakehouse consiste em 7 pilares que descrevem diferentes áreas de preocupação para a implementação de um data lakehouse na nuvem:

  • Governança de dados

    A supervisão para garantir que os dados tragam valor e dão suporte à sua estratégia de negócios.

  • Interoperabilidade e usabilidade

    A capacidade da lakehouse de interagir com usuários e outros sistemas.

  • Excelência operacional

    Todos os processos de operações que mantêm a lakehouse em execução em produção.

  • Segurança, privacidade e conformidade

    Proteja o aplicativo do Azure Databricks, as cargas de trabalho do cliente e os dados do cliente contra ameaças.

  • Confiabilidade

    A capacidade de um sistema de se recuperar de falhas e continuar funcionando.

  • Eficiência do desempenho

    A capacidade de um sistema adaptar-se às alterações na carga.

  • Otimização de custo

    Gerenciamento de custos para maximizar o valor entregue.

O Well-Architected Lakehouse estende o Well-Architected Framework do Microsoft Azure para a plataforma Databricks Data Intelligence e compartilha os pilares “Excelência operacional”, “Segurança” (ou seja, “Segurança, privacidade e conformidade”), “Confiabilidade”, “Eficiência de desempenho” e “Otimização de custos”.

Para esses cinco pilares, os princípios e as práticas recomendadas da estrutura de nuvem ainda se aplicam ao lakehouse. O well-architected lakehouse estende-os com princípios e práticas recomendadas que são específicos ao lakehouse e importantes para construir um lakehouse eficaz e eficiente.

Governança, Interoperabilidade e Usabilidade de Dados em arquiteturas de lakehouse

Os pilares "Governança de dados" e "Interoperabilidade e usabilidade" abrangem preocupações específicas em relação ao lakehouse.

A administração de dados abrange as políticas e práticas implementadas para gerenciar com segurança os ativos de dados em uma organização. Um dos aspectos fundamentais de uma lakehouse é a governança de dados centralizada: a lakehouse unifica o data warehousing e a IA usa casos em uma única plataforma. Isso simplifica a pilha de dados moderna eliminando os silos de dados que tradicionalmente separam e complicam a engenharia de dados, análise, BI, ciência de dados e machine learning. Para simplificar a governança de dados, o lakehouse oferece uma solução de governança unificada para dados, análise e IA. Minimizando as cópias de seus dados e migrando para uma única camada de processamento de dados em que todos os controles de governança de dados podem ser executados juntos, você melhora suas chances de permanecer em conformidade e detectar uma violação de dados.

Outro princípio importante da lakehouse é proporcionar uma ótima experiência do usuário para todas as personas que trabalham com ela e poder interagir com um amplo ecossistema de sistemas externos. O Azure já tem uma variedade de ferramentas de dados que executam a maioria das tarefas que uma empresa controlada por dados pode precisar. No entanto, essas ferramentas devem ser montadas corretamente para fornecer toda a funcionalidade, com cada serviço oferecendo uma experiência de usuário diferente. Essa abordagem pode levar a altos custos de implementação e normalmente não fornece a mesma experiência do usuário que uma plataforma nativa do lakehouse: os usuários são limitados por inconsistências entre ferramentas e falta de recursos de colaboração, e geralmente precisam passar por processos complexos para obter acesso ao sistema e, portanto, aos dados.

Um lakehouse integrado do outro lado fornece uma experiência de usuário consistente em todas as cargas de trabalho e, portanto, aumenta a usabilidade. Isso reduz os custos de treinamento e integração e melhora a colaboração entre funções. Além disso, novos recursos são adicionados automaticamente ao longo do tempo - para melhorar ainda mais a experiência do usuário - sem a necessidade de investir recursos e orçamentos internos.

Uma abordagem multinuvem pode ser uma estratégia deliberada de uma empresa ou o resultado de fusões e aquisições ou de unidades de negócios independentes por meio da seleção de diferentes provedores de nuvem. Nesse caso, usar um lakehouse multinuvem resulta em uma experiência de usuário unificada em todas as nuvens. Isso reduz a proliferação de sistemas em toda a empresa, o que, por sua vez, reduz os requisitos de habilidade e treinamento dos funcionários envolvidos em tarefas controladas por dados.

Por fim, em um mundo em rede com processos de negócios entre empresas, os sistemas devem trabalhar juntos o mais perfeitamente possível. O grau de interoperabilidade é um critério crucial aqui, e os dados mais recentes, como um ativo principal de qualquer empresa, devem fluir com segurança entre sistemas de parceiros internos e externos.

Princípios e práticas recomendadas