Arquitetura Data lakehouse: estrutura bem arquitetada Databricks
Esta edição set de artigos sobre a arquitetura data lakehouse fornece princípios e práticas recomendadas para a implementação e operação de uma lakehouse com o Azure Databricks.
Databricks estrutura bem arquitetada para a casa do lago
O lakehouse bem arquitetado é composto por 7 pilares que descrevem diferentes áreas de preocupação para a implementação de um data lakehouse na nuvem:
Governança de dados e IA
A supervisão para garantir que os dados e a IA agreguem valor e apoiem sua estratégia de negócios.
Interoperabilidade e usabilidade
A capacidade da casa do lago para interagir com os usuários e outros sistemas.
Excelência operacional
Todos os processos operacionais que mantêm a casa do lago funcionando em produção.
Segurança, privacidade e conformidade
Proteja o aplicativo Azure Databricks, as cargas de trabalho e os dados do cliente contra ameaças.
Fiabilidade
A capacidade de um sistema em recuperar de falhas e continuar a funcionar.
Eficiência do desempenho
A capacidade que um sistema tem de se adaptar às alterações na carga.
Otimização de custos
Gerir os custos para maximizar o valor.
O
Para esses cinco pilares, os princípios e as melhores práticas da estrutura de nuvem ainda se aplicam ao lakehouse. A bem arquitetada casa de dados amplia estes princípios e melhores práticas, que são específicas para a casa de dados e importantes para construir uma casa de dados eficaz e eficiente.
Os pilares específicos do lakehouse
Os pilares "Data and AI Governance" e "Interoperability and Usability" abrangem preocupações específicas do Lakehouse.
A governança de dados e IA encapsula as políticas e práticas implementadas para gerenciar com segurança os dados e ativos de IA dentro de uma organização. Um dos aspetos fundamentais de um lakehouse é a centralização de dados e a governança de IA: o lakehouse unifica o armazenamento de dados e os casos de uso de IA em uma única plataforma. Isso simplifica a pilha de dados moderna, eliminando os silos de dados que tradicionalmente separam e complicam a engenharia de dados, análises, BI, ciência de dados e aprendizado de máquina. Para simplificar essas tarefas de governança, o lakehouse oferece uma solução de governança unificada para dados, análises e IA. Ao minimizar as cópias de seus dados e passar para uma única camada de processamento de dados where todos os seus dados e controles de governança de IA podem ser executados juntos, você aumenta suas chances de permanecer em conformidade e detetar uma violação de dados.
Outro princípio importante do lakehouse é proporcionar uma ótima experiência de usuário para todas as personas que trabalham com ele, e ser capaz de interagir com um amplo ecossistema de sistemas externos. O Azure já tem uma variedade de ferramentas de dados que executam a maioria das tarefas que uma empresa orientada por dados pode precisar. No entanto, essas ferramentas devem ser montadas corretamente para fornecer todas as funcionalidades, com cada serviço oferecendo uma experiência de usuário diferente. Essa abordagem pode levar a altos custos de implementação e normalmente não fornece a mesma experiência do usuário que uma plataforma nativa lakehouse: os usuários são limitados por inconsistências entre as ferramentas e pela falta de recursos de colaboração, e muitas vezes precisam passar por processos complexos para obter acesso ao sistema e, portanto, aos dados.
Um lakehouse integrado do outro lado fornece uma experiência de usuário consistente em todas as cargas de trabalho e, portanto, aumenta a usabilidade. Isso reduz os custos de treinamento e integração e melhora a colaboração entre as funções. Além disso, novos recursos são adicionados automaticamente ao longo do tempo - para melhorar ainda mais a experiência do usuário - sem a necessidade de investir recursos internos e orçamentos.
Uma abordagem multinuvem pode ser uma estratégia deliberada de uma empresa ou o resultado de fusões e aquisições, ou de unidades de negócios independentes selecionando nuvens diferentes providers. Nesse caso, o uso de um lakehouse multinuvem resulta em uma experiência de usuário unificada em todas as nuvens. Isso reduz a proliferação de sistemas em toda a empresa, o que, por sua vez, reduz os requisitos de habilidade e treinamento dos funcionários envolvidos em tarefas orientadas por dados.
Finalmente, em um mundo em rede com processos de negócios entre empresas, os sistemas devem trabalhar juntos da forma mais perfeita possível. O grau de interoperabilidade é um critério crucial aqui, e os dados mais recentes, como um ativo central de qualquer negócio, devem fluir com segurança entre os sistemas dos parceiros internos e externos.