Confiabilidade do data lakehouse
Os princípios de arquitetura do pilar de confiabilidade abordam a capacidade de um sistema se recuperar de falhas e continuar a funcionar.
Princípios de confiabilidade
Design para falhas
Em um ambiente altamente distribuído, indisponibilidades podem ocorrer. Tanto para a plataforma quanto para as diversas cargas de trabalho — como trabalhos de streaming, trabalhos em lote, treinamento de modelos e consultas de BI — as falhas precisam ser previstas e soluções resilientes precisam ser desenvolvidas para aumentar a confiabilidade. O foco é projetar os aplicativos de forma a se recuperarem rapidamente e, na melhor das hipóteses, automaticamente.
Gerenciar a qualidade dos dados
A qualidade dos dados é fundamental para derivar insights precisos e significativos dos dados. A qualidade dos dados tem muitas dimensões, incluindo completude, precisão, validade e consistência. Deve ser gerenciada ativamente para aprimorar a qualidade dos conjuntos de dados finais, de forma que os dados sejam úteis como informações seguras e confiáveis para usuários corporativos.
Projetar para dimensionamento automático
Processos de ETL padrão, relatórios de negócios e painéis de controle costumam ter requisitos de recursos previsíveis em termos de memória e computação. No entanto, novos projetos, tarefas sazonais ou abordagens avançadas, como treinamento de modelos (para rotatividade, previsões e manutenção), criam picos nos requisitos de recursos. Para poder lidar com todas essas cargas de trabalho, uma organização precisa de uma plataforma dimensionável de computação e armazenamento. O acréscimo de novos recursos na medida do necessário precisa ser fácil, e somente o consumo real deve ser cobrado. Depois que o pico terminar, os recursos poderão ser liberados e os custos reduzidos de acordo. Isso costuma ser conhecido como dimensionamento horizontal (número de nós) e dimensionamento vertical (tamanho dos nós).
Testar procedimentos de recuperação
Uma estratégia de recuperação de desastres abrangendo toda a empresa para a maioria dos aplicativos e sistemas requer uma avaliação de prioridades, capacidade, limitações e custos. Uma abordagem de recuperação de desastre confiável testa como as cargas de trabalho falham e valida os procedimentos de recuperação regularmente. A automação pode ser usada para simular falhas diferentes ou recriar cenários que causaram falhas no passado.
Automatizar implantações e cargas de trabalho
A automação de implantações e cargas de trabalho para o lakehouse ajuda a padronizar esses processos, eliminar erros humanos, melhorar a produtividade e proporcionar maior repetibilidade. Isso inclui o uso de "configuração como código" para evitar descompassos de configuração e "infraestrutura como código” para automatizar o provisionamento de todos os serviços necessários de lakehouse e nuvem.
Monitorar sistemas e cargas de trabalho
As cargas de trabalho no lakehouse normalmente integram serviços da plataforma Databricks e os serviços de nuvem externos, por exemplo, como fontes de ou destinos de dados. A execução bem-sucedida só pode ocorrer se cada serviço na cadeia de execução estiver funcionando corretamente. Quando esse não é o caso, o monitoramento, os alertas e o registro em log são importantes para detectar e rastrear problemas e entender o comportamento do sistema.
A seguir: Boas práticas de confiabilidade
Confira Boas práticas de confiabilidade.