Compartilhar via


Confiabilidade do data lakehouse

Os princípios de arquitetura do pilar de confiabilidade abordam a capacidade de um sistema se recuperar de falhas e continuar a funcionar.

Diagrama da arquitetura do lakehouse de confiabilidade para Databricks.

Princípios de confiabilidade

  1. Design para falhas

    Em um ambiente altamente distribuído, indisponibilidades podem ocorrer. Tanto para a plataforma quanto para as diversas cargas de trabalho — como trabalhos de streaming, trabalhos em lote, treinamento de modelos e consultas de BI — as falhas precisam ser previstas e soluções resilientes precisam ser desenvolvidas para aumentar a confiabilidade. O foco é projetar os aplicativos de forma a se recuperarem rapidamente e, na melhor das hipóteses, automaticamente.

  2. Gerenciar a qualidade dos dados

    A qualidade dos dados é fundamental para derivar insights precisos e significativos dos dados. A qualidade dos dados tem muitas dimensões, incluindo completude, precisão, validade e consistência. Deve ser gerenciada ativamente para aprimorar a qualidade dos conjuntos de dados finais, de forma que os dados sejam úteis como informações seguras e confiáveis para usuários corporativos.

  3. Projetar para dimensionamento automático

    Processos de ETL padrão, relatórios de negócios e painéis de controle costumam ter requisitos de recursos previsíveis em termos de memória e computação. No entanto, novos projetos, tarefas sazonais ou abordagens avançadas, como treinamento de modelos (para rotatividade, previsões e manutenção), criam picos nos requisitos de recursos. Para poder lidar com todas essas cargas de trabalho, uma organização precisa de uma plataforma dimensionável de computação e armazenamento. O acréscimo de novos recursos na medida do necessário precisa ser fácil, e somente o consumo real deve ser cobrado. Depois que o pico terminar, os recursos poderão ser liberados e os custos reduzidos de acordo. Isso costuma ser conhecido como dimensionamento horizontal (número de nós) e dimensionamento vertical (tamanho dos nós).

  4. Testar procedimentos de recuperação

    Uma estratégia de recuperação de desastres abrangendo toda a empresa para a maioria dos aplicativos e sistemas requer uma avaliação de prioridades, capacidade, limitações e custos. Uma abordagem de recuperação de desastre confiável testa como as cargas de trabalho falham e valida os procedimentos de recuperação regularmente. A automação pode ser usada para simular falhas diferentes ou recriar cenários que causaram falhas no passado.

  5. Automatizar implantações e cargas de trabalho

    A automação de implantações e cargas de trabalho para o lakehouse ajuda a padronizar esses processos, eliminar erros humanos, melhorar a produtividade e proporcionar maior repetibilidade. Isso inclui o uso de "configuração como código" para evitar descompassos de configuração e "infraestrutura como código” para automatizar o provisionamento de todos os serviços necessários de lakehouse e nuvem.

  6. Monitorar sistemas e cargas de trabalho

    As cargas de trabalho no lakehouse normalmente integram serviços da plataforma Databricks e os serviços de nuvem externos, por exemplo, como fontes de ou destinos de dados. A execução bem-sucedida só pode ocorrer se cada serviço na cadeia de execução estiver funcionando corretamente. Quando esse não é o caso, o monitoramento, os alertas e o registro em log são importantes para detectar e rastrear problemas e entender o comportamento do sistema.

A seguir: Boas práticas de confiabilidade

Confira Boas práticas de confiabilidade.