Compartilhar via


Excelência operacional para o data lakehouse

Os princípios arquitetônicos do pilar de excelência operacional abrangem todos os processos operacionais que mantêm a lakehouse em funcionamento. A excelência operacional trata da capacidade de operar a lakehouse de forma eficiente e discute como operar, gerenciar e monitorar a lakehouse para fornecer valor comercial.

Operational excellence lakehouse architecture diagram for Databricks.

Princípios de excelência operacional

  1. Otimizar processos de compilação e versão

    Use as melhores práticas de engenharia de software em todo o seu ambiente de lakehouse. Compilar e lançar usando os pipelines de integração contínua e entrega contínua para DevOps e MLOps.

  2. Automatizar implantações e cargas de trabalho

    A automação de implantações e cargas de trabalho para o lakehouse ajuda a padronizar esses processos, eliminar erros humanos, melhorar a produtividade e proporcionar maior repetibilidade. Isso inclui o uso de "configuração como código" para evitar descompassos de configuração e "infraestrutura como código” para automatizar o provisionamento de todos os serviços necessários de lakehouse e nuvem.

    Especificamente para o ML, os processos devem impulsionar a automação: Nem todas as etapas de um processo podem ou devem ser automatizadas. As pessoas ainda determinam as questões comerciais, e alguns modelos sempre precisarão de supervisão humana antes da implantação. Portanto, o processo de desenvolvimento é primordial e cada módulo do processo deve ser automatizado conforme necessário. Isso permite a compilação incremental da automação e da personalização.

  3. Configurar monitoramento, alerta e registro em log

    As cargas de trabalho no lakehouse normalmente integram serviços da plataforma Databricks e os serviços de nuvem externos, por exemplo, como fontes de ou destinos de dados. A execução bem-sucedida só pode ocorrer se cada serviço na cadeia de execução estiver funcionando corretamente. Quando esse não é o caso, o monitoramento, os alertas e o registro em log são importantes para detectar e rastrear problemas e entender o comportamento do sistema.

  4. Gerenciar capacidade e cotas

    Para qualquer serviço lançado em uma nuvem, leve em consideração os limites, por exemplo, limites de taxa de acesso, número de instâncias, número de usuários e requisitos de memória. Antes de projetar uma solução, esses limites devem ser compreendidos.

A seguir: Melhores práticas para excelência operacional

Confira Melhores práticas para excelência operacional.