Excelência operacional para o data lakehouse
Os princípios arquitetônicos do pilar de excelência operacional abrangem todos os processos operacionais que mantêm a lakehouse em funcionamento. A excelência operacional aborda a capacidade de operar a lakehouse com eficiência e discute como operar, gerenciar e monitorar a lakehouse para fornecer valor de negócios.
Princípios de excelência operacional
Otimizar processos de build e liberação
Use as melhores práticas de engenharia de software em todo o seu ambiente lakehouse. Compilar e lançar usando pipelines de integração contínua e entrega contínua para DevOps e MLOps.
Automatizar implantações e cargas de trabalho
Automatizar implantações e cargas de trabalho para o lakehouse ajuda a padronizar esses processos, eliminar erros humanos, melhorar a produtividade e fornecer maior repetibilidade. Isso inclui o uso de "configuração como código" para evitar descompassos de configuração e de "infraestrutura como código” para automatizar o provisionamento de todos os serviços de nuvem e lakehouse necessários.
Para o ML especificamente, os processos devem impulsionar a automação: nem todas as etapas de um processo podem ou devem ser automatizadas. As pessoas ainda determinam as questões de negócios, e alguns modelos sempre precisarão de supervisão humana antes da implantação. Portanto, o processo de desenvolvimento é primário e cada módulo no processo deve ser automatizado conforme necessário. Isso permite a criação incremental de automação e personalização.
Configurar monitoramento, alertas e registro em log
As cargas de trabalho no lakehouse normalmente integram serviços de plataforma do Databricks e serviços de nuvem externos, como, por exemplo, fontes ou destinos de dados. A execução bem-sucedida só poderá ocorrer se cada serviço na cadeia de execução estiver funcionando corretamente. Quando esse não é o caso, o monitoramento, os alertas e o registro em log são importantes para detectar e rastrear problemas e entender o comportamento do sistema.
Gerenciar capacidade e cotas
Para qualquer serviço iniciado em uma nuvem, leve em conta os limites, por exemplo, limites de taxa de acesso, número de instâncias, número de usuários e requisitos de memória. Antes de criar uma solução, esses limites devem ser compreendidos.