Compartir vía


Excelencia operativa para el lago de datos

Los principios arquitectónicos del pilar de excelencia operativa cubren todos los procesos operativos que mantienen el almacén de lago en funcionamiento. La excelencia operativa aborda la capacidad de operar el lakehouse de forma eficaz y discute cómo operarlo, administrarlo y supervisarlo para proporcionar valor empresarial.

Diagrama de arquitectura del lago de datos de excelencia operativa para Databricks.

Principios de excelencia operativa

  1. Optimizar procesos de compilación y versión

    Usa procedimientos recomendados de ingeniería de software en todo el entorno del almacén de lago. Compila y crea versiones mediante canalizaciones de integración continua y entrega continua (CI/CD) para DevOps y MLOps.

  2. Automatización de implementaciones y cargas de trabajo

    La automatización de implementaciones y cargas de trabajo para lakehouse ayuda a estandarizar estos procesos, eliminar errores humanos, mejorar la productividad y proporcionar mayor repetibilidad. Esto incluye el uso de "configuración como código" para evitar el desfase de configuración y "infraestructura como código" para automatizar el aprovisionamiento de todos los servicios de lakehouse y en la nube necesarios.

    En el caso de ML específicamente, los procesos deben impulsar la automatización: no todos los pasos de un proceso pueden o deben automatizarse. Las personas todavía determinan las preguntas empresariales y algunos modelos siempre necesitarán supervisión humana antes de la implementación. Por lo tanto, el proceso de desarrollo es principal y cada módulo del proceso debe automatizarse según sea necesario. Esto permite el desarrollo incremental de la automatización y la personalización.

  3. Configuración de la supervisión, las alertas y el registro

    Las cargas de trabajo del almacén de lago normalmente integran servicios de la plataforma Databricks y servicios en la nube externos, por ejemplo, orígenes o destinos de datos. La ejecución correcta solo puede producirse si cada servicio de la cadena de ejecución funciona correctamente. Cuando este no es el caso, la supervisión, las alertas y el registro son importantes para detectar y realizar un seguimiento de los problemas y comprender el comportamiento del sistema.

  4. Administrar capacidad y cuotas

    Para cualquier servicio que se inicie en una nube, tenga en cuenta los límites, por ejemplo, los límites de velocidad de acceso, el número de instancias, el número de usuarios y los requisitos de memoria. Antes de diseñar una solución, deben entenderse estos límites.

Siguiente: Procedimientos recomendados para la excelencia operativa

Consulte Procedimientos recomendados para la excelencia operativa.