Compartir vía


Hoja de referencia rápida de programación de trabajos de producción

Este artículo tiene como objetivo proporcionar instrucciones claras y fundamentadas para la programación de trabajos de producción. El uso de procedimientos recomendados puede ayudar a reducir los costos, mejorar el rendimiento y reforzar la seguridad.

Práctica recomendada Impacto Docs
Uso de clústeres de trabajos para flujos de trabajo automatizados Costo: los clústeres de trabajos se facturan a tarifas más bajas que los clústeres interactivos. - Crear un clúster
- Clústeres de trabajos y de uso completo.
Reinicio de clústeres de ejecución prolongada Seguridad: reinicie los clústeres para aprovechar las revisiones y correcciones de errores en Databricks Runtime. - Reinicie un clúster para actualizarlo con las imágenes más recientes
Uso de entidades de servicio en lugar de cuentas de usuario para ejecutar trabajos de producción Seguridad: si los trabajos son propiedad de usuarios individuales, cuando esos usuarios abandonan la organización, estos trabajos pueden dejar de ejecutarse. - Administración de entidades de servicio
Uso de trabajos de Databricks para la orquestación siempre que sea posible Costo: no es necesario usar herramientas externas para orquestar si solo está orquestando cargas de trabajo en Azure Databricks. - Programación y orquestación de flujos de trabajo
Uso de la versión más reciente de LTS de Databricks Runtime Rendimiento y costo: Azure Databricks siempre mejora Databricks Runtime para la facilidad de uso, el rendimiento y la seguridad. - Proceso
- Databricks admiten ciclos de vida
No almacenar datos de producción en la raíz de DBFS Seguridad: cuando los datos se almacenan en la raíz de DBFS, todos los usuarios pueden acceder a ellos. - ¿Qué es DBFS?
- Recomendaciones para trabajar con raíces de DBFS