Hoja de referencia rápida de programación de trabajos de producción
Este artículo tiene como objetivo proporcionar instrucciones claras y fundamentadas para la programación de trabajos de producción. El uso de procedimientos recomendados puede ayudar a reducir los costos, mejorar el rendimiento y reforzar la seguridad.
Práctica recomendada | Impacto | Docs |
---|---|---|
Uso de clústeres de trabajos para flujos de trabajo automatizados | Costo: los clústeres de trabajos se facturan a tarifas más bajas que los clústeres interactivos. | - Crear un clúster - Clústeres de trabajos y de uso completo. |
Reinicio de clústeres de ejecución prolongada | Seguridad: reinicie los clústeres para aprovechar las revisiones y correcciones de errores en Databricks Runtime. | - Reinicie un clúster para actualizarlo con las imágenes más recientes |
Uso de entidades de servicio en lugar de cuentas de usuario para ejecutar trabajos de producción | Seguridad: si los trabajos son propiedad de usuarios individuales, cuando esos usuarios abandonan la organización, estos trabajos pueden dejar de ejecutarse. | - Administración de entidades de servicio |
Uso de trabajos de Databricks para la orquestación siempre que sea posible | Costo: no es necesario usar herramientas externas para orquestar si solo está orquestando cargas de trabajo en Azure Databricks. | - Programación y orquestación de flujos de trabajo |
Uso de la versión más reciente de LTS de Databricks Runtime | Rendimiento y costo: Azure Databricks siempre mejora Databricks Runtime para la facilidad de uso, el rendimiento y la seguridad. | - Proceso - Databricks admiten ciclos de vida |
No almacenar datos de producción en la raíz de DBFS | Seguridad: cuando los datos se almacenan en la raíz de DBFS, todos los usuarios pueden acceder a ellos. | - ¿Qué es DBFS? - Recomendaciones para trabajar con raíces de DBFS |