Hoja de referencia rápida de creación de proceso
Este artículo tiene como objetivo proporcionar instrucciones claras y fundamentadas para la programación de trabajos de producción. Mediante el uso de los tipos de proceso adecuados para el flujo de trabajo, puede mejorar el rendimiento y ahorrar costos.
Práctica recomendada | Impacto | Docs |
---|---|---|
Si no está familiarizado con Azure Databricks, empiece por usar tipos de instancia de uso general de uso completo | Al seleccionar el tipo de instancia adecuado para la carga de trabajo, se obtiene una mayor eficacia. | - Crear un clúster |
Usar el modo de acceso compartido a menos que no se admita la funcionalidad necesaria | El proceso con modo de acceso compartido puede ser utilizado por varios usuarios con aislamiento de datos entre los usuarios. | - Modos de acceso |
Use los tipos de instancia de última generación si hay suficiente disponibilidad | La última generación de tipos de instancia proporciona el mejor rendimiento y las características más recientes. | - Tipos de instancia de Azure |
Establezca el equilibrio de instancias puntuales y a petición en función de la rapidez con la que necesita que se ejecute la carga de trabajo | Las instancias de spot ahorran costos, pero pueden afectar al tiempo de ejecución general de una operación si se reclaman las instancias de spot. | - Recomendaciones de configuración de proceso |
Elija el tamaño de los nodos y el número de trabajos en función de los tipos de operaciones que realiza la carga de trabajo | Por ejemplo, si espera una gran cantidad de orden aleatorios, puede ser más eficaz usar un nodo único grande en lugar de varios nodos más pequeños. | - Consideraciones de tamaño de proceso |
Ejecute el vacío en un clúster con el escalado automático establecido para 1-4 trabajos, donde cada trabajador tiene 8 núcleos. Seleccione un controlador con entre 8 y 32 núcleos. Aumente el tamaño del controlador si obtiene errores de memoria insuficiente (OOM). |
Las instrucciones de vacío se producen en dos fases, la segunda de las cuales es driver-heavy. Si no usa el clúster de tamaño correcto, la operación podría provocar una ralentización y podría no realizarse correctamente. | - ¿Qué tamaño necesita el clúster vacío? - procedimientos recomendados de VACUUM |
Evaluar si el flujo de trabajo por lotes se beneficiaría de Photon | Photon proporciona consultas más rápidas y reduce el costo total por carga de trabajo. | - Ventajas de Photon |