Implementación del procesamiento y el análisis de datos con Trabajos
Puede usar un trabajo de Azure Databricks para organizar las canalizaciones de procesamiento de datos, aprendizaje automático o análisis de datos en la plataforma de Databricks. Trabajos de Azure Databricks admite varios tipos de carga de trabajo, incluidos cuadernos, scripts, canalizaciones de Delta Live Tables, consultas de Databricks SQL y proyectos de dbt. Los siguientes artículos le guían en el uso de las características y opciones de trabajos de Azure Databricks para implementar las canalizaciones de datos.
Sugerencia
Puede usar Conjuntos de recursos de Databricks para definir y administrar los trabajos mediante programación. Consulte ¿Qué son los conjuntos de recursos de Databricks? y Desarrollo de un trabajo en Azure Databricks mediante conjuntos de recursos de Databricks.
Usar transformaciones de dbt en un trabajo
Use el tipo de tarea dbt
si va a realizar la transformación de datos con un proyecto principal de dbt y quiere integrar ese proyecto en un trabajo de Azure Databricks o si desea crear nuevas transformaciones de dbt y ejecutar esas transformaciones en un trabajo. Consulte Uso de transformaciones de dbt en un trabajo de Azure Databricks.
Usar un paquete de Python en un trabajo
Los archivos wheel de Python son una manera estándar de empaquetar y distribuir los archivos necesarios para ejecutar una aplicación de Python. Puede crear fácilmente un trabajo que use código de Python empaquetado como un archivo wheel de Python con el tipo de tarea Python wheel
. Consulte Uso de un archivo wheel de Python en trabajos de Azure Databricks.
Uso del código empaquetado en un archivo JAR
Las bibliotecas y aplicaciones implementadas en un lenguaje JVM, como Java y Scala, se empaquetan normalmente en un archivo de archivo java (JAR). Trabajos de Azure Databricks admite el código empaquetado en un archivo JAR con el tipo de tarea JAR
. Consulte Uso de un archivo JAR en un trabajo de Azure Databricks.
Orqueste sus trabajos con Apache Airflow
Databricks recomienda usar Trabajos de Azure Databricks para orquestar los flujos de trabajo. Sin embargo, Apache Airflow se usa normalmente como sistema de orquestación de flujo de trabajo y proporciona compatibilidad nativa con Trabajos de Azure Databricks. Aunque Trabajos de Azure Databricks proporciona una interfaz de usuario visual para crear los flujos de trabajo, Airflow usa archivos de Python para definir e implementar las canalizaciones de datos. Para obtener un ejemplo de creación y ejecución de un trabajo con Airflow, consulte Orquestación de trabajos de Azure Databricks con Apache Airflow.
Ejecute un trabajo mediante una entidad de servicio
Puede ejecutar los trabajos como una cuenta de servicio mediante una aplicación de Microsoft Entra ID y una entidad de servicio. La ejecución de un trabajo como cuenta de servicio en lugar de un usuario individual le permite controlar el acceso al trabajo, asegurarse de que el trabajo tenga los permisos necesarios y evitar problemas si se quita un propietario de un trabajo de un área de trabajo. Para ver un tutorial sobre cómo crear y usar entidades de servicio para ejecutar trabajos de Azure Databricks, consulte Ejecución de trabajos con entidades de servicio de Microsoft Entra ID.