Configuración y edición de trabajos de Databricks
Puede crear y ejecutar un trabajo mediante la interfaz de usuario de trabajos o las herramientas de desarrollo, como la CLI de Databricks o la API REST. Con la interfaz de usuario o la API, puede reparar y volver a ejecutar un trabajo con errores o cancelados. En este artículo se muestra cómo crear, configurar y editar trabajos mediante la interfaz de usuario de Flujos de trabajo del área de trabajo. Para obtener información sobre otras herramientas, consulte lo siguiente:
- Para obtener información sobre cómo usar la CLI de Databricks para crear y ejecutar trabajos, consulte ¿Qué es la CLI de Databricks?.
- Para obtener información sobre el uso de la API de trabajos para crear y ejecutar trabajos, consulte Trabajos en la referencia de la API de REST.
- Si prefiere un enfoque de infraestructura como código (IaC) para configurar trabajos, puede usar Databricks Asset Bundles (DAB). Para obtener información sobre el uso de DAB para configurar y orquestar los trabajos, consulte Conjuntos de recursos de Databricks.
- Para obtener información sobre cómo ejecutar y programar trabajos directamente en un cuaderno de Databricks, consulte Creación y administración de trabajos de cuadernos programados.
Sugerencia
Para ver un trabajo como YAML, haga clic en el menú kebab situado a la izquierda de Ejecutar ahora para el trabajo y, a continuación, haga clic en Cambiar a la versión de código (YAML).
¿Cuál es la configuración mínima necesaria para un trabajo?
Todos los trabajos de Azure Databricks requieren lo siguiente:
- Tarea que contiene lógica que se va a ejecutar, como un cuaderno de Databricks. Consulte Configuración y edición de tareas de Databricks
- Un recurso de proceso para ejecutar la lógica. El recurso de proceso puede ser un proceso sin servidor, un proceso de trabajos clásico o un proceso multiuso. Consulte Configuración del proceso para trabajos.
- Una programación especificada para cuándo se debe ejecutar el trabajo. De manera opcional, puede omitir la configuración de una programación y desencadenar el trabajo manualmente.
- Un nombre único.
Crear un nuevo proyecto
En esta sección se describen los pasos para crear un nuevo trabajo con una tarea de cuaderno y una agenda con la interfaz de usuario del área de trabajo.
Un trabajo contiene una o varias tareas. Para crear un nuevo trabajo, configure la primera tarea para ese trabajo.
Nota:
Cada tipo de tarea tiene opciones de configuración dinámica en la interfaz de usuario del área de trabajo. Consulte Configuración y edición de tareas de Databricks.
- Haga clic en
Flujos de trabajo en la barra lateral y, después, en
.
- Escriba un Nombre de tarea.
- Seleccione un cuaderno para el campo Ruta de acceso.
- Haga clic en Create task (Crear tarea).
Si el área de trabajo no está habilitada para el proceso sin servidor para los trabajos, debe seleccionar una opción de Proceso. Databricks recomienda usar siempre el proceso de trabajos al configurar tareas.
Aparece un nuevo trabajo en la lista de trabajos del área de trabajo con el nombre predeterminado New Job <date> <time>
.
Puede seguir agregando más tareas dentro del mismo trabajo, si es necesario para el flujo de trabajo.
Programación de un trabajo
Puede decidir cuándo se ejecuta su trabajo. De forma predeterminada, solo se ejecutará cuando se inicie manualmente, pero también se puede configurar para que se ejecute automáticamente. Puede crear un desencadenador para ejecutar una tarea según un horario o basado en un evento.
Control del flujo de tareas dentro del trabajo
Al configurar varias tareas en trabajos, puede usar tareas especializadas para controlar cómo se ejecutan las tareas. Consulte Control del flujo de tareas dentro de un trabajo de Databricks.
Selección de un trabajo para editar en el área de trabajo
Para editar un trabajo existente con la interfaz de usuario del área de trabajo, haga lo siguiente:
- Haga clic en
Flujos de trabajo en la barra lateral.
- En la columna Name (Nombre), haga clic en el nombre de trabajo.
Use la interfaz de usuario de los trabajos para hacer lo siguiente:
- Editar la configuración del trabajo
- Cambiar el nombre, clonar o eliminar un trabajo
- Agregar nuevas tareas a un trabajo existente
- Editar configuraciones de tareas
Nota:
También puede ver las definiciones json para usarlas con los puntos de conexión de la API de REST get, create y reset.
Editar la configuración del trabajo
En el panel lateral contiene los detalles del trabajo. Puede cambiar el desencante del trabajo, la configuración de proceso, las notificaciones, el número máximo de ejecuciones simultáneas, configurar los umbrales de duración y agregar o cambiar etiquetas. También puede editar los permisos de trabajo si el control de acceso al trabajo está habilitado.
Adición de parámetros para todas las tareas de trabajo
Los parámetros configurados a nivel de trabajo se pasan a las tareas del trabajo que aceptan parámetros clave-valor, incluidos los paquetes wheel de Python configurados para aceptar argumentos de palabra clave. Consulte Parameterize jobs (Parametrización de trabajos).
Agregar etiquetas a un trabajo
Para agregar etiquetas o atributos clave:valor al trabajo, puede agregar etiquetas al editar el trabajo. Puede usar las etiquetas para filtrar trabajos en la lista Trabajos. Por ejemplo, puede usar una etiqueta department
para filtrar todos los trabajos que pertenecen a un departamento específico.
Nota:
Dado que las etiquetas de trabajo no están diseñadas para almacenar información confidencial, como información de identificación personal o contraseñas, Databricks recomienda usar etiquetas solo para valores no confidenciales.
Las etiquetas también se propagan a los clústeres de trabajos creados cuando se ejecuta un trabajo, lo que le permite usar etiquetas con la supervisión del clúster existente.
Haga clic en + Etiqueta en el panel lateral Detalles del trabajo para agregar o editar etiquetas. Puede agregar la etiqueta como una etiqueta o un par clave-valor. Para agregar una etiqueta, escriba la etiqueta en el campo Clave y deje el campo Valor vacío.
Añade una política de presupuesto a un proyecto
Importante
Esta característica está en versión preliminar pública.
Si el área de trabajo utiliza directivas de presupuesto para atribuir el uso sin servidor, puede seleccionar la directiva de presupuesto del trabajo mediante el valor Directiva de presupuesto en el panel lateral Detalles del trabajo. Consulta Atributo del uso sin servidor con directivas de presupuesto.
Cambiar el nombre, clonar o eliminar un trabajo
Para cambiar el nombre de un trabajo, vaya a la interfaz de usuario de trabajos y haga clic en el nombre del trabajo.
Puede crear rápidamente un nuevo trabajo clonando uno existente. La clonación de un trabajo crea una copia idéntica del trabajo, excepto el identificador del trabajo. Para clonar un trabajo, haga lo siguiente:
- Vaya a la interfaz de usuario de trabajos del trabajo.
- Haga clic en
al lado del botón Ejecutar ahora.
- Seleccione Clonar trabajo en el menú desplegable.
- Escriba un nombre para el trabajo clonado.
- Haga clic en Clone (Clonar).
Eliminación de un trabajo
Para eliminar un trabajo, en la página del trabajo, haga clic en junto al nombre del trabajo y seleccione Eliminar trabajo en el menú desplegable.
Uso de Git con trabajos
Si el trabajo contiene tareas que admiten el uso de un proveedor de Git remoto, la interfaz de usuario de trabajos contiene un campo Git y la opción para agregar o editar la configuración de Git.
Puede configurar los siguientes tipos de tareas para usar un repositorio Git remoto:
- Cuaderno
- Scripts de Python
- Archivos SQL
- dbt
Todas las tareas de un trabajo deben hacer referencia a la misma confirmación en el repositorio remoto. Debe especificar solo una de las siguientes opciones para un trabajo que use un repositorio remoto:
- branch: el nombre de la rama, por ejemplo,
main
. - tag: el nombre de la etiqueta, por ejemplo,
release-1.0.0
. - commit: hash de una confirmación específica, por ejemplo,
e0056d01
.
Cuando se inicia una ejecución de trabajo, Databricks toma una confirmación de instantánea del repositorio remoto para asegurarse de que todo el trabajo se ejecuta en la misma versión del código.
Al ver el historial de ejecución de una tarea que ejecuta un código almacenado en un repositorio Git remoto, el panel Detalles de ejecución de tareas incluye detalles de Git, incluido el SHA de confirmación asociado a la ejecución. Para obtener más información, consulte Visualización del historial de ejecución de tareas.
Nota:
Las tareas configuradas para usar un repositorio de Git remoto no pueden escribir en archivos del área de trabajo. Estas tareas deben escribir datos temporales en el almacenamiento efímero asociado al nodo de controlador del proceso configurado para ejecutar la tarea y los datos persistentes en un volumen o tabla.
Databricks recomienda hacer referencia a las rutas de acceso del área de trabajo en carpetas de Git solo para iteración rápida y pruebas durante el desarrollo. A medida que mueve los trabajos a ensayo y producción, Databricks recomienda configurar esos trabajos para hacer referencia a un repositorio de Git remoto. Para más información sobre el uso de un repositorio de Git remoto con un trabajo de Databricks, consulte la sección siguiente.
Configurar un proveedor de Git
La interfaz de usuario de trabajos tiene un cuadro de diálogo para configurar un repositorio de Git remoto. Este cuadro de diálogo es accesible desde el panel Detalles del trabajo en el encabezado Git o en cualquier tarea configurada para usar un proveedor de Git.
Las opciones que se muestran para acceder al cuadro de diálogo varían en función del tipo de tarea y de si ya se ha configurado una referencia de Git para el trabajo. Los botones para iniciar el cuadro de diálogo incluyen Agregar configuración de Git, Editar o Agregar una referencia de Git.
En el cuadro de diálogo Información de Git (solo tiene que etiquetar Git si accede al panel Detalles del trabajo), escriba los detalles siguientes:
- La dirección URL del repositorio de Git.
- Seleccione el proveedor de Git en la lista desplegable.
- En el campo de referencia de Git, escriba el identificador de una rama, etiqueta o confirmación que corresponda a la versión del código fuente que desea ejecutar.
- Seleccione branch, tag, o commit del menú desplegable.
Nota:
Es posible que el cuadro de diálogo le pida lo siguiente: Faltan credenciales de Git para esta cuenta. Agregue credenciales. Debe configurar un repositorio Git remoto antes de usarlo como referencia. Consulte Configuración de carpetas de Git (Repos) de Databricks.
Configuración de umbrales para la duración de la ejecución del trabajo o las métricas de trabajos pendientes de streaming
Importante
La observabilidad de streaming para los trabajos de Databricks está en versión preliminar pública.
Puede configurar umbrales opcionales para la duración de la ejecución del trabajo o las métricas de trabajos pendientes de streaming. Para configurar umbrales de métricas de duración o de streaming, haga clic en Umbrales de duración y de trabajos pendientes de streaming en el panel Detalles del trabajo.
Para configurar umbrales de duración del trabajo, incluidos los tiempos de finalización esperados y máximos para el trabajo, seleccione Duración de ejecución en el menú desplegable Métrica. Escriba la duración en el campo Advertencia, para configurar el tiempo de finalización esperado de la tarea. Si el trabajo supera este umbral, se desencadena un evento. Puede usar este evento para notificar cuando un trabajo se ejecuta lentamente. Consulte Configuración de notificaciones para trabajos lentos. Para configurar un tiempo de finalización máximo para un trabajo, escriba la duración máxima en el campo Tiempo de espera. Si el trabajo no se completa en este tiempo, Azure Databricks establece su estado en "Se agotó el tiempo de espera".
Para configurar un umbral para una métrica de retraso de streaming, seleccione la métrica en el menú desplegable Métrica y escriba un valor para el umbral. Para obtener información sobre las métricas específicas admitidas por un origen de streaming, consulte Visualización de métricas para tareas de streaming.
Si se desencadena un evento porque se supera un umbral, puede usar el evento para enviar una notificación. Consulte Configuración de notificaciones para trabajos lentos.
Opcionalmente, puede especificar umbrales de duración para las tareas. Consulte Configuración de umbrales para la duración de la ejecución de tareas o métricas de trabajos pendientes de streaming.