Configuración y edición de trabajos de Databricks
Este artículo se centra en las instrucciones para crear, configurar y editar trabajos mediante la interfaz de usuario del área de trabajo de flujos de trabajo. Azure Databricks tiene otros puntos de entrada y herramientas para la configuración, incluidos los siguientes:
- Para obtener información sobre cómo usar la CLI de Databricks para crear y ejecutar trabajos, consulte ¿Qué es la CLI de Databricks?.
- Para obtener información sobre el uso de la API de trabajos para crear y ejecutar trabajos, consulte Trabajos en la referencia de la API de REST.
- Para obtener información sobre cómo ejecutar y programar trabajos directamente en un cuaderno de Databricks, consulte Creación y administración de trabajos de cuadernos programados.
Sugerencia
Para ver un trabajo como YAML, haga clic en el menú kebab situado a la izquierda de Ejecutar ahora para el trabajo y, a continuación, haga clic en Cambiar a la versión de código (YAML).
Crear un nuevo proyecto
En esta sección se describe la configuración mínima necesaria para crear un nuevo trabajo con el fin de programar una tarea de cuaderno con la interfaz de usuario del área de trabajo.
Un trabajo contiene una o varias tareas. Para crear un nuevo trabajo, configure la primera tarea para ese trabajo.
Nota:
Cada tipo de tarea tiene opciones de configuración dinámica en la interfaz de usuario del área de trabajo. Consulte Configuración y edición de tareas de Databricks.
- Haga clic en Flujos de trabajo en la barra lateral y, después, en .
- Escriba un Nombre de tarea.
- Seleccione un cuaderno para el campo Ruta de acceso.
- Haga clic en Create task (Crear tarea).
Si el área de trabajo no está habilitada para el proceso sin servidor para los trabajos, debe seleccionar una opción de Proceso. Databricks recomienda usar siempre el proceso de trabajos al configurar tareas.
Aparece un nuevo trabajo en la lista de trabajos del área de trabajo con el nombre predeterminado New Job <date> <time>
.
Selección de un trabajo para editar en el área de trabajo
Para editar un trabajo existente con la interfaz de usuario del área de trabajo, haga lo siguiente:
- Haga clic en Flujos de trabajo en la barra lateral.
- En la columna Name (Nombre), haga clic en el nombre de trabajo.
Use la interfaz de usuario de los trabajos para hacer lo siguiente:
- Editar la configuración del trabajo
- Cambiar el nombre, clonar o eliminar un trabajo
- Agregar nuevas tareas a un trabajo existente
- Editar configuraciones de tareas
Nota:
También puede ver las definiciones json para usarlas con los puntos de conexión de la API de REST get, create y reset.
Editar la configuración del trabajo
En el panel lateral contiene los detalles del trabajo. Puede cambiar el desencante del trabajo, la configuración de proceso, las notificaciones, el número máximo de ejecuciones simultáneas, configurar los umbrales de duración y agregar o cambiar etiquetas. También puede editar los permisos de trabajo si el control de acceso al trabajo está habilitado.
Adición de parámetros para todas las tareas de trabajo
Los parámetros configurados a nivel de trabajo se pasan a las tareas del trabajo que aceptan parámetros clave-valor, incluidos los paquetes wheel de Python configurados para aceptar argumentos de palabra clave. Consulte Parameterize jobs (Parametrización de trabajos).
Agregar etiquetas a un trabajo
Para agregar etiquetas o atributos clave:valor al trabajo, puede agregar etiquetas al editar el trabajo. Puede usar las etiquetas para filtrar trabajos en la lista Trabajos. Por ejemplo, puede usar una etiqueta department
para filtrar todos los trabajos que pertenecen a un departamento específico.
Nota:
Dado que las etiquetas de trabajo no están diseñadas para almacenar información confidencial, como información de identificación personal o contraseñas, Databricks recomienda usar etiquetas solo para valores no confidenciales.
Las etiquetas también se propagan a los clústeres de trabajos creados cuando se ejecuta un trabajo, lo que le permite usar etiquetas con la supervisión del clúster existente.
Haga clic en + Etiqueta en el panel lateral Detalles del trabajo para agregar o editar etiquetas. Puede agregar la etiqueta como una etiqueta o un par clave-valor. Para agregar una etiqueta, escriba la etiqueta en el campo Clave y deje el campo Valor vacío.
Cambiar el nombre, clonar o eliminar un trabajo
Para cambiar el nombre de un trabajo, vaya a la interfaz de usuario de trabajos y haga clic en el nombre del trabajo.
Puede crear rápidamente un nuevo trabajo clonando uno existente. La clonación de un trabajo crea una copia idéntica del trabajo, excepto el identificador del trabajo. Para clonar un trabajo, haga lo siguiente:
- Vaya a la interfaz de usuario de trabajos del trabajo.
- Haga clic en al lado del botón Ejecutar ahora.
- Seleccione Clonar trabajo en el menú desplegable.
- Escriba un nombre para el trabajo clonado.
- Haga clic en Clonar.
Eliminación de un trabajo
Para eliminar un trabajo, en la página del trabajo, haga clic en junto al nombre del trabajo y seleccione Eliminar trabajo en el menú desplegable.
Uso de Git con trabajos
Si el trabajo contiene tareas que admiten el uso de un proveedor de Git remoto, la interfaz de usuario de trabajos contiene un campo Git y la opción para agregar o editar la configuración de Git.
Puede configurar los siguientes tipos de tareas para usar un repositorio Git remoto:
- Cuaderno
- Scripts de Python
- Archivos SQL
- dbt
Todas las tareas de un trabajo deben hacer referencia a la misma confirmación en el repositorio remoto. Debe especificar solo una de las siguientes opciones para un trabajo que use un repositorio remoto:
- branch: el nombre de la rama, por ejemplo,
main
. - tag: el nombre de la etiqueta, por ejemplo,
release-1.0.0
. - commit: hash de una confirmación específica, por ejemplo,
e0056d01
.
Cuando se inicia una ejecución de trabajo, Databricks toma una confirmación de instantánea del repositorio remoto para asegurarse de que todo el trabajo se ejecuta en la misma versión del código.
Al ver el historial de ejecución de una tarea que ejecuta un código almacenado en un repositorio Git remoto, el panel Detalles de ejecución de tareas incluye detalles de Git, incluido el SHA de confirmación asociado a la ejecución. Para obtener más información, consulte Visualización del historial de ejecución de tareas.
Nota:
Las tareas configuradas para usar un repositorio de Git remoto no pueden escribir en archivos del área de trabajo. Deben escribir datos temporales en el almacenamiento de drivers efímeros y los datos persistentes en un volumen o tabla.
Databricks recomienda crear trabajos que hagan referencia a rutas de acceso del área de trabajo en carpetas de Git solo para la iteración rápida y las pruebas durante el desarrollo. Databricks recomienda volver a configurar los trabajos para hacer referencia a un repositorio de Git remoto a medida que se mueve a ensayo y producción. Obtenga más información sobre el uso de código fuente controlado por versiones en un trabajo de Databricks.
Configurar un proveedor de Git
La interfaz de usuario de trabajos tiene un cuadro de diálogo para configurar un repositorio de Git remoto. Este cuadro de diálogo es accesible desde el panel Detalles del trabajo en el encabezado Git o en cualquier tarea configurada para usar un proveedor de Git.
Las opciones que se muestran para acceder al cuadro de diálogo varían en función del tipo de tarea y de si ya se ha configurado una referencia de Git para el trabajo. Los botones para iniciar el cuadro de diálogo incluyen Agregar configuración de Git, Editar o Agregar una referencia de Git.
En el cuadro de diálogo Información de Git (solo tiene que etiquetar Git si accede al panel Detalles del trabajo), escriba los detalles siguientes:
- La dirección URL del repositorio de Git.
- Seleccione el proveedor de Git en la lista desplegable.
- En el campo de referencia de Git, escriba el identificador de una rama, etiqueta o confirmación que corresponda a la versión del código fuente que desea ejecutar.
- Seleccione branch, tag, o commit del menú desplegable.
Nota:
Es posible que el cuadro de diálogo le pida lo siguiente: Faltan credenciales de Git para esta cuenta. Agregue credenciales. Debe configurar un repositorio Git remoto antes de usarlo como referencia. Consulte Configuración de carpetas de Git (Repos) de Databricks.
Configurar un tiempo de finalización esperado o un tiempo de espera para un trabajo
Puede configurar los umbrales de duración opcionales para un trabajo, incluido un tiempo de finalización esperado y máximo para el trabajo. Para configurar umbrales de duración, haga clic en Establecer umbrales de duración en Umbrales de duración en el panel Detalles del trabajo.
Escriba la duración en el campo Advertencia, para configurar el tiempo de finalización esperado de la tarea. Si el trabajo supera este umbral, se desencadena un evento. Puede usar este evento para notificar cuando un trabajo se ejecuta lentamente. Consulte Configurar notificaciones para trabajos de ejecución lenta o con retraso.
Para configurar un tiempo de finalización máximo para un trabajo, escriba la duración máxima en el campo Tiempo de espera. Si el trabajo no se completa en este tiempo, Azure Databricks establece su estado en "Se agotó el tiempo de espera".
Opcionalmente, puede especificar umbrales de duración para las tareas. Consulte Configurar un tiempo de finalización esperado o un tiempo de espera para una tarea.