Compartir a través de


Tarea de cuadernos para trabajos

Use la tarea de cuadernos para implementar cuadernos de Databricks.

Configuración de una tarea de cuadernos

Antes de empezar, debe tener el cuaderno en una ubicación accesible por el usuario que configura el trabajo.

Nota:

La interfaz de usuario de trabajos muestra opciones dinámicamente basadas en otras opciones configuradas.

Para comenzar el flujo para configurar una tarea Notebook:

  1. Vaya a la pestaña Tareas de la interfaz de usuario de trabajos.
  2. En el menú desplegable Tipo, seleccione Notebook.

Configuración del origen

En el menú desplegable Origen, seleccione una ubicación para el script de Python mediante una de las siguientes opciones.

Área de trabajo

Use Área de trabajo para configurar un cuaderno almacenado en el área de trabajo, siguiendo estos pasos:

  1. Haga clic en el campo Ruta de acceso. Aparece el cuadro de diálogo Seleccionar cuaderno.
  2. Vaya al cuaderno, haga clic para resaltar el archivo y haga clic en Confirmar.

Nota:

Puede usar esta opción para configurar una tarea para un cuaderno almacenado en una carpeta de Git de Databricks. Databricks recomienda usar la opción proveedor de Git y un repositorio de Git remoto para los recursos de control de versiones programados con trabajos.

Proveedor de GIT

Use el proveedor de Git para configurar un cuaderno en un repositorio de Git remoto.

Las opciones mostradas por la interfaz de usuario dependen de si ya ha configurado o no un proveedor de Git en otro lugar. Solo se puede usar un repositorio Git remoto para todas las tareas de un trabajo. Consulte Uso de Git con trabajos.

Importante

Los cuadernos creados por trabajos de Azure Databricks que se ejecutan desde repositorios de Git remotos son efímeros y no se puede confiar en ellos para realizar un seguimiento de las ejecuciones, experimentos o modelos de MLflow. Al crear un cuaderno a partir de un trabajo, use un experimento de MLflow del área de trabajo (en lugar de un experimento de MLflow de cuaderno) y llame a mlflow.set_experiment("/path/to/experiment") en el cuaderno del área de trabajo antes de ejecutar cualquier código de seguimiento de MLflow. Para obtener más detalles, consulte Evitar la pérdida de datos en experimentos de MLflow.

El campo Ruta de acceso aparece después de haber configurado una referencia de Git.

Escriba la ruta de acceso relativa del cuaderno, como etl/bronze/ingest.py.

Importante

Cuando escriba la ruta de acceso relativa, no comience con / o ./. Por ejemplo, si la ruta de acceso absoluta del cuaderno al que desea acceder es /etl/bronze/ingest.py, escriba etl/bronze/ingest.py en el campo Ruta de acceso.

Configuración de bibliotecas de proceso y dependientes

  1. Use Compute para seleccionar o configurar un clúster que admita la lógica en el cuaderno.
  2. Si usa el proceso Serverless, use el campo Environment and Libraries (Entorno y bibliotecas) para seleccionar, editar o agregar un nuevo entorno. Consulte Instalación de dependencias de cuaderno.
  3. Para todas las demás configuraciones de proceso, haga clic en + Agregar en Bibliotecas dependientes. Aparece el cuadro de diálogo Agregar biblioteca dependiente.
    • Puede seleccionar una biblioteca existente o cargar una biblioteca nueva.
    • Solo puede usar bibliotecas almacenadas en una ubicación compatible con las configuraciones de proceso. Consulte Soporte de biblioteca de Python.
    • Cada origen de biblioteca tiene un flujo diferente para seleccionar o cargar una biblioteca. Consulte Bibliotecas.

Finalización de la configuración de trabajos

  1. (Opcional) Configure Parámetros como pares clave-valor a los que se puede tener acceso en el cuaderno mediante dbutils.widgets. Consulte Configure task parameters (Configuración de parámetros de tarea).
  2. Haga clic en Guardar tarea.

Limitaciones

La salida total de la celda del cuaderno (la salida combinada de todas las celdas del cuaderno) está sujeta a un límite de tamaño de 20 MB. Además, la salida de celda individual está sujeta a un límite de tamaño de 8 MB. Si el tamaño de la salida total de la celda supera los 20 MB, o si la salida de una celda individual es mayor que 8 MB, la ejecución se cancela y se marca como con errores.

Si necesita ayuda para encontrar las celdas que están cerca o fuera del límite, ejecute el cuaderno en un clúster de uso general y use esta técnica de autoguardado del cuaderno.