Tarea de script de Python para trabajos
Use la tarea script de Python para ejecutar un archivo de Python.
Configuración de una tarea de script de Python
Antes de comenzar, debe cargar el script de Python en una ubicación accesible para el usuario que configura el trabajo. Databricks recomienda usar archivos de área de trabajo para scripts de Python. Consulte ¿Qué son los archivos del área de trabajo?
Nota:
La interfaz de usuario de trabajos muestra opciones dinámicamente basadas en otras opciones configuradas.
Databricks recomienda almacenar código o datos mediante montajes o raíz de DBFS. En su lugar, puede migrar scripts de Python a archivos o volúmenes del área de trabajo o usar URI para acceder al almacenamiento de objetos en la nube.
Para comenzar el flujo para configurar una tarea Python script
:
- Vaya a la pestaña Tareas de la interfaz de usuario de trabajos.
- En el menú desplegable Tipo, seleccione
Python script
.
Configuración del origen
En el menú desplegable Origen, seleccione una ubicación para el script de Python mediante una de las siguientes opciones.
Área de trabajo
Use Área de trabajo para configurar un script de Python almacenado mediante archivos de área de trabajo.
- Haga clic en el campo Ruta de acceso. Aparece el cuadro de diálogo Seleccionar archivo de Python.
- Vaya al script de Python, haga clic para resaltar el archivo y haga clic en Confirmar.
Nota:
Puede usar esta opción para configurar una tarea en un script de Python almacenado en una carpeta de Git de Databricks. Databricks recomienda usar la opción proveedor de Git y un repositorio de Git remoto para los recursos de control de versiones programados con trabajos.
DBFS/ADLS
Use DBFS/ADLS para configurar un script de Python almacenado en un volumen, una ubicación de almacenamiento de objetos en la nube o la raíz de DBFS.
Databricks recomienda almacenar scripts de Python en volúmenes de Unity Catalog o almacenamiento de objetos en la nube.
En el campo Ruta de acceso, escriba el URI en el script de Python. Por ejemplo, /Volumes/path/to/script.py
o abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/script.py
.
Proveedor de GIT
Use el proveedor de Git para configurar un script de Python en un repositorio de Git remoto.
Las opciones mostradas por la interfaz de usuario dependen de si ya ha configurado o no un proveedor de Git en otro lugar. Solo se puede usar un repositorio Git remoto para todas las tareas de un trabajo. Consulte Uso de Git con trabajos.
El campo Ruta de acceso aparece después de haber configurado una referencia de Git.
Escriba la ruta de acceso relativa para el script de Python, como etl/bronze/ingest.py
.
Importante
Cuando escriba la ruta de acceso relativa, no comience con /
o ./
. Por ejemplo, si la ruta de acceso absoluta del código Python al que desea acceder es /etl/bronze/ingest.py
, escriba etl/bronze/ingest.py
en el campo Ruta de acceso.
Configuración de bibliotecas de proceso y dependientes
- Use Compute para seleccionar o configurar un clúster que admita la lógica en el script.
- Si usa el proceso
Serverless
, use el campo Environment and Libraries (Entorno y bibliotecas) para seleccionar, editar o agregar un nuevo entorno. Consulte Instalación de dependencias de cuaderno. - Para todas las demás configuraciones de proceso, haga clic en + Agregar en Bibliotecas dependientes. Aparece el cuadro de diálogo Agregar biblioteca dependiente.
- Puede seleccionar una biblioteca existente o cargar una biblioteca nueva.
- Solo puede usar bibliotecas almacenadas en una ubicación compatible con las configuraciones de proceso. Consulte Soporte de biblioteca de Python.
- Cada origen de biblioteca tiene un flujo diferente para seleccionar o cargar una biblioteca. Consulte Bibliotecas.
Finalización de la configuración de trabajos
- (Opcional) Configure Configuración como una lista de cadenas pasadas como argumentos de CLI al script de Python. Consulte Configure task parameters (Configuración de parámetros de tarea).
- Haga clic en Guardar tarea.