¿Qué son los archivos del área de trabajo?
Un archivo de área de trabajo es un archivo en el árbol de archivos del área de trabajo de Azure Databricks que no es uno de los tipos enumerados siguientes:
- Cuaderno
- Consultas
- Paneles
- Espacios de Genie
- Experimentos
Aparte de estos tipos excluidos, los archivos del área de trabajo pueden ser cualquier tipo de archivo. Algunos ejemplos frecuentes son:
- Archivos
.py
usados en módulos personalizados. - Archivos
.md
, comoREADME.md
. .csv
u otros archivos de datos pequeños.- Archivos
.txt
. - Bibliotecas de
.whl
. - Archivos de registro.
Para obtener recomendaciones sobre cómo trabajar con archivos, vea Recomendaciones para archivos en volúmenes y archivos de área de trabajo.
El árbol de archivos del área de trabajo de Azure Databricks puede contener carpetas adjuntas a un repositorio de Git denominado "Carpetas de Git de Databricks". Tienen algunas limitaciones adicionales en cuanto a la compatibilidad con los tipos de archivo. Para obtener una lista de los tipos de archivo admitidos en carpetas de Git (anteriormente "Repos"), consulte Tipos de recursos admitidos en carpetas de Git.
Importante
Los archivos del área de trabajo están habilitados en todas partes de manera predeterminada para la versión 11.2 de Databricks Runtime. Para cargas de trabajo de producción, use Databricks Runtime 11.3 LTS o superior. Póngase en contacto con el administrador del área de trabajo si no puede acceder a esta funcionalidad.
Qué se puede hacer con los archivos del área de trabajo
Azure Databricks proporciona una funcionalidad similar al desarrollo local para muchos tipos de archivos del área de trabajo, incluido un editor de archivos integrado. No todos los casos de uso para todos los tipos de archivo son compatibles.
Puede crear, editar y administrar el acceso a los archivos del área de trabajo usando patrones familiares de las interacciones con los cuadernos. Puede usar rutas de acceso relativas para las importaciones de bibliotecas desde los archivos del área de trabajo, de forma similar al desarrollo local. Para obtener información, consulte:
- Uso básico de los archivos del área de trabajo
- Interacción mediante programación con archivos del área de trabajo
- Trabajo con módulos de Python y R
- Mostrar imágenes
- Administración de cuadernos
- ACL de archivos
Los scripts de inicialización almacenados en los archivos del área de trabajo tienen un comportamiento especial. Puede usar archivos de área de trabajo para almacenar y hacer referencia a scripts de inicio en cualquier versión de Databricks Runtime. Consulte Almacenar scripts de inicialización en archivos del área de trabajo.
Nota:
En Databricks Runtime 14.0 y versiones posteriores, el directorio de trabajo actual predeterminado (CWD) para el código ejecutado localmente es el directorio que contiene el cuaderno o el script que se está ejecutando. Este es un cambio en el comportamiento de Databricks Runtime 13.3 LTS y versiones posteriores. Vea ¿Cuál es el directorio de trabajo actual predeterminado?.
Limitaciones
- Si su flujo de trabajo utiliza código fuente ubicado en un repositorio Git remoto, no puede escribir en el directorio actual o escribir utilizando una ruta relativa. Escribir datos en otras opciones de ubicación.
- No se pueden usar comandos
git
al guardar en archivos en el área de trabajo. No se permite la creación de directorios.git
en archivos del área de trabajo. - No se admite la lectura de archivos de área de trabajo mediante ejecutores de Spark (por ejemplo,
spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")
) con proceso sin servidor. - Los ejecutores no pueden escribir en archivos del área de trabajo.
- Los vínculos simbólicos se admiten para los directorios de destino en la
/Workspace
carpeta raíz. - No se puede acceder a los archivos del área de trabajo desde funciones definidas por el usuario (UDF) en clústeres con modo de acceso compartido en Databricks Runtime 14.2 y versiones inferiores.
Límite de tamaño de los archivos
- El tamaño del archivo del área de trabajo está limitado a 500 MB desde la interfaz de usuario. El tamaño máximo de archivo permitido al escribir desde un clúster es de 256 MB.
Límite de permisos de acceso a archivos
Permiso para acceder a archivos en carpetas /Workspace
que expiran después de 36 horas para el proceso interactivo y después de 30 días para los trabajos. Databricks recomienda ejecutar ejecuciones largas como trabajos si necesitan acceso a archivos /Workspace.
Habilitación de archivos del área de trabajo
Para habilitar la compatibilidad con archivos que no son cuadernos en el área de trabajo de Databricks, llame a la API REST /api/2.0/workspace-conf desde un cuaderno u otro entorno con acceso al área de trabajo de Databricks. Los archivos del área de trabajo están habilitados de forma predeterminada.
Para habilitar o volver a habilitar en el área de trabajo de Databricks la compatibilidad con archivos que no sean cuadernos, llame a /api/2.0/workspace-conf
y obtenga el valor de la clave enableWorkspaceFileSystem
. Si se establece en true
, los archivos que no sean cuadernos ya estarán habilitados para el área de trabajo.
En el ejemplo siguiente se muestra cómo puede llamar a esta API desde un cuaderno para comprobar si los archivos del área de trabajo están deshabilitados y, si es así, volver a habilitarlos.