Что такое файлы рабочей области?
Файл рабочей области — это файл в дереве файлов рабочей области Azure Databricks, который не является одним из типов, перечисленных ниже.
- Записные книжки
- Запросы
- Панели мониторинга
- Джин пробелы
- Эксперименты
Кроме этих исключенных типов, файлы рабочей области могут быть любым типом файлов. Распространенные примеры:
-
.py
файлы, используемые в пользовательских модулях. -
.md
файлы, такие какREADME.md
. -
.csv
или другие небольшие файлы данных. - Файлы
.txt
. -
.whl
Библиотеки. - Файлы журнала.
Для рекомендаций по работе с файлами см. Рекомендации по файлам в volumes и файлы рабочей области.
Дерево файлов рабочей области Azure Databricks может содержать папки, подключенные к репозиторию Git с именем "Папки Databricks Git". Они имеют некоторые дополнительные ограничения в поддержке типов файлов. Сведения о list типов файлов, поддерживаемых в папках Git (прежнее название — Repos), см. в типах ресурсов, поддерживаемых в папках Git.
Внимание
Файлы рабочей области по умолчанию включены в Databricks Runtime версии 11.2. Для рабочих нагрузок используйте Databricks Runtime 11.3 LTS или более поздней версии. Обратитесь к администратору рабочей области, если вы не сможете получить доступ к этой функции.
Что можно сделать с файлами рабочей области
Azure Databricks предоставляет функции, аналогичные локальной разработке для многих типов файлов рабочей области, включая встроенный редактор файлов. Не все варианты использования для всех типов файлов поддерживаются.
Вы можете создавать, изменять и управлять доступом к файлам рабочей области с помощью знакомых шаблонов взаимодействия с записной книжкой. Для импорта библиотеки из файлов рабочей области можно использовать относительные пути, аналогичные локальной разработке. Дополнительные сведения см. в статье
- Основные сведения об использовании файлов рабочей области
- Программное взаимодействие с файлами рабочей области
- Работа с модулями Python и R
- Отображение изображений
- Управление записными книжками
- Списки управления доступом к файлам
Скрипты инициализации, хранящиеся в файлах рабочей области, имеют особое поведение. Файлы рабочей области можно использовать для хранения и ссылки на скрипты инициализации в любых версиях среды выполнения Databricks. См . скрипты инициализации Магазина в файлах рабочей области.
Примечание.
В Databricks Runtime 14.0 и выше текущий рабочий каталог по умолчанию (CWD) для кода, выполняемого локально, — это каталог, содержащий записную книжку или скрипт, выполняемый. Это изменение поведения из Databricks Runtime 13.3 LTS и ниже. См. раздел " Что такое текущий рабочий каталог по умолчанию?".
Ограничения
- Если рабочий процесс использует исходный код, расположенный в удаленном репозитории Git, вы не можете записать в текущий каталог или написать с помощью относительного пути. Запись данных в другие параметры расположения.
- Команды нельзя использовать
git
при сохранении в файлах рабочей области. Создание каталогов запрещено в файлах.git
рабочей области. - Чтение из файлов рабочей области с помощью исполнителей Spark (например
spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")
, не поддерживается с бессерверными вычислениями). - Исполнители не могут записывать файлы рабочей области.
- Символические ссылки поддерживаются только для целевых каталогов в корневой папке
/Workspace
, например,os.symlink("/Workspace/Users/someone@example.com/Testing", "Testing")
. - Файлы рабочей области не могут быть доступны из определяемых пользователем функций (ОПРЕДЕЛ) в кластерах с режимом общего доступа в Databricks Runtime 14.2 и ниже.
Размер файла limit
- Размер файла рабочей области ограничен 500 МБ. Операции, которые пытаются скачать или создать файлы, превышающие этот limit, завершатся ошибкой.
Разрешение на доступ к файлам limit
Разрешение на доступ к файлам в папках /Workspace
истекает через 36 часов для интерактивных вычислений и через 30 дней для заданий. Databricks рекомендует выполнять длительные выполнения в качестве заданий, если им нужен доступ к файлу /Workspace.
Включение файлов рабочей области
Чтобы включить поддержку файлов, отличных от записных книжек в рабочей области Databricks, вызовите REST API /api/2.0/workspace-conf из записной книжки или другой среды с доступом к рабочей области Databricks. Файлы рабочей области включены по умолчанию.
Чтобы включить или повторно включить поддержку файлов, отличных от записных книжек в рабочей области Databricks, вызовите /api/2.0/workspace-conf
и get значение ключа enableWorkspaceFileSystem
. Если это диапазон от set до true
, файлы, кроме записных книжек, уже включены для рабочей области.
В следующем примере показано, как вызвать этот API из записной книжки, чтобы проверить, отключены ли файлы рабочей области и если да, повторно включите их.