Что случилось с Databricks Repos?
Azure Databricks развернул новые элементы пользовательского интерфейса, которые позволяют пользователям работать непосредственно с папками с репозиторием Git из пользовательского интерфейса рабочей области, эффективно заменяя предыдущие функции "Репозиторий".
Что такое изменение означает для меня?
Если вы являетесь пользователем функции Databricks Repos для совместного управления версиями на основе Git ресурсов проекта, основные функции не изменились. Наиболее заметным отличием является то, что многие контекстные операции пользовательского интерфейса теперь ссылаются на папки Git, а не "Repos".
Например, можно создать папку Databricks, поддерживаемую репозиторием Git, выбрав "Создать", а затем в пользовательском интерфейсе:
Теперь выберите Создать и выберите папку Git. То же самое, другое имя!
Это изменение обеспечивает некоторые улучшения, упрощающие работу с управляемыми версиями папками:
-
Улучшенная организация папок: папки Git можно создавать на любом уровне дерева файлов рабочей области, что позволяет упорядочивать папки Git таким образом, чтобы лучше всего работать в проекте. Например, можно создать папки Git по адресу
/Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>
. Репозитории можно создавать только на фиксированном уровне каталога, например корневой каталог папки пользователя Repos, например/Workspace/Repos/<user email>/<Repo name>
.- Примечание. Папки Git могут содержать или совместно использовать другие ресурсы, которые сейчас не поддерживаются Репозиторием. Неподдерживаемые типы ресурсов, такие как ресурсы DBSQL и эксперименты MLflow, можно переместить в папки Git. Поддержка сериализации дополнительных ресурсов будет добавлена с течением времени.
- Упрощенное поведение пользовательского интерфейса. Это изменение приводит к общему взаимодействию с рабочей областью Git напрямую в рабочую область Databricks и сокращает время, затраченное на навигацию между рабочей областью и папками Git, контролируемыми версией.
Что изменилось, в частности?
- Папки Git можно создавать за пределами
/Repos
каталога. - Папки Git создаются путем выбора новой>папки Git в рабочей области Databricks. При этом создается новая папка Git в
/Workspace/Users/<user-email>/
разделе . - Папки Git можно создавать в различных глубинах дерева файлов рабочей области до тех пор, пока они находятся под
/Workspace/Users/<user-email>
. Например, можно создать папки Git по адресу/Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name>
. В папке/Workspace/Users/<user-email>
Git можно использовать несколько папок. - Неподдерживаемые ресурсы разрешены в папках Git. Поддержка сериализации для других типов активов будет добавлена с течением времени.
- В отличие от Repos, невозможно создать новую папку Git в Databricks без удаленный репозиторий URL-адреса.
Что происходит с моим текущим репозиторием?
Если вы определили Репозитории для рабочей области Azure Databricks, они не уходят, и вам не требуется перенести существующие репозитории в папки Git. Вместо этого репозитории были интегрированы в пользовательский интерфейс рабочей области Azure Databricks и больше не отображаются как отдельный набор папок, расположенных под узлом верхнего уровня Repo. Теперь их можно найти в корневой папке /Workspace
как /Workspace/Repos
.
- Существующие
/Repos
ссылки будут продолжать работать. Пути, начинающиеся с одного или/Repos
ссылающегося на/Workspace/Repos
ту же папку, и объявленные пути вjobs
,dbutils.notebook.run
и%run
ссылки могут оставаться неизменными. - В редких случаях необходимо внести однократное изменение в рабочую область для работы этого перенаправления. Дополнительные сведения об этом изменении см. в статье "Ссылки на объекты рабочей области".
Databricks рекомендует пользователям создавать новые папки Git вместо Repos, если им нужно подключиться к системе управления версиями Git из рабочей области Databricks. Совместное размещение репозиториев Git и других ресурсов рабочей области делает папки Git более обнаруживаемыми и проще управлять, чем Репозиторий.
Разрешения папок Git имеют те же разрешения для папок рабочей области, что и другие папки рабочей области. У пользователей CAN_MANAGE
должно быть разрешение для выполнения большинства операций Git.
Какой DBR следует использовать для выполнения кода в папках Git?
Для согласованного выполнения кода между папками Git и устаревшими репозиториями Databricks рекомендует пользователям запускать код только в папках Git с DBR 15+.
Текущее поведение рабочего каталога (CWD)
Databricks Runtime (DBR) версии 14 или более поздней позволяет использовать относительные пути и обеспечивает тот же текущий рабочий каталог (CWD) для всех записных книжек, где выполняется записная книжка из текущего рабочего каталога. Текущее поведение рабочего каталога (CWD) может быть несогласованным между записными книжками в папке Git и папкой, отличной от Git для более старых версий среды выполнения Databricks (DBR).
Поведение python sys.path
Databricks Runtime (DBR) версии 14.3 или больше обеспечивает то же sys.path
поведение в папках Git, что и в устаревших репозиториях. В более ранних версиях DBR поведение папок Git отличается от устаревших Репозиториев, так как корневой каталог репозитория не добавляется sys.path
в папки Git автоматически. В Python sys.path
содержит список каталогов, которые интерпретатор просматривает при импорте модулей. Если вы не можете использовать DBR 15 или более поздней версии, можно вручную добавить путь к папке в sys.path
качестве обходного решения.
Примеры добавления каталогов к sys.path
использованию относительных путей см. в разделе "Импорт модулей Python и R".
Приоритет библиотеки Python
Databricks Runtime (DBR) версии 14.3 или более поздней предоставляет одинаковый приоритет библиотеки Python в папках Git, что и в устаревших репозиториях.