Ограничения и ответы по интеграции Git с папками Databricks Git

Статья
01/20/2025

Папки Databricks Git и интеграция с Git имеют ограничения, указанные в следующих разделах. Общие сведения см. в статье Ограничения Databricks.

Перейти к разделу:

Ограничения файлов и репозитория
Типы ресурсов, поддерживаемые в папках Git
Вопросы и ответы: конфигурация папки Git

Ограничения файлов и репозитория

Azure Databricks не применяет ограничение размера репозитория. Тем не менее

Рабочие ветви ограничены 1 гигабайтами (ГБ).
Файлы размером более 10 МБ невозможно просмотреть в пользовательском интерфейсе Azure Databricks.
Отдельные файлы рабочей области подвергаются отдельному ограничению размера. Дополнительные сведения см. в разделе "Ограничения".

В Databricks рекомендуется, чтобы в репозитории:

Общее количество всех ресурсов и файлов рабочей области не превышает 20 000.

Для любой операции Git использование памяти ограничено 2 ГБ, а запись дисков ограничена 4 ГБ. Поскольку ограничение применяется к каждой операции, вы получите ошибку, если попытаетесь клонировать репозиторий Git размером 5 ГБ. Однако если клонировать репозиторий Git размером 3 ГБ в одной операции, а затем добавить в нее 2 ГБ позже, следующая операция вытягивания будет выполнена успешно.

Если в репозитории эти ограничения превышены, может появиться сообщение об ошибке. Вы также можете получить ошибку об истечении времени ожидания при клонировании репозитория, но операция может завершиться в фоновом режиме.

Чтобы работать с репозиторием, превышающим ограничения размера, попробуйте выполнить разреженную проверку.

Если вы должны записывать временные файлы, которые не нужно хранить после завершения работы кластера, записывает временные файлы, чтобы $TEMPDIR избежать превышения ограничений размера ветви и обеспечивает лучшую производительность, чем запись в текущий рабочий каталог (CWD), если CWD находится в файловой системе рабочей области. Дополнительные сведения см. в статье Где следует записывать временные файлы в Azure Databricks?.

Максимальное количество папок Git на рабочую область

В рабочей области может быть не более 2 000 папок Git. Если требуется больше, обратитесь в службу поддержки Databricks.

Восстановление файлов, удаленных из папок Git в рабочей области

Действия рабочей области в папках Git зависят от возможности восстановления файлов. Некоторые действия позволяют восстановить папку корзины , а другие — нет. Файлы, ранее зафиксированные и отправленные в удаленную ветвь, можно восстановить с помощью журнала фиксаций Git для удаленного репозитория Git. В этой таблице описывается поведение каждого действия и возможность восстановления:

Действие	Можно ли восстановить файл?
Удаление файла с помощью браузера рабочей области	Да, из папки корзины
Отмена нового файла с помощью диалогового окна папки Git	Да, из папки корзины
Отмена измененного файла с помощью диалогового окна папки Git	Нет, файл исчезнет
`reset` (жестко) для незафиксированных изменений файлов	Нет, изменения файлов исчезли
`reset` (жестко) для незафиксированных только что созданных файлов	Нет, изменения файлов исчезли
Переключение ветвей с помощью диалогового окна папки Git	Да, из удаленного репозитория Git
Другие операции Git (фиксация и отправка и т. д.) из диалогового окна папки Git	Да, из удаленного репозитория Git
`PATCH` операции обновления `/repos/id` из API Repos	Да, из удаленного репозитория Git

Поддержка единого репозитория

Databricks рекомендует не создавать папки Git, поддерживаемые monorepos, где monorepo является большим репозиторием Git с несколькими тысячами файлов во многих проектах.

Типы ресурсов, поддерживаемые в папках Git

В папках Git поддерживаются только определенные типы ресурсов Azure Databricks. Поддерживаемый тип ресурса можно сериализовать, управлять версиями и отправляться в резервный репозиторий Git.

В настоящее время поддерживаемые типы активов:

Тип ресурса	Сведения
Файл	Файлы сериализуются и могут включать все, от библиотек до двоичных файлов и код изображений. Дополнительные сведения см. в статье "Что такое файлы рабочей области"?
Записная книжка	Записные книжки — это форматы файлов записной книжки, поддерживаемые Databricks. Записные книжки считаются отдельным типом ресурса Azure Databricks из файлов, так как они не сериализуются. Папки Git определяют записную книжку по расширению файла (например `.ipynb`) или расширениям файлов в сочетании с специальным маркером в содержимом файла (например, `# Databricks notebook source` комментарий в начале исходных `.py` файлов).
Папка	Папка — это структура Azure Databricks, представляющая сериализованные сведения о логической группировке файлов в Git. Как ожидается, пользователь использует это как папку при просмотре папки Azure Databricks Git или доступе к ней с помощью Интерфейса командной строки Azure Databricks.
запроса (общедоступная предварительная версия)	Запросы Databricks SQL (DBSQL) можно сохранить как блокноты IPYNB (расширение: `.dbquery.ipynb`). Поддержка Git для запросов DBSQL требует активации нового SQL-редактора. Запросы, созданные с отключенной новой функцией редактора SQL, могут быть помещены в папку Git, но не могут коммититься в удаленный репозиторий.

Типы ресурсов Azure Databricks, которые в настоящее время не поддерживаются в папках Git, включают следующее:

видны узлы
Панели мониторинга (включая устаревшие панели мониторинга)
эксперименты;
Джин пробелы

При работе с ресурсами в Git обратите внимание на следующие ограничения в именовании файлов:

Папка не может содержать записную книжку с тем же именем, что и другая записная книжка, файл или папка в одном репозитории Git, даже если расширение файла отличается. (Для записных книжек исходного формата расширение предназначено .py для Python, .scala для Scala, .sql для SQL и .r R. Для записных книжек в формате IPYNB расширение равно .ipynb.) Например, нельзя использовать записную книжку исходного формата с именем и записную книжку IPYNB с именем test1.pytest1 в той же папке Git, так как файлtest1.py записной книжки Python исходного формата () сериализуется как test1 и конфликт возникнет.
Символ / не поддерживается в именах файлов. Например, в папке Git не может быть файл с именем i/o.py .

При попытке выполнить операции Git с файлами с именами, имеющими эти шаблоны, вы получите сообщение об ошибке получения состояния Git. При неожиданном получении этой ошибки просмотрите имена файлов ресурсов в репозитории Git. Если вы найдете файлы с именами, имеющими эти конфликтующие шаблоны, переименуйте их и повторите операцию.

Примечание.

Существующие неподдерживаемые ресурсы можно переместить в папку Git, но не удается зафиксировать любые изменения, внесенные в удаленный репозиторий.

Форматы записных книжек

Дополнительные сведения о форматах записных книжек для папок Git см. в разделе Форматы записных книжек.

Часто задаваемые вопросы: конфигурация папки Git

Где хранится содержимое репозитория Azure Databricks?

Содержимое репозитория временно клонируется на диск на уровне управления. Файлы записной книжки Azure Databricks хранятся в базе данных на уровне управления, как и записные книжки в основной рабочей области. Файлы, не относящиеся к записной книжке, хранятся на диске до 30 дней.

Поддерживают ли папки Git локальные или локальные серверы Git?

Папки Databricks Git поддерживают GitHub Enterprise, Bitbucket Server, Azure DevOps Server и локальную интеграцию GitLab, если сервер доступен в Интернете. Дополнительные сведения об интеграции папок Git с локальным сервером Git см. на сервере прокси-сервера Git для папок Git.

Чтобы интегрироваться с Bitbucket Server, GitHub Enterprise Server или экземпляром подписки GitLab с самостоятельным управлением, который недоступен в Интернете, выйдите на связь с вашей командой по учетной записи Azure Databricks.

Какие типы ресурсов Databricks поддерживаются папками Git?

Дополнительные сведения о поддерживаемых типах активов см . в папках Git.

Поддерживают `.gitignore` ли папки Git файлы?

Да. Если вы добавили файл в репозиторий и не хотите, чтобы он отслеживался в Git, создайте файл .gitignore или используйте один из клонированных файлов из удаленного репозитория и добавьте имя файла, включая расширение.

.gitignore работает только для файлов, которые еще не отслеживаются в Git. Если добавить в файл .gitignore тот файл, который уже отслеживается в Git, файл все равно будет отслеживаться в Git.

Можно ли создавать папки верхнего уровня, не являющиеся пользовательскими папками?

Да, администраторы могут создавать папки верхнего уровня с одним уровнем. Папки Git не поддерживают дополнительные уровни папок.

Поддерживают ли папки Git подмодулы Git?

№ Вы можете клонировать репозиторий, содержащий подмодули Git, но подмодуль не клонируется.

Поддерживает ли Фабрика данных Azure (ADF) папки Git?

Да.

Управление источником

Почему панели мониторинга записной книжки исчезают при получении или извлечении другой ветви?

В настоящее время это ограничение, так как исходные файлы записной книжки Azure Databricks не хранят сведения о панели мониторинга записной книжки.

Если вы хотите сохранить панели мониторинга в репозитории Git, измените формат .ipynb записной книжки на (формат записной книжки Jupyter). По умолчанию .ipynb поддерживает определения панели мониторинга и визуализации. Если вы хотите сохранить данные графа (точки данных), необходимо зафиксировать записную книжку с выходными данными.

Сведения о фиксации .ipynb выходных данных записной книжки см. в статье "Разрешить фиксацию .ipynb выходных данных записной книжки".

Поддерживают ли папки Git объединение ветвей?

Да. Вы также можете создать запрос на вытягивание и объединить с помощью поставщика Git.

Можно ли удалить ветвь из репозитория Azure Databricks?

№ Чтобы удалить ветвь, необходимо работать в поставщике Git.

Если библиотека установлена в кластере, и в папку в репозитории входит библиотека с тем же именем, то какая библиотека будет импортирована?

Импортируется библиотека в репозитории. Дополнительные сведения о приоритете библиотеки в Python см. в разделе "Приоритет библиотеки Python".

Можно ли вытянуть последнюю версию репозитория из Git перед запуском задания, не используя внешнее средство оркестрации?

№ Как правило, вы можете интегрировать ее как предварительную фиксацию на сервере Git, чтобы при каждой отправке в ветвь (главную или рабочую) обновлялся репозиторий Production.

Можно ли экспортировать репозиторий?

Вы можете экспортировать записные книжки, папки или весь репозиторий. Невозможно экспортировать файлы, отличные от записных книжек. При экспорте всего репозитория файлы, не являющиеся записными книжками, не включаются. Чтобы экспортировать, используйте команду в интерфейсе командной workspace export Databricks или используйте API рабочей области.

Безопасность, проверка подлинности и маркеры

Проблема с политикой условного доступа (CAP) для идентификатора Microsoft Entra

При попытке клонировать репозиторий может появиться сообщение об ошибке "отказано в доступе", когда:

Azure Databricks настроен для использования Azure DevOps с проверкой подлинности идентификатора Microsoft Entra.
Вы включили политику условного доступа в Azure DevOps и политику условного доступа Идентификатора Microsoft Entra.

Чтобы устранить эту проблему, добавьте исключение в политику условного доступа (CAP) для IP-адреса или пользователей Azure Databricks.

Дополнительные сведения см. в разделе "Политики условного доступа".

Список разрешений с маркерами Azure AD

Если вы используете Azure Active Directory (AAD) для проверки подлинности с помощью Azure DevOps, список разрешений по умолчанию ограничивает URL-адреса Git следующим образом:

dev.azure.com
visualstudio.com

Дополнительные сведения см. в разделе Списки разрешений для ограничения использования удаленного репозитория.

Зашифрованы ли содержимое папок Azure Databricks Git?

Содержимое папок Azure Databricks Git шифруется Azure Databricks с помощью ключа по умолчанию. Шифрование с помощью ключей, управляемых клиентом, не поддерживается, за исключением шифрования учетных данных Git.

Как и где хранятся токены GitHub в Azure Databricks? Кто может получить доступ из Azure Databricks?

Маркеры проверки подлинности хранятся в плоскости управления Azure Databricks, а сотрудник Azure Databricks может получить доступ только через временные учетные данные, которые подлежат аудиту.
Azure Databricks регистрирует создание и удаление этих маркеров, но не их использование. В Azure Databricks выполняется ведение журнала, отслеживающее операции Git, которые можно использовать для аудита использования маркеров приложением Azure Databricks.
Использование маркеров аудита в GitHub Enterprise. В других службах Git также может выполняться аудит сервера Git.

Поддерживают ли папки Git подписывание фиксаций GPG?

№

Поддерживают ли папки Git SSH?

Нет, только HTTPS.

Ошибка при подключении Azure Databricks к репозиторию Azure DevOps в другом клиенте

При попытке подключиться к DevOps в отдельном клиенте может появиться сообщение Unable to parse credentials from Azure Active Directory account. Если проект Azure DevOps находится в другом клиенте Идентификатора Microsoft Entra из Azure Databricks, необходимо использовать маркер доступа из Azure DevOps. См. статью "Подключение к Azure DevOps" с помощью токена DevOps.

CI/CD и MLOps

Входящие изменения очищают состояние записной книжки

Операции Git, изменяющие исходный код записной книжки, приводят к потере состояния записной книжки, включая выходные данные ячеек, комментарии, журнал версий и мини-приложения. Например, git pull можно изменить исходный код записной книжки. В этом случае папки Databricks Git должны перезаписать существующую записную книжку для импорта изменений. git commit и push или создание новой ветви не влияют на исходный код записной книжки, поэтому состояние записной книжки сохраняется в этих операциях.

Внимание

Эксперименты MLflow не работают в папках Git с DBR 14.x или более низкими версиями.

Можно ли создать эксперимент MLflow в репозитории?

Существует два типа экспериментов MLflow: рабочая область и записная книжка. Дополнительные сведения о двух типах экспериментов MLflow см. в разделе "Упорядочивание учебных запусков с помощью экспериментов MLflow".

В папках Git можно вызвать mlflow.set_experiment("/path/to/experiment") эксперимент MLflow любого типа и журналов, но этот эксперимент и связанные запуски не будут проверены в системе управления версиями.

Эксперименты MLflow рабочей области

Невозможно создать эксперименты MLflow рабочей области в папке Databricks Git (папка Git). Если несколько пользователей используют отдельные папки Git для совместной работы в одном коде машинного обучения, журнал MLflow запускается в эксперимент MLflow, созданный в обычной папке рабочей области.

Эксперименты с записными книжками MLflow

Эксперименты записной книжки можно создать в папке Databricks Git. При проверке записной книжки в системе .ipynb управления версиями в качестве файла можно записать запуск MLflow в автоматически созданный и связанный эксперимент MLflow. Дополнительные сведения см. в статье о создании экспериментов записной книжки.

Предотвращение потери данных в экспериментах MLflow

Эксперименты Записной книжки MLflow, созданные с помощью заданий Databricks с исходным кодом в удаленный репозиторий хранятся во временном расположении хранилища. Эти эксперименты сохраняются изначально после выполнения рабочего процесса, но могут быть подвержены риску удаления позже во время запланированного удаления файлов во временном хранилище. Databricks рекомендует использовать эксперименты MLflow рабочей области с заданиями и удаленными источниками Git.

Предупреждение

При переходе на ветвь, которая не содержит записную книжку, вы рискуете потерять связанные данные эксперимента MLflow. Эта потеря становится пермнанентной, если предыдущий филиал недоступен в течение 30 дней.

Чтобы восстановить отсутствующие данные эксперимента до истечения срока действия 30 дней, переименуйте записную книжку обратно в исходное имя, откройте записную книжку, щелкните значок "Эксперимент" на правой боковой панели (это также эффективно вызывает mlflow.get_experiment_by_name() API), и вы сможете увидеть восстановленный эксперимент и запуск. Через 30 дней все потерянные эксперименты MLflow будут удалены для удовлетворения политик соответствия GDPR.

Чтобы предотвратить эту ситуацию, Databricks рекомендует либо избегать переименования записных книжек в репозиториях в целом, либо при переименовании записной книжки щелкните значок "эксперимент" на правой боковой панели сразу после переименования записной книжки.

Что произойдет, если задание записной книжки выполняется в рабочей области во время выполнения операции Git?

В любой момент, пока выполняется операция Git, некоторые записные книжки в репозитории могут быть обновлены, а другие — нет. Это может привести к непредсказуемому поведению.

Например, предположим, что notebook A вызовы notebook Z с помощью %run команды. Если задание, выполняемое во время операции Git, запускает самую последнюю версию notebook A, но notebook Z еще не обновлена, %run команда в записной книжке A может запустить более раннюю версию notebook Z. Во время операции Git состояния записной книжки не прогнозируются, а задание может завершиться ошибкой или выполнением notebook A и notebook Z от различных фиксаций.

Чтобы избежать этой ситуации, используйте задания с использованием Git (когда источником является поставщик Git, а не путь к рабочей области). Дополнительные сведения см. в статье "Использование Git с заданиями".

Ресурсы

Дополнительные сведения о файлах рабочей области Databricks см. в разделе "Что такое файлы рабочей области?".

Поделиться через