Интеграция Git для папок Databricks Git
Папки Databricks Git — это визуальный клиент Git и API в Azure Databricks. Она поддерживает распространенные операции Git, такие как клонирование репозитория, фиксация и отправка, извлечение, управление ветвями и визуальное сравнение диффов при фиксации.
В папках Git вы можете разрабатывать код в записных книжках или других файлах, а также следовать рекомендациям по разработке кода для обработки и проектирования данных с помощью Git для управления версиями, совместной работы и CI/CD.
Примечание.
Папки Git (Repos) в основном предназначены для разработки и совместной работы рабочих процессов.
Что можно сделать с папками Databricks Git?
Папки Databricks Git обеспечивают источниковый контроль для проектов, связанных с данными и ИИ, посредством интеграции с поставщиками Git.
В папках Databricks Git можно использовать функции Git для:
- Клонирование, отправка и извлечение из удаленного репозитория Git.
- Создание ветвей для работы по разработке и управление ими, включая объединение, перебазирование и разрешение конфликтов.
- Создайте записные книжки (включая записные книжки IPYNB) и измените их и другие файлы.
- Визуально сравнивайте различия при фиксации и разрешении конфликт слияния.
Пошаговые инструкции см. в статье Запуск операций Git в папках Databricks Git (Repos).
Примечание.
Папки Databricks Git также имеют API, которые можно интегрировать с конвейером CI/CD. Например, можно программно обновить репозиторий Databricks, чтобы он всегда был последней версией кода. Сведения о рекомендациях по разработке кода с помощью папок Databricks Git см. в статьях CI/CD с папками Git и Databricks (Repos).
Сведения о типах записных книжек, поддерживаемых в Azure Databricks, см. в статье "Экспорт и импорт записных книжек Databricks".
Поддерживаемые поставщики Git
Папки Databricks Git поддерживаются интегрированным репозиторием Git. Репозиторий может размещаться любым из поставщиков облачных и корпоративных Git, перечисленных в следующем разделе.
Примечание.
Что такое "поставщик Git"?
Поставщик Git — это конкретная (именованной) служба, в которую размещается модель управления версиями на основе Git. Платформы управления версиями на основе Git размещаются двумя способами: как облачная служба, размещенная развивающейся компанией, или как локальная служба, установленная и управляемая собственной компанией на собственном оборудовании. Многие поставщики Git, такие как GitHub, Microsoft, GitLab и Atlassian, предоставляют как облачные службы SaaS, так и локальные (иногда называемые самоуправляемыми) службами Git.
При выборе поставщика Git во время настройки необходимо учитывать различия между облачными поставщиками (SaaS) и локальными поставщиками Git. Локальные решения обычно размещаются за VPN компании и могут быть недоступны из Интернета. Как правило, локальные поставщики Git имеют имя, заканчивающееся на "Сервер" или "Самоуправляемый", но если вы не уверены, обратитесь к администраторам организации или просмотрите документацию поставщика Git.
Если поставщик Git является облачным и не указан в качестве поддерживаемого поставщика, выберите "GitHub", так как ваш поставщик может работать, но не гарантируется.
Примечание.
Если вы используете "GitHub" в качестве поставщика и по-прежнему не уверены, используете ли вы облачную или локальную версию, см. статью "О GitHub Enterprise Server " в документации по GitHub.
Поставщики облачных Git, поддерживаемые Databricks
- GitHub, GitHub AE и GitHub Enterprise Cloud
- Atlassian BitBucket Cloud
- GitLab и GitLab EE
- Microsoft Azure DevOps (Azure Repos)
Локальные поставщики Git, поддерживаемые Databricks
- GitHub Enterprise Server
- Atlassian BitBucket Server и Центр обработки данных
- Самостоятельное управление GitLab
- Microsoft Azure DevOps Server: администратор рабочей области должен явно разрешить префиксы домена URL-адреса для сервера Microsoft Azure DevOps, если URL-адрес не совпадает или
dev.azure.com/*
не соответствуетvisualstudio.com/*
. Дополнительные сведения см. в разделе Ограничение использования URL-адресов в списке разрешений
Если вы интегрируете локальный репозиторий Git, который недоступен из Интернета, прокси-сервер для запросов проверки подлинности Git также должен быть установлен в VPN вашей компании. Подробнее см. в статье «Настройка частного подключения Git для папок Git Azure Databricks (Repos)».
Чтобы узнать, как использовать маркеры доступа с поставщиком Git, см. статью Настройка учетных данных Git & подключение удаленного репозитория к Azure Databricks.
Ресурсы для интеграции с Git
Используйте интерфейс командной строки Databricks 2.0 для интеграции Git с Azure Databricks:
Ознакомьтесь со следующими справочными документами: