Freigeben über


Git-Integration für Databricks-Git-Ordner

Databricks Git-Ordner sind eine visuelle Git-Client- und -API-Lösung in Azure Databricks. Die Lösung unterstützt gängige Git-Vorgänge wie das Klonen eines Repositorys, Commits und Pushes, Pulls, Branchverwaltung und visuelle Vergleiche von Unterschieden beim Committen.

Mit Git-Ordnern können Sie Code in Notebooks oder anderen Dateien entwickeln und die bewährten Methoden für die Entwicklung von Data Science- und Datentechnikcode unter Verwendung von Git für Versionskontrolle, Zusammenarbeit und CI/CD befolgen.

Hinweis

Git-Ordner (Repos) sind in erster Linie für die Erstellung und Zusammenarbeit von Workflows konzipiert.

Welche Möglichkeiten bieten Databricks Git-Ordner?

Databricks Git-Ordner bieten durch die Integration in Git-Anbieter Quellcodeverwaltung für Daten- und KI-Projekte.

In Databricks Git-Ordnern können Git-Funktionen für Folgendes verwendet werden:

  • Klonen, Pushen und Pullen aus einem Git-Remoterepository
  • Erstellen und verwalten Sie Branches für die Entwicklungsarbeit, einschließlich Zusammenführen, Rebasing und Lösen von Konflikten.
  • Erstellen Sie Notebooks (einschließlich IPYNB-Notebooks), und bearbeiten Sie diese und andere Dateien.
  • Vergleichen Sie Unterschiede beim Commit visuell und lösen Sie Mergekonflikte.

Eine ausführliche Anleitung finden Sie unter Ausführen von Git-Vorgängen für Databricks Git-Ordner (Repos).

Hinweis

Databricks Git-Ordner bieten darüber hinaus eine API, die Sie in Ihre CI/CD-Pipeline integrieren können. Beispielsweise können Sie ein Databricks-Repository programmgesteuert aktualisieren, sodass es immer über die neueste Codeversion verfügt. Informationen zu bewährten Methoden für die Codeentwicklung mit Databricks Git-Ordnern finden Sie unter CI/CD-Techniken mit Git und Databricks Git-Ordnern (Repos).

Weitere Informationen zu den in Azure Databricks unterstützten Notebooks finden Sie unter Exportieren und Importieren von Databricks-Notebooks.

Unterstützte Git-Anbieter

Databricks Git-Ordner werden von einem integrierten Git-Repository unterstützt. Das Repository kann von einem der im folgenden Abschnitt aufgeführten Cloud- und Enterprise-Git-Anbieter gehostet werden.

Hinweis

Was ist ein „Git-Anbieter“?

Ein „Git-Anbieter“ ist der spezifische (benannte) Dienst, der ein auf Git basierendes Quellcodeverwaltungsmodell hostet. Git-basierte Quellcodeverwaltungsplattformen werden auf zwei Arten gehostet: als Clouddienst, der vom entwickelnden Unternehmen gehostet wird, oder als lokaler Dienst, der von Ihrem eigenen Unternehmen auf eigener Hardware installiert und verwaltet wird. Viele Git-Anbieter wie GitHub, Microsoft, GitLab und Atlassian bieten sowohl cloudbasierte SaaS- als auch lokale („selbstverwaltete“) Git-Dienste.

Bei der Auswahl Ihres Git-Anbieters während der Konfiguration müssen Sie sich der Unterschiede zwischen Cloudanbietern (SaaS) und lokalen Git-Anbietern bewusst sein. Lokale Lösungen werden in der Regel hinter einem Unternehmens-VPN gehostet und sind möglicherweise nicht über das Internet zugänglich. In der Regel haben die lokalen Git-Anbieter einen Namen, der auf „Server“ oder „Self-Managed“ (selbstverwaltet) endet, aber wenn Sie unsicher sind, wenden Sie sich an Ihre Unternehmensadministrator*innen, oder überprüfen Sie die Dokumentation des Git-Anbieters.

Wenn Ihr Git-Anbieter cloudbasiert und nicht als unterstützter Anbieter aufgeführt ist, können Sie ggf. „GitHub“ als Anbieter auswählen. Es wird allerdings nicht garantiert, dass diese Vorgehensweise funktioniert.

Hinweis

Wenn Sie „GitHub“ als Anbieter verwenden und immer noch unsicher sind, ob Sie die lokale oder Cloud-Version verwenden, lesen Sie Informationen zu GitHub Enterprise Server in den GitHub-Dokumenten.

Von Databricks unterstützte Cloud-Git-Anbieter

  • GitHub, GitHub AE und GitHub Enterprise Cloud
  • Atlassian BitBucket Cloud
  • GitLab und GitLab EE
  • Microsoft Azure DevOps (Azure Repos)

Von Databricks unterstützte lokale Git-Anbieter

  • GitHub Enterprise Server
  • Atlassian BitBucket Server und Rechenzentrum
  • GitLab Self-Managed
  • Microsoft Azure DevOps Server: Ein*e Arbeitsbereichsadministrator*in muss die URL-Domänenpräfixe für Ihren Microsoft Azure DevOps Server explizit zulassen, wenn die URL nicht mit dev.azure.com/* oder visualstudio.com/* übereinstimmt. Weitere Informationen finden Sie unter Einschränken der Verwendung auf URLs in einer Positivliste

Wenn Sie ein lokales Git-Repository integrieren, auf das über das Internet nicht zugegriffen werden kann, muss auch ein Proxy für Git-Authentifizierungsanforderungen im VPN Ihres Unternehmens installiert werden. Ausführlichere Informationen finden Sie unter Einrichten der privaten Git-Konnektivität für Azure Databricks Git-Ordner (Repos).

Informationen zum Verwenden von Zugriffstoken mit Ihrem Git-Anbieter finden Sie unter Konfigurieren von Git-Anmeldeinformationen und Verbinden eines Remote-Repositorys mit Azure Databricks.

Ressourcen für die Git-Integration

Verwenden Sie die Databricks-CLI 2.0 für die Git-Integration in Azure Databricks:

Lesen Sie die folgenden Referenzdokumente:

Nächste Schritte