Set konfiguracja folderów Git w usłudze Databricks (Repozytoria)
Dowiedz się, jak set foldery Git usługi Databricks (dawniej Repos) w celu kontroli wersji. Po set folderów Git w usłudze Databricks możesz wykonywać typowe operacje git, takie jak klonowanie, wyewidencjonowanie, zatwierdzanie, wypychanie, ściąganie i zarządzanie gałęzią z poziomu interfejsu użytkownika usługi Databricks. Różnice między zmianami można również zobaczyć podczas tworzenia za pomocą notesów i plików w usłudze Databricks.
Konfigurowanie ustawień użytkownika
Foldery usługi Git usługi Databricks używają osobistego tokenu dostępu (PAT) lub równoważnego poświadczenia do uwierzytelniania u dostawcy usługi Git w celu wykonywania operacji, takich jak klonowanie, wypychanie, ściąganie itp. Aby korzystać z folderów Git, musisz najpierw dodać swoją nazwę użytkownika dostawcy i pat usługi Git do usługi Databricks. Zobacz Skonfiguruj Git credentials & połącz zdalne repozytorium z Azure Databricks.
Publiczne repozytoria zdalne można sklonować bez usługi Git credentials (osobisty token dostępu i nazwa użytkownika). Aby zmodyfikować publiczne repozytorium zdalne lub sklonować lub zmodyfikować prywatne repozytorium zdalne, musisz mieć nazwę użytkownika dostawcy usługi Git i pat z uprawnieniami zapisu (lub większego) dla repozytorium zdalnego.
Foldery Git są domyślnie włączone. Aby uzyskać więcej informacji na temat włączania lub wyłączania obsługi folderów Git, zobacz Włączanie lub wyłączanie funkcji folderu Git usługi Databricks.
Dodaj lub edytuj Git credentials w usłudze Databricks
Ważne
Foldery Usługi Git usługi Databricks obsługują tylko jedno poświadczenie Git na użytkownika, na obszar roboczy.
Select strzałkę w dół obok nazwy konta w prawym górnym rogu ekranu, a następnie selectUstawienia.
Select kartę Połączone konta.
Jeśli po raz pierwszy dodasz credentials, postępuj zgodnie z instrukcjami wyświetlanymi na ekranie.
Jeśli wcześniej wprowadziłeś credentials, kliknij Konfiguracja>Edytuj i przejdź dalej.
W menu rozwijanym dostawców Git, wybierz nazwę dostawcy select.
Wprowadź nazwę użytkownika lub adres e-mail usługi Git.
W polu tokenu
dodaj osobisty token dostępu (PAT) lub inny od dostawcy usługi Git. Aby uzyskać szczegółowe informacje, zobacz Configure Git credentials & connect a remote repo to Azure Databricks Ważne
Usługa Databricks zaleca set datę wygaśnięcia wszystkich osobistych tokenów dostępu.
W przypadku usługi Azure DevOps, jeśli nie wprowadzisz tokenu lub hasła aplikacji, integracja z usługą Git domyślnie używa tokenu identyfikatora Entra firmy Microsoft. Jeśli wprowadzisz osobisty token dostępu usługi Azure DevOps, integracja z usługą Git używa go zamiast tego. Zobacz Nawiązywanie połączenia z repozytorium usługi Azure DevOps przy użyciu tokenu.
Uwaga
Po update hasła platformy Azure ponownie uwierzytelnij się w usłudze Azure Databricks, jeśli potrzebujesz nowego uwierzytelniania, aby od razu pracować. Jeśli nie wykonasz ponownego uwierzytelniania, połączenie usługi Azure DevOps może nie zostać zweryfikowane przez maksymalnie 24 godziny.
Jeśli Twoja organizacja ma włączone logowanie jednokrotne SAML w usłudze GitHub, autoryzuj osobisty token dostępu do logowania jednokrotnego.
Wprowadź nazwę użytkownika w polu Nazwa użytkownika dostawcy usługi Git.
Kliknij przycisk Zapisz.
Możesz również zapisać token pat usługi Git i nazwę użytkownika w usłudze Azure Databricks przy użyciu interfejsu API usługi Databricks Repos.
Jeśli nie możesz sklonować repozytorium i używasz usługi Azure DevOps z uwierzytelnianiem identyfikatora Entra firmy Microsoft, zobacz Problem z zasadami dostępu warunkowego (CAP) dla identyfikatora Entra firmy Microsoft.
Łączność sieciowa między folderami Git usługi Databricks i dostawcą usługi Git
Foldery Git wymagają łączności sieciowej z dostawcą usługi Git, aby działały. Zazwyczaj jest to przez Internet i działa z pudełka. Możesz jednak set dodatkowe ograniczenia dotyczące dostawcy usługi Git w celu kontrolowania dostępu. Na przykład możesz mieć regułę zezwalającą na IP list lub hostować własny lokalny serwer Git, korzystając z usług takich jak GitHub Enterprise (GHE), Bitbucket Server (BBS) lub Gitlab Self-managed. W zależności od hostingu i konfiguracji sieci serwer Git może być niedostępny za pośrednictwem Internetu.
Uwaga
- Jeśli serwer Git jest dostępny w Internecie, ale ma listę dozwolonych adresów IP, taką jak listy dozwolonych usługi GitHub, musisz dodać adresy IP nat płaszczyzny sterowania usługi Azure Databricks do listy dozwolonych adresów IP serwera Git. Zobacz regiony usługi Azure Databricks, aby uzyskać list listę adresów IP NAT płaszczyzny sterowania według regionu. Użyj adresu IP dla regionu, w którym znajduje się obszar roboczy usługi Azure Databricks.
- Jeśli prywatnie hostujesz serwer Git, przeczytaj Set jak skonfigurować prywatną łączność z Git dla repozytoriów Git w usłudze Azure Databricks lub skontaktuj się z zespołem wsparcia Azure Databricks, aby uzyskać instrukcje dotyczące uzyskiwania dostępu.
Funkcje zabezpieczeń w folderach Git
Foldery Usługi Git usługi Databricks mają wiele funkcji zabezpieczeń. W poniższych sekcjach przedstawiono sposób ich konfigurowania i używania:
- Korzystanie z zaszyfrowanego Git credentials
- Lista dozwolonych
- Kontrola dostępu do obszaru roboczego
- Rejestrowanie inspekcji
- Wykrywanie wpisów tajnych
Bring your own key: Szyfruj Git credentials
Usługa Azure Key Vault umożliwia szyfrowanie osobistego tokenu dostępu usługi Git lub innego poświadczenia usługi Git. Użycie klucza z usługi szyfrowania jest nazywane kluczem zarządzanym przez klienta (CMK) lub użyciem własnego klucza (BYOK).
Aby uzyskać więcej informacji, zobacz Klucze zarządzane przez klienta na potrzeby szyfrowania.
Ogranicz użycie do dozwolonych adresów URL w list
Jeśli używasz identyfikatora Entra firmy Microsoft do uwierzytelniania w usłudze Azure DevOps, domyślne zezwalanie na list ogranicza adresy URL usługi Git do:
- dev.azure.com
- visualstudio.com
W przypadku usługi AAD z niestandardowymi aliasami CNAMES lub aliasami Git URL, administrator obszaru roboczego może skonfigurować niestandardowe zezwolenie list, jak przedstawiono w poniższych krokach. Jeśli używasz niestandardowego zezwalania na list, administrator obszaru roboczego musi dodać te adresy URL, jeśli chcesz z nimi pracować: dev.azure.com
i visualstudio.com
.
Administrator obszaru roboczego może limit, z których repozytoriów zdalnych użytkownicy mogą klonować i zatwierdzać & wypchnięcia. Pomaga to zapobiec eksfiltracji kodu; na przykład użytkownicy nie mogą wypychać zmian w kodzie do dowolnego repozytorium, jeśli włączono ograniczenia oznaczone jako list. Można również uniemożliwić użytkownikom korzystanie z kodu bez licencji, ograniczając operację klonowania do list dozwolonych repozytoriów.
Aby uruchomić set i zezwolić na list:
Przejdź do strony ustawień.
Kliknij kartę Administrator obszaru roboczego (jest ona domyślnie otwarta).
W sekcji Development wybierz opcję Adres URL usługi Git zezwalaj na list uprawnień:
- Wyłączone (bez ograniczeń): nie ma żadnych kontroli względem dozwolonych list.
- Ogranicz klonowanie, zatwierdzanie & push do dozwolonych repozytoriów Git: Operacje klonowania, zatwierdzania i push są dozwolone tylko dla adresów URL repozytoriów w dozwolonej liście list.
- pl-PL: Ogranicz tylko zatwierdzanie & i wypychanie do dozwolonych repozytoriów Git: operacje zatwierdzania i wypychania są dozwolone tylko dla adresów URL repozytorium w listdozwolonych. Operacje klonowania i ściągania nie są ograniczone.
Kliknij przycisk Edytuj
obok adres URL usługi Git zezwala na i wprowadź rozdzielone przecinkami: pusty prefiksów adresów URL. Kliknij przycisk Zapisz.
Uwaga
- Zapisany list nadpisuje istniejące set zapisanych prefiksów adresów URL.
- Wprowadzenie zmian może potrwać do 15 minut.
Zezwalaj na dostęp do wszystkich repozytoriów
Aby wyłączyć istniejącą regułę list i zezwolić na dostęp do wszystkich repozytoriów, należy:
- Przejdź do strony ustawień.
- Kliknij kartę Administrator obszaru roboczego.
- W sekcji Development w obszarze Git URL zezwalaj na list uprawnienia: selectWyłącz (bez ograniczeń).
Kontrolowanie dostępu do repozytorium w obszarze roboczym
Uwaga
Kontrola dostępu jest dostępna tylko w planie Premium.
Set uprawnienia do repozytorium w celu kontrolowania dostępu. Uprawnienia do repozytorium mają zastosowanie do całej zawartości w tym repozytorium. Do plików można przypisać pięć poziomów uprawnień: BRAK UPRAWNIEŃ, MOŻE ODCZYTYWAĆ, MOŻNA URUCHAMIAĆ, EDYTOWAĆ I ZARZĄDZAĆ.
Aby uzyskać więcej informacji na temat uprawnień folderów usługi Git, zobacz Listy ACL folderów usługi Git.
(Opcjonalnie) Set serwera proxy dla serwerów Git przedsiębiorstwa
Jeśli Twoja firma korzysta z lokalnej usługi Git przedsiębiorstwa, takiej jak GitHub Enterprise lub Azure DevOps Server, możesz użyć serwera proxy usługi Git Server usługi Databricks, aby połączyć obszary robocze usługi Databricks z obsługiwanymi repozytoriami.
Rejestrowanie inspekcji
Po włączeniu rejestrowania inspekcji zdarzenia inspekcji są rejestrowane podczas interakcji z folderem Git. Na przykład zdarzenie audytu jest rejestrowane, gdy tworzysz, updatelub usuwasz folder Git, gdy list wszystkie foldery Git skojarzone z obszarem roboczym, oraz gdy sync zmiany między swoim folderem Git a zdalnym repozytorium Git.
Wykrywanie wpisów tajnych
Foldery Git skanują kod pod kątem identyfikatorów kluczy dostępu rozpoczynających się od prefiksu AKIA
i ostrzegają użytkownika przed zatwierdzeniem.
Używanie pliku konfiguracji repozytorium
Możesz dodać ustawienia dla każdego notesu do repozytorium w pliku utworzonym .databricks/commit_outputs
ręcznie.
Określ notes, który ma zawierać dane wyjściowe przy użyciu wzorców podobnych do wzorców gitignore.
Wzorce dla pliku konfiguracji repozytorium
Plik zawiera dodatnie i ujemne wzorce ścieżek plików. Wzorce ścieżek plików obejmują rozszerzenie pliku notesu, takie jak .ipynb
.
- Wzorce dodatnie umożliwiają dołączanie danych wyjściowych do pasujących notesów.
- Wzorce ujemne wyłączają dołączanie danych wyjściowych dla pasujących notesów.
Wzorce są oceniane w kolejności dla wszystkich notesów. Nieprawidłowe ścieżki lub ścieżki, które nie są rozpoznawane w .ipynb
notesach, są ignorowane.
Aby uwzględnić dane wyjściowe ze ścieżkifolder/innerfolder/notebook.ipynb
notesu, użyj następujących wzorców:
**/*
folder/**
folder/innerfolder/note*
Aby wykluczyć dane wyjściowe dla notesu, sprawdź, czy żaden z wzorców dodatnich nie pasuje do żadnego z wzorców dodatnich lub dodaj negatywny wzorzec we właściwym miejscu pliku konfiguracji. Wzorce ujemne (wykluczanie) zaczynają się od !
:
!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb
Przenoszenie folderu Git do kosza (usuwanie)
Aby usunąć folder Git z obszaru roboczego:
Kliknij prawym przyciskiem myszy folder Git, a następnie selectPrzenieś do kosza.
W oknie dialogowym wpisz nazwę folderu Git, który chcesz usunąć. Następnie kliknij pozycję Potwierdź i przenieś do kosza.
Następne kroki
- Uruchamianie operacji git w folderach Git usługi Databricks (Repozytoria)
- Co to są pliki obszaru roboczego?
- Techniki ciągłej integracji/ciągłego wdrażania z folderami Git i Databricks Git (Repos)
- Set prywatna łączność Git dla repozytoriów Git usługi Azure Databricks
- Uruchamianie pierwszego zadania dbt z folderami Git