Udostępnij za pośrednictwem


Co się stało z repozytoriami usługi Databricks?

Usługa Azure Databricks wprowadziła nowe elementy interfejsu użytkownika, które umożliwiają użytkownikom bezpośrednią pracę z folderami opartymi na repozytorium Git z poziomu interfejsu użytkownika obszaru roboczego, co skutecznie zastępuje poprzednie, oddzielne funkcje funkcji "Repozytoria".

Co to oznacza dla mnie zmiana?

Jeśli jesteś użytkownikiem funkcji repozytoriów usługi Databricks na potrzeby wspólnej kontroli źródła opartej na usłudze Git nad elementami zawartości projektu, podstawowe funkcje nie uległy zmianie. Najbardziej godną uwagi różnicą jest to, że wiele kontekstowych operacji interfejsu użytkownika odwołuje się teraz do "folderów Git", a nie "Repozytoria".

Na przykład folder usługi Databricks wspierany przez repozytorium Git można utworzyć, wybierając pozycję Nowy , a następnie pozycję Repozytorium w interfejsie użytkownika:

Opcja menu

Teraz wybierz pozycję Nowy i wybierz pozycję Folder Git. To samo, inna nazwa!

Opcja menu

Ta zmiana zapewnia pewne ulepszenia upraszczające pracę z folderami kontrolowanymi wersjami:

  1. Lepsza organizacja folderów: foldery Git można tworzyć na dowolnym poziomie drzewa plików obszaru roboczego, co pozwala organizować foldery Git w sposób, który najlepiej sprawdza się w projekcie. Możesz na przykład utworzyć foldery Git w witrynie /Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>. Repozytoria można tworzyć tylko na stałym poziomie katalogu, na przykład katalogu głównego folderu użytkownika Repozytoria, takiego jak /Workspace/Repos/<user email>/<Repo name>.
    • Uwaga: foldery Git mogą zawierać lub sortować inne zasoby, które nie są obecnie obsługiwane przez repozytoria. Nieobsługiwane typy zasobów, takie jak zasoby DBSQL i eksperymenty MLflow, można przenosić do folderów Git. Obsługa serializacji dodatkowych zasobów zostanie dodana w czasie.
  2. Uproszczone zachowania interfejsu użytkownika: Ta zmiana powoduje wspólną interakcję obszaru roboczego z usługą Git bezpośrednio w obszarze roboczym usługi Databricks i skraca czas nawigowania między obszarem roboczym a folderami Git kontrolowanymi wersjami.

Co się zmieniło, w szczególności?

  1. Foldery Git można tworzyć poza katalogami /Repos .
  2. Foldery Git są tworzone przez wybranie pozycji Nowy>folder Git w obszarze roboczym usługi Databricks. Spowoduje to utworzenie nowego folderu Git w folderze /Workspace/Users/<user-email>/.
  3. Foldery Git można tworzyć w różnych głębiach drzewa plików obszaru roboczego, o ile znajdują się w obszarze /Workspace/Users/<user-email>. Możesz na przykład utworzyć foldery Git w witrynie /Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name>. W obszarze /Workspace/Users/<user-email>można mieć wiele folderów Git.
  4. Nieobsługiwane zasoby są dozwolone w folderach Git. Obsługa serializacji dla innych typów zasobów zostanie dodana w czasie.
  5. W przeciwieństwie do repozytoriów, nie można utworzyć nowego folderu Git w usłudze Databricks bez adresu URL repozytorium zdalnego.

Co się stanie z moimi bieżącymi repozytoriami?

Jeśli masz repozytoria zdefiniowane dla obszaru roboczego usługi Azure Databricks, nie są one odejścia i nie musisz migrować istniejących repozytoriów do folderów Git. Zamiast tego repozytoria zostały zintegrowane z interfejsem użytkownika obszaru roboczego usługi Azure Databricks i nie są już prezentowane jako oddzielny zestaw folderów zorganizowanych w węźle repozytorium najwyższego poziomu. Można je teraz znaleźć w folderze /Workspace głównym jako /Workspace/Repos.

  • Istniejące /Repos odwołania będą nadal działać. Ścieżki rozpoczynające się od /Repos tego samego folderu lub /Workspace/Repos odwołujące się do tego samego folderu, a zadeklarowane ścieżki w jobsdbutils.notebook.runpliku i %run odwołania mogą pozostać niezmienione.
  • W rzadkich przypadkach należy wprowadzić jednorazową modyfikację w obszarze roboczym, aby to przekierowanie działało. Aby uzyskać więcej informacji na temat tej modyfikacji, zobacz Odwołania do obiektów obszaru roboczego.

Usługa Databricks zaleca użytkownikom tworzenie nowych folderów Git zamiast repozytoriów, jeśli muszą nawiązać połączenie z kontrolą źródła usługi Git z obszaru roboczego usługi Databricks. Kolokowanie repozytoriów Git i innych zasobów obszarów roboczych sprawia, że foldery Git są bardziej wykrywalne i łatwiejsze do zarządzania niż repozytoria.

Uprawnienia folderów git foldery Git mają te same uprawnienia folderu obszaru roboczego co inne foldery obszaru roboczego. Użytkownicy muszą mieć CAN_MANAGE uprawnienia, aby wykonywać większość operacji usługi Git.

Którego DBR należy użyć do uruchamiania kodu w folderach Git?

Aby zapewnić spójne wykonywanie kodu między folderami Git i starszymi repozytoriami, usługa Databricks zaleca użytkownikom uruchamianie kodu tylko w folderach Git z DBR 15+.

Bieżące zachowanie katalogu roboczego (CWD)

Środowisko Databricks Runtime (DBR) w wersji 14 lub nowszej umożliwia korzystanie ze ścieżek względnych i zapewnia to samo bieżące środowisko katalogu roboczego (CWD) dla wszystkich notesów, w których uruchamiasz notes z bieżącego katalogu roboczego. Bieżące zachowania katalogu roboczego (CWD) mogą być niespójne między notesami w folderze Git i folderem spoza usługi Git dla starszych wersji środowiska Databricks Runtime (DBR).

Zachowanie sys.path języka Python

Środowisko Databricks Runtime (DBR) w wersji 14.3 lub nowszej zapewnia takie samo sys.path zachowanie w folderach Git, jak w starszych repozytoriach. W przypadku wcześniejszych wersji DBR zachowanie folderu Git różni się od starszych repozytoriów, ponieważ katalog repozytorium głównego nie jest automatycznie dodawany do sys.path folderu Git. W przypadku języka Python sys.path zawiera listę katalogów, które interpreter wyszukuje podczas importowania modułów. Jeśli nie możesz użyć wersji DBR 15 lub nowszej, możesz ręcznie dołączyć ścieżkę folderu do sys.path jako obejście problemu.

Przykłady dotyczące dodawania katalogów do sys.path używania ścieżek względnych można znaleźć w temacie Import Python and R modules (Importowanie modułów python i R).

Pierwszeństwo biblioteki języka Python

Środowisko Databricks Runtime (DBR) w wersji 14.3 lub nowszej zapewnia ten sam priorytet biblioteki języka Python w folderach Git, co w starszych repozytoriach.