Wprowadzenie do obiektów obszaru roboczego
Ten artykuł zawiera ogólne wprowadzenie do obiektów obszaru roboczego usługi Azure Databricks. Obiekty obszarów roboczych można tworzyć, wyświetlać i organizować w przeglądarce obszarów roboczych między osobami.
Uwaga dotycząca nazewnictwa zasobów obszaru roboczego
Pełna nazwa zasobu obszaru roboczego składa się z jego podstawowej nazwy i rozszerzenia pliku. Na przykład rozszerzenie pliku notesu może być .py
, .sql
, .scala
.r
, i .ipynb
w zależności od języka i formatu notesu.
Podczas tworzenia zasobu notesu jego nazwa podstawowa i jego pełna nazwa (nazwa podstawowa połączona z rozszerzeniem pliku) musi być unikatowa w dowolnym folderze obszaru roboczego. Podczas nadawania nazwy elementu zawartości usługa Databricks sprawdza, czy spełnia te kryteria, dodając do niego rozszerzenie pliku. Jeśli pełna nazwa pasuje do istniejącego pliku w folderze, ta nazwa jest niedozwolona i musisz wybrać nową nazwę notesu. Jeśli na przykład spróbujesz utworzyć notes języka Python (w formacie źródłowym języka Python) o nazwie test
w tym samym folderze co plik języka Python o nazwie test.py
, nie będzie on dozwolony.
Klastrów
Usługa Azure Databricks Nauka o danych & Engineering and Databricks Mosaic AI clusters udostępnia ujednoliconą platformę dla różnych przypadków użycia, takich jak uruchamianie produkcyjnych potoków ETL, analiza przesyłania strumieniowego, analiza ad hoc i uczenie maszynowe. Klaster jest typem zasobu obliczeniowego usługi Azure Databricks. Inne typy zasobów obliczeniowych obejmują magazyny SQL usługi Azure Databricks.
Aby uzyskać szczegółowe informacje na temat zarządzania klastrami i korzystania z tych klastrów, zobacz Obliczenia.
Notebooki
Notes to internetowy interfejs zawierający dokumenty zawierające serię komórek z możliwością uruchamiania (poleceń), które działają na plikach i tabelach, wizualizacjach i tekście narracji. Polecenia można uruchamiać w sekwencji, odwołując się do danych wyjściowych jednego lub kilku poprzednio uruchamianych poleceń.
Notesy są jednym z mechanizmów uruchamiania kodu w usłudze Azure Databricks. Innym mechanizmem są zadania.
Aby uzyskać szczegółowe informacje na temat zarządzania notesami i używania ich, zobacz Wprowadzenie do notesów usługi Databricks.
Zadania
Zadania to jeden mechanizm uruchamiania kodu w usłudze Azure Databricks. Drugi mechanizm to notesy.
Aby uzyskać szczegółowe informacje na temat zarządzania zadaniami i używania ich, zobacz Planowanie i organizowanie przepływów pracy.
Biblioteki
Biblioteka udostępnia kod innej firmy lub lokalnie notesom i zadaniam uruchomionym w klastrach.
Aby uzyskać szczegółowe informacje na temat zarządzania bibliotekami i używania ich, zobacz Biblioteki.
Dane
Dane można zaimportować do rozproszonego systemu plików zainstalowanego w obszarze roboczym usługi Azure Databricks i pracować z nim w notesach i klastrach usługi Azure Databricks. Do uzyskiwania dostępu do danych można również użyć szerokiej gamy źródeł danych platformy Apache Spark.
Aby uzyskać szczegółowe informacje na temat ładowania danych, zobacz Pozyskiwanie danych do usługi Databricks Lakehouse.
Pliki
Ważne
Ta funkcja jest dostępna w publicznej wersji zapoznawczej.
W środowisku Databricks Runtime 11.3 LTS i nowszym można tworzyć i używać dowolnych plików w obszarze roboczym usługi Databricks. Pliki mogą być dowolnym typem pliku. Typowe przykłady typów plików obejmują:
-
.py
pliki używane w modułach niestandardowych. -
.md
pliki, takie jakREADME.md
. -
.csv
lub inne małe pliki danych. -
.txt
Pliki. - Pliki dziennika.
Aby uzyskać szczegółowe informacje na temat korzystania z plików, zobacz Praca z plikami w usłudze Azure Databricks. Aby uzyskać informacje o sposobie używania plików do modularyzacji kodu podczas opracowywania za pomocą notesów usługi Databricks, zobacz Udostępnianie kodu między notesami usługi Databricks
Foldery Git
Foldery Git to foldery usługi Azure Databricks, których zawartość jest współwymiarowa, synchronizując je ze zdalnym repozytorium Git. Przy użyciu folderów Usługi Git usługi Databricks można tworzyć notesy w usłudze Azure Databricks i używać zdalnego repozytorium Git do współpracy i kontroli wersji.
Aby uzyskać szczegółowe informacje na temat korzystania z repozytoriów, zobacz Integracja z usługą Git dla folderów Git usługi Databricks.
Modele
Model odnosi się do modelu zarejestrowanego w rejestrze modeli MLflow. Rejestr modeli to scentralizowany magazyn modeli, który umożliwia zarządzanie pełnym cyklem życia modeli MLflow. Zapewnia on chronologiczną pochodzenie modelu, przechowywanie wersji modelu, przejścia etapu oraz adnotacje i adnotacje wersji modelu oraz opisy.
Aby uzyskać szczegółowe informacje na temat zarządzania modelami i używania ich, zobacz Zarządzanie cyklem życia modelu w wykazie aparatu Unity.
Eksperymenty
Eksperyment MLflow to podstawowa jednostka organizacji i kontroli dostępu do przebiegów trenowania modelu uczenia maszynowego MLflow. Wszystkie przebiegi MLflow należą do eksperymentu. Każdy eksperyment umożliwia wizualizowanie, wyszukiwanie i porównywanie przebiegów oraz pobieranie i uruchamianie artefaktów lub metadanych na potrzeby analizy w innych narzędziach.
Aby uzyskać szczegółowe informacje na temat zarządzania eksperymentami i używania ich, zobacz Organizowanie przebiegów trenowania za pomocą eksperymentów MLflow.
Zapytania
Zapytania to instrukcje SQL, które umożliwiają interakcję z danymi. Aby uzyskać więcej informacji, zobacz Uzyskiwanie dostępu do zapisanych zapytań i zarządzanie nimi.
Pulpity nawigacyjne
Pulpity nawigacyjne to prezentacje wizualizacji zapytań i komentarzy. Zobacz Pulpity nawigacyjne lub starsze pulpity nawigacyjne.
Alerty
Alerty to powiadomienia, które pole zwrócone przez zapytanie osiągnęło próg. Aby uzyskać więcej informacji, zobacz Co to są alerty SQL usługi Databricks?.
Odwołania do obiektów obszaru roboczego
W przeszłości użytkownicy musieli uwzględnić /Workspace
prefiks ścieżki dla niektórych interfejsów API usługi Databricks (%sh
), ale nie dla innych (%run
dane wejściowe interfejsu API REST).
Użytkownicy mogą używać ścieżek obszaru roboczego z prefiksem /Workspace
wszędzie. Stare odwołania do ścieżek bez prefiksu /Workspace
są przekierowywane i nadal działają. Zalecamy, aby wszystkie ścieżki obszaru roboczego /Workspace
zawierały prefiks, aby odróżnić je od ścieżek woluminu i systemu plików DBFS.
Wymaganie wstępne zachowania prefiksu spójnej /Workspace
ścieżki jest następujące: nie można mieć /Workspace
folderu na poziomie głównym obszaru roboczego. Jeśli masz /Workspace
folder na poziomie głównym i chcesz włączyć to ulepszenie środowiska użytkownika, usuń lub zmień nazwę utworzonego /Workspace
folderu i skontaktuj się z zespołem konta usługi Azure Databricks.
Udostępnianie pliku, folderu lub adresu URL notesu
W obszarze roboczym usługi Azure Databricks adresy URL do plików obszarów roboczych, notesów i folderów są w formatach:
Adresy URL plików obszaru roboczego
https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>
Adresy URL notesu
https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>
Adresy URL folderów (obszarów roboczych i Git)
https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>
Te linki mogą przerwać, jeśli dowolny folder, plik lub notes w bieżącej ścieżce zostanie zaktualizowany za pomocą polecenia ściągania usługi Git lub zostanie usunięty i utworzony ponownie o tej samej nazwie. Można jednak utworzyć link na podstawie ścieżki obszaru roboczego, aby udostępnić innym użytkownikom usługi Databricks odpowiednie poziomy dostępu, zmieniając go na link w tym formacie:
https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>
Linki do folderów, notesów i plików można udostępniać, zastępując wszystko w adresie URL po ?o=<16-digit-workspace-ID>
ścieżce do pliku, folderu lub notesu z katalogu głównego obszaru roboczego. Jeśli udostępniasz adres URL do folderu, usuń /browse/folders/<16-digit-ID>
go również z oryginalnego adresu URL.
Aby uzyskać ścieżkę pliku, otwórz menu kontekstowe, klikając prawym przyciskiem myszy folder, notes lub plik w obszarze roboczym, który chcesz udostępnić, i wybierz polecenie Kopiuj adres URL/ścieżkę Pełna ścieżka>.
#workspace
Dodaj ciąg wynikowy przed skopiowaną ścieżką pliku i dołącz ciąg wynikowy po ?o=<16-digit-workspace-ID>
wartości , tak aby był zgodny z powyższym formatem adresu URL.
Przykład formuły adresu URL nr 1: adresy URL folderów
Aby udostępnić adres URL https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222
folderu obszaru roboczego, usuń podciąg browse/folders/1111111111111111
z adresu URL. Dodaj #workspace
ścieżkę do folderu lub obiektu obszaru roboczego, który chcesz udostępnić.
W takim przypadku ścieżka obszaru roboczego to folder /Workspace/Users/user@example.com/team-git/notebooks
. Po skopiowaniu pełnej ścieżki z obszaru roboczego możesz teraz utworzyć link do udostępniania:
https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks
Przykład formułowania adresu URL 2: Adresy URL notesu
Aby udostępnić adres URL https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333
notesu, usuń element #notebook/2222222222222222/command/3333333333333333
. Dodaj #workspace
ścieżkę do folderu lub obiektu obszaru roboczego.
W takim przypadku ścieżka obszaru roboczego wskazuje na notatnik, /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook
. Po skopiowaniu pełnej ścieżki z obszaru roboczego możesz teraz utworzyć link do udostępniania:
https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook
Teraz masz stabilny adres URL dla pliku, folderu lub ścieżki notesu do udostępnienia! Aby uzyskać więcej informacji na temat adresów URL i identyfikatorów, zobacz Pobieranie identyfikatorów dla obiektów obszaru roboczego.