Udostępnij za pośrednictwem


Wprowadzenie do obiektów obszaru roboczego

Ten artykuł zawiera ogólne wprowadzenie do obiektów obszaru roboczego usługi Azure Databricks. Obiekty obszarów roboczych można tworzyć, wyświetlać i organizować w przeglądarce obszarów roboczych między osobami.

Uwaga dotycząca nazewnictwa zasobów obszaru roboczego

Pełna nazwa zasobu obszaru roboczego składa się z jego podstawowej nazwy i rozszerzenia pliku. Na przykład rozszerzenie pliku notesu może być .py, .sql, .scala.r, i .ipynb w zależności od języka i formatu notesu.

Podczas tworzenia zasobu notesu jego nazwa podstawowa i jego pełna nazwa (nazwa podstawowa połączona z rozszerzeniem pliku) musi być unikatowa w dowolnym folderze obszaru roboczego. Podczas nadawania nazwy elementu zawartości usługa Databricks sprawdza, czy spełnia te kryteria, dodając do niego rozszerzenie pliku. Jeśli pełna nazwa pasuje do istniejącego pliku w folderze, ta nazwa jest niedozwolona i musisz wybrać nową nazwę notesu. Jeśli na przykład spróbujesz utworzyć notes języka Python (w formacie źródłowym języka Python) o nazwie test w tym samym folderze co plik języka Python o nazwie test.py, nie będzie on dozwolony.

Klastrów

Usługa Azure Databricks Nauka o danych & Engineering and Databricks Mosaic AI clusters udostępnia ujednoliconą platformę dla różnych przypadków użycia, takich jak uruchamianie produkcyjnych potoków ETL, analiza przesyłania strumieniowego, analiza ad hoc i uczenie maszynowe. Klaster jest typem zasobu obliczeniowego usługi Azure Databricks. Inne typy zasobów obliczeniowych obejmują magazyny SQL usługi Azure Databricks.

Aby uzyskać szczegółowe informacje na temat zarządzania klastrami i korzystania z tych klastrów, zobacz Obliczenia.

Notebooki

Notes to internetowy interfejs zawierający dokumenty zawierające serię komórek z możliwością uruchamiania (poleceń), które działają na plikach i tabelach, wizualizacjach i tekście narracji. Polecenia można uruchamiać w sekwencji, odwołując się do danych wyjściowych jednego lub kilku poprzednio uruchamianych poleceń.

Notesy są jednym z mechanizmów uruchamiania kodu w usłudze Azure Databricks. Innym mechanizmem są zadania.

Aby uzyskać szczegółowe informacje na temat zarządzania notesami i używania ich, zobacz Wprowadzenie do notesów usługi Databricks.

Zadania

Zadania to jeden mechanizm uruchamiania kodu w usłudze Azure Databricks. Drugi mechanizm to notesy.

Aby uzyskać szczegółowe informacje na temat zarządzania zadaniami i używania ich, zobacz Planowanie i organizowanie przepływów pracy.

Biblioteki

Biblioteka udostępnia kod innej firmy lub lokalnie notesom i zadaniam uruchomionym w klastrach.

Aby uzyskać szczegółowe informacje na temat zarządzania bibliotekami i używania ich, zobacz Biblioteki.

Dane

Dane można zaimportować do rozproszonego systemu plików zainstalowanego w obszarze roboczym usługi Azure Databricks i pracować z nim w notesach i klastrach usługi Azure Databricks. Do uzyskiwania dostępu do danych można również użyć szerokiej gamy źródeł danych platformy Apache Spark.

Aby uzyskać szczegółowe informacje na temat ładowania danych, zobacz Pozyskiwanie danych do usługi Databricks Lakehouse.

Pliki

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

W środowisku Databricks Runtime 11.3 LTS i nowszym można tworzyć i używać dowolnych plików w obszarze roboczym usługi Databricks. Pliki mogą być dowolnym typem pliku. Typowe przykłady typów plików obejmują:

  • .py pliki używane w modułach niestandardowych.
  • .md pliki, takie jak README.md.
  • .csv lub inne małe pliki danych.
  • .txt Pliki.
  • Pliki dziennika.

Aby uzyskać szczegółowe informacje na temat korzystania z plików, zobacz Praca z plikami w usłudze Azure Databricks. Aby uzyskać informacje o sposobie używania plików do modularyzacji kodu podczas opracowywania za pomocą notesów usługi Databricks, zobacz Udostępnianie kodu między notesami usługi Databricks

Foldery Git

Foldery Git to foldery usługi Azure Databricks, których zawartość jest współwymiarowa, synchronizując je ze zdalnym repozytorium Git. Przy użyciu folderów Usługi Git usługi Databricks można tworzyć notesy w usłudze Azure Databricks i używać zdalnego repozytorium Git do współpracy i kontroli wersji.

Aby uzyskać szczegółowe informacje na temat korzystania z repozytoriów, zobacz Integracja z usługą Git dla folderów Git usługi Databricks.

Modele

Model odnosi się do modelu zarejestrowanego w rejestrze modeli MLflow. Rejestr modeli to scentralizowany magazyn modeli, który umożliwia zarządzanie pełnym cyklem życia modeli MLflow. Zapewnia on chronologiczną pochodzenie modelu, przechowywanie wersji modelu, przejścia etapu oraz adnotacje i adnotacje wersji modelu oraz opisy.

Aby uzyskać szczegółowe informacje na temat zarządzania modelami i używania ich, zobacz Zarządzanie cyklem życia modelu w wykazie aparatu Unity.

Eksperymenty

Eksperyment MLflow to podstawowa jednostka organizacji i kontroli dostępu do przebiegów trenowania modelu uczenia maszynowego MLflow. Wszystkie przebiegi MLflow należą do eksperymentu. Każdy eksperyment umożliwia wizualizowanie, wyszukiwanie i porównywanie przebiegów oraz pobieranie i uruchamianie artefaktów lub metadanych na potrzeby analizy w innych narzędziach.

Aby uzyskać szczegółowe informacje na temat zarządzania eksperymentami i używania ich, zobacz Organizowanie przebiegów trenowania za pomocą eksperymentów MLflow.

Zapytania

Zapytania to instrukcje SQL, które umożliwiają interakcję z danymi. Aby uzyskać więcej informacji, zobacz Uzyskiwanie dostępu do zapisanych zapytań i zarządzanie nimi.

Pulpity nawigacyjne

Pulpity nawigacyjne to prezentacje wizualizacji zapytań i komentarzy. Zobacz Pulpity nawigacyjne lub starsze pulpity nawigacyjne.

Alerty

Alerty to powiadomienia, które pole zwrócone przez zapytanie osiągnęło próg. Aby uzyskać więcej informacji, zobacz Co to są alerty SQL usługi Databricks?.

Odwołania do obiektów obszaru roboczego

W przeszłości użytkownicy musieli uwzględnić /Workspace prefiks ścieżki dla niektórych interfejsów API usługi Databricks (%sh), ale nie dla innych (%rundane wejściowe interfejsu API REST).

Użytkownicy mogą używać ścieżek obszaru roboczego z prefiksem /Workspace wszędzie. Stare odwołania do ścieżek bez prefiksu /Workspace są przekierowywane i nadal działają. Zalecamy, aby wszystkie ścieżki obszaru roboczego /Workspace zawierały prefiks, aby odróżnić je od ścieżek woluminu i systemu plików DBFS.

Wymaganie wstępne zachowania prefiksu spójnej /Workspace ścieżki jest następujące: nie można mieć /Workspace folderu na poziomie głównym obszaru roboczego. Jeśli masz /Workspace folder na poziomie głównym i chcesz włączyć to ulepszenie środowiska użytkownika, usuń lub zmień nazwę utworzonego /Workspace folderu i skontaktuj się z zespołem konta usługi Azure Databricks.

Udostępnianie pliku, folderu lub adresu URL notesu

W obszarze roboczym usługi Azure Databricks adresy URL do plików obszarów roboczych, notesów i folderów są w formatach:

Adresy URL plików obszaru roboczego

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>

Adresy URL notesu

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>

Adresy URL folderów (obszarów roboczych i Git)

  https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>

Te linki mogą przerwać, jeśli dowolny folder, plik lub notes w bieżącej ścieżce zostanie zaktualizowany za pomocą polecenia ściągania usługi Git lub zostanie usunięty i utworzony ponownie o tej samej nazwie. Można jednak utworzyć link na podstawie ścieżki obszaru roboczego, aby udostępnić innym użytkownikom usługi Databricks odpowiednie poziomy dostępu, zmieniając go na link w tym formacie:

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>

Linki do folderów, notesów i plików można udostępniać, zastępując wszystko w adresie URL po ?o=<16-digit-workspace-ID> ścieżce do pliku, folderu lub notesu z katalogu głównego obszaru roboczego. Jeśli udostępniasz adres URL do folderu, usuń /browse/folders/<16-digit-ID> go również z oryginalnego adresu URL.

Aby uzyskać ścieżkę pliku, otwórz menu kontekstowe, klikając prawym przyciskiem myszy folder, notes lub plik w obszarze roboczym, który chcesz udostępnić, i wybierz polecenie Kopiuj adres URL/ścieżkę Pełna ścieżka>. #workspace Dodaj ciąg wynikowy przed skopiowaną ścieżką pliku i dołącz ciąg wynikowy po ?o=<16-digit-workspace-ID> wartości , tak aby był zgodny z powyższym formatem adresu URL.

Wybranie ścieżki Kopiuj adres URL, po której następuje pełna ścieżka z menu kontekstowego folderu obszaru roboczego.

Przykład formuły adresu URL nr 1: adresy URL folderów

Aby udostępnić adres URL https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222folderu obszaru roboczego, usuń podciąg browse/folders/1111111111111111 z adresu URL. Dodaj #workspace ścieżkę do folderu lub obiektu obszaru roboczego, który chcesz udostępnić.

W takim przypadku ścieżka obszaru roboczego to folder /Workspace/Users/user@example.com/team-git/notebooks. Po skopiowaniu pełnej ścieżki z obszaru roboczego możesz teraz utworzyć link do udostępniania:

  https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks

Przykład formułowania adresu URL 2: Adresy URL notesu

Aby udostępnić adres URL https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333notesu, usuń element #notebook/2222222222222222/command/3333333333333333. Dodaj #workspace ścieżkę do folderu lub obiektu obszaru roboczego.

W takim przypadku ścieżka obszaru roboczego wskazuje na notatnik, /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook. Po skopiowaniu pełnej ścieżki z obszaru roboczego możesz teraz utworzyć link do udostępniania:

  https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook

Teraz masz stabilny adres URL dla pliku, folderu lub ścieżki notesu do udostępnienia! Aby uzyskać więcej informacji na temat adresów URL i identyfikatorów, zobacz Pobieranie identyfikatorów dla obiektów obszaru roboczego.