Pojęcia dotyczące usługi Azure Databricks

Artykuł
03/05/2025

W tym artykule przedstawiono podstawowe pojęcia, które należy zrozumieć, aby efektywnie korzystać z usługi Azure Databricks.

Konta i obszary robocze

W usłudze Azure Databricks obszar roboczy to wdrożenie usługi Azure Databricks w chmurze, które działa jako środowisko dla twojego zespołu w celu uzyskania dostępu do zasobów usługi Databricks. Twoja organizacja może wybrać wiele obszarów roboczych lub tylko jeden, w zależności od potrzeb.

Konto usługi Azure Databricks reprezentuje jedną jednostkę, która może zawierać wiele obszarów roboczych. Konta z włączonym Katalogiem Unity mogą być używane do centralnego zarządzania użytkownikami oraz ich dostępem do danych we wszystkich obszarach roboczych na koncie.

Rozliczenia: jednostki obliczeniowe Databricks (jednostki DBU)

Opłaty za usługę Azure Databricks są naliczane na podstawie jednostek Databricks (DBU), które są jednostkami mocy przetwarzania na godzinę na podstawie typu instancji maszyny wirtualnej.

Zobacz stronę cennika usługi Azure Databricks.

Uwierzytelnianie i autoryzacja

W tej sekcji opisano pojęcia, które należy znać podczas zarządzania tożsamościami usługi Azure Databricks i ich dostępem do zasobów usługi Azure Databricks.

Użytkownik

Unikatowa osoba, która ma dostęp do systemu. Tożsamości użytkowników są reprezentowane przez adresy e-mail. Zobacz Zarządzanie użytkownikami.

Podmiot usługi

Tożsamość usługi do wykorzystania z zadaniami, zautomatyzowanymi narzędziami i systemami, takimi jak skrypty, aplikacje i platformy CI/CD. Jednostki usługi są reprezentowane przez identyfikator aplikacji. Zobacz Zarządzanie podmiotami usługi.

Grupa

Kolekcja tożsamości. Grupy upraszczają zarządzanie tożsamościami, ułatwiając przypisywanie dostępu do obszarów roboczych, danych i innych zabezpieczanych obiektów. Wszystkie tożsamości usługi Databricks można przypisać do grup. Zobacz Zarządzanie grupami.

Lista kontroli dostępu (ACL)

Lista uprawnień dołączonych do obszaru roboczego, klastra, zadania, tabeli lub eksperymentu. Lista ACL określa, którzy użytkownicy lub procesy systemowe otrzymują dostęp do obiektów, a także jakie operacje są dozwolone w zasobach. Każdy wpis w typowej liście ACL określa temat i operację. Zobacz Listy kontroli dostępu.

Osobisty token dostępu (PAT)

Osobisty token dostępu to ciąg znaków używanych do uwierzytelniania wywołań interfejsu API REST, połączeń z partnerami technologicznymi oraz innych narzędzi. Zobacz Uwierzytelnianie osobistego tokenu dostępu w usłudze Azure Databricks.

Tokeny identyfikatora Entra firmy Microsoft mogą być również używane do uwierzytelniania w interfejsie API REST.

Interfejsy usługi Azure Databricks

W tej sekcji opisano interfejsy uzyskiwania dostępu do zasobów w usłudze Azure Databricks.

UI

Interfejs użytkownika usługi Azure Databricks to graficzny interfejs umożliwiający interakcję z funkcjami, takimi jak foldery obszaru roboczego i zawarte w nich obiekty, obiekty danych i zasoby obliczeniowe.

API REST

Interfejs API REST usługi Databricks udostępnia punkty końcowe do modyfikowania lub żądania informacji o koncie usługi Azure Databricks i obiektach obszaru roboczego. Zobacz dokumentację konta i dokumentację obszaru roboczego.

SQL REST API

Interfejs API REST SQL umożliwia automatyzowanie zadań na obiektach SQL. Zobacz API SQL.

CLI

Interfejs Databricks CLI jest hostowany na GitHub. Interfejs wiersza polecenia został zbudowany na bazie REST API Databricks.

Zarządzanie danymi

W tej sekcji opisano narzędzia i obiekty logiczne używane do organizowania i zarządzania danymi w usłudze Azure Databricks. Zobacz obiekty usługi Database w usłudze Azure Databricks.

Katalog Unity

Unity Catalog to ujednolicone rozwiązanie do zarządzania dla zasobów danych i sztucznej inteligencji w usłudze Azure Databricks, które zapewnia scentralizowaną kontrolę dostępu, inspekcję, śledzenie pochodzenia i odkrywanie danych w obszarach roboczych usługi Databricks. Zobacz Co to jest Unity Catalog?.

Katalog

Katalogi to kontenery najwyższego poziomu do organizowania i izolowania danych w usłudze Azure Databricks. Katalogi można udostępniać między obszarami roboczymi w tym samym regionie i na tym samym koncie. Zobacz Czym są katalogi w usłudze Azure Databricks?.

Schemat

Schematy, znane również jako bazy danych, są zawarte w wykazach i zapewniają bardziej szczegółowy poziom organizacji. Zawierają one obiekty bazy danych i zasoby sztucznej inteligencji, takie jak woluminy, tabele, funkcje i modele. Zobacz Co to są schematy w usłudze Azure Databricks?.

Stół

Tabele organizują i zarządzają dostępem do danych strukturalnych. Wykonujesz zapytania do tabel za pomocą Apache Spark SQL i API Apache Spark. Zobacz Co to jest tabela?.

Widok

Widok jest obiektem tylko do odczytu pochodzącym z jednej lub więcej tabel i widoków. Widoki zapisują zapytania zdefiniowane w odniesieniu do tabel. Zobacz Co to jest widok?.

Głośność

Woluminy reprezentują logiczny wolumin magazynu w chmurowym magazynie obiektów i organizują oraz zarządzają dostępem do danych nietabelarycznych. Usługa Databricks zaleca używanie woluminów do zarządzania wszystkimi dostępami do danych innych niż tabelaryczne w magazynie obiektów w chmurze. Zobacz Czym są woluminy katalogu Unity?.

Tabela delty

Domyślnie wszystkie tabele utworzone w usłudze Azure Databricks to tabele Delta. Tabele Delta są oparte na projekcie open source Delta Lake, strukturze do przechowywania tabel ACID o wysokiej wydajności w chmurowych magazynach obiektowych. Tabela Delta przechowuje dane w formie katalogu plików w chmurowym magazynie obiektów i rejestruje metadane tabeli w magazynie metadanych w ramach katalogu i schematu.

Dowiedz się więcej o technologiach marki Delta.

Magazyn metadanych

Unity Catalog udostępnia metastore na poziomie konta, który rejestruje metadane dotyczące danych, sztucznej inteligencji i uprawnień do katalogów, schematów i tabel. Zobacz Metastores.

Usługa Azure Databricks udostępnia starszy katalog metadanych Hive dla klientów, którzy nie przyjęli Unity Catalog. Zobacz Kontrola dostępu do tabel magazynu metadanych Hive (starsza wersja).

Eksplorator wykazu

Eksplorator wykazu umożliwia eksplorowanie danych i zasobów sztucznej inteligencji oraz zarządzanie nimi, w tym schematy (bazy danych), tabele, modele, woluminy (dane inne niż tabelaryczne), funkcje i zarejestrowane modele uczenia maszynowego. Służy do znajdowania obiektów danych i właścicieli, rozumienia relacji danych między tabelami oraz zarządzania uprawnieniami i udostępnianiem. Zobacz Co to jest Eksplorator katalogu?.

Katalog główny systemu plików DBFS.

Ważne

Przechowywanie i uzyskiwanie dostępu do danych przy użyciu DBFS root lub zamontowań DBFS jest przestarzałym wzorcem i nie jest zalecane przez Databricks. Zamiast tego Databricks zaleca użycie Unity Catalog do zarządzania dostępem do wszystkich danych. Zobacz Co to jest Unity Catalog?.

Katalog root DBFS jest domyślnie dostępny dla wszystkich użytkowników. Zobacz Co to jest DBFS?.

Zarządzanie obliczeniami

W tej sekcji opisano pojęcia, które należy wiedzieć, aby uruchamiać obliczenia w usłudze Azure Databricks.

Klaster

Zestaw zasobów obliczeniowych i konfiguracji, na których są uruchamiane notesy i zadania. Istnieją dwa typy klastrów: uniwersalne i zadaniowe. Zobacz Obliczenia.

Klaster ogólnego przeznaczenia jest tworzony przy użyciu interfejsu użytkownika, interfejsu wiersza polecenia lub interfejsu API REST. Działanie klastra ogólnego przeznaczenia można ręcznie przerwać i uruchomić ponownie. Wielu użytkowników może współużytkować takie klastry do interakcyjnej analizy.
Harmonogram zadań usługi Azure Databricks tworzy klaster zadań podczas uruchamiania zadania w nowym klastrze zadań i kończy klaster po zakończeniu zadania. Nie można ponownie uruchomić klastra zadań.

Pula

Zestaw niewykorzystywanych, ale gotowych do użycia instancji, które zmniejszają czas uruchamiania klastra i automatycznego skalowania. Po przypisaniu do puli klaster przydziela swoje węzły sterownika i robocze z puli. Zobacz Referencję konfiguracji puli.

Jeśli pula nie ma wystarczających wolnych zasobów, aby obsłużyć żądanie klastra, pula zostaje rozszerzona poprzez przydzielenie nowych instancji od dostawcy instancji. Po zakończeniu działania dołączonego klastra używane wystąpienia są zwracane do puli i mogą być ponownie używane przez inny klaster.

Środowisko uruchomieniowe usługi Databricks

Zestaw podstawowych składników uruchamianych w klastrach zarządzanych przez usługę Azure Databricks. Zobacz Obliczenia. Usługa Azure Databricks ma następujące runtime'y:

Środowisko Databricks Runtime obejmuje platformę Apache Spark, ale także dodaje wiele składników i aktualizacji, które znacząco zwiększają użyteczność, wydajność i bezpieczeństwo analizy danych big data.
Środowisko Databricks Runtime for Machine Learning jest oparte na środowisku Databricks Runtime i zapewnia wstępnie utworzoną infrastrukturę uczenia maszynowego zintegrowaną ze wszystkimi możliwościami obszaru roboczego usługi Azure Databricks. Zawiera wiele popularnych bibliotek, w tym TensorFlow, Keras, PyTorch i XGBoost.

Przepływy pracy

Interfejs użytkownika obszaru roboczego Przepływy zapewnia dostęp do interfejsów użytkownika Zadań i Potoków DLT, które są narzędziami umożliwiającymi orkiestrację i planowanie przepływów pracy.

Stanowiska

Nieinterakcyjny mechanizm organizowania i planowania notesów, bibliotek i innych zadań. Zobacz Omówienie orkiestracji w usłudze Databricks

Rurociągi

Potoki DLT zapewniają strukturę deklaratywną do tworzenia niezawodnych, konserwowalnych i testowalnych potoków przetwarzania danych. Zobacz Co to jest DLT?.

Obciążenie

Obciążenie to ilość możliwości przetwarzania potrzebnej do wykonania zadania lub grupy zadań. Usługa Azure Databricks identyfikuje dwa typy obciążeń: inżynieria danych (zadanie) i analiza danych (ogólne przeznaczenie).

Inżynieria danych (zautomatyzowane) zadanie jest uruchamiane w klastrze zadań, który harmonogram zadań usługi Azure Databricks tworzy dla każdego zadania.
Analiza danych Interaktywne obciążenie robocze działa na klastrze ogólnego przeznaczenia. Obciążenia interaktywne zwykle uruchamiają polecenia w notatniku usługi Azure Databricks. Jednak uruchomienie zadania w istniejącym klastrze all-purpose jest również traktowane jako obciążenie interakcyjne.

Kontekst wykonywania

Stan środowiska pętli REPL (czytanie, ewaluacja, drukowanie) dla każdego obsługiwanego języka programowania. Obsługiwane języki to Python, R, Scala i SQL.

Inżynieria danych

Narzędzia do inżynierii danych ułatwiają współpracę między analitykami danych, inżynierami danych, analitykami danych i inżynierami uczenia maszynowego.

Obszar roboczy

Obszar roboczy to środowisko służące do uzyskiwania dostępu do wszystkich zasobów usługi Azure Databricks. Obszar roboczy organizuje obiekty (notesy, biblioteki, pulpity nawigacyjne i eksperymenty) w folderach oraz zapewnia dostęp do obiektów danych i zasobów obliczeniowych.

Notatnik

Internetowy interfejs do tworzenia przepływów pracy w data science i uczeniu maszynowym, które mogą zawierać polecenia, wizualizacje i tekst narracyjny. Zobacz Wprowadzenie do notebooków Databricks.

Biblioteka

Pakiet kodu dostępny dla notesu lub zadania uruchomionego w klastrze. Środowiska uruchomieniowe usługi Databricks obejmują wiele bibliotek, a także możesz przesłać swoje. Zobacz Biblioteki.

Folder Git (dawniej Repos)

Folder, którego zawartość jest wersjonowana razem poprzez synchronizację ze zdalnym repozytorium Git. Foldery Git dla Databricks integrują się z Git, aby zapewnić kontrolę wersji i zarządzanie źródłami dla Twoich projektów.

SI i uczenie maszynowe

Usługa Databricks udostępnia zintegrowane kompleksowe środowisko z usługami zarządzanymi do tworzenia i wdrażania aplikacji sztucznej inteligencji i uczenia maszynowego.

Mozaika AI

Nazwa marki produktów i usług firmy Databricks Mosaic AI Research, zespołu naukowców i inżynierów odpowiedzialnych za największe przełomy w generowaniu sztucznej inteligencji. Produkty mozaiki sztucznej inteligencji obejmują funkcje uczenia maszynowego i sztucznej inteligencji w usłudze Databricks. Zobacz Mozaika Research.

Środowisko uruchomieniowe uczenia maszynowego

Aby ułatwić opracowywanie modeli uczenia maszynowego i sztucznej inteligencji, usługa Databricks udostępnia środowisko Uruchomieniowe usługi Databricks dla uczenia maszynowego, które automatyzuje tworzenie obliczeń przy użyciu wstępnie utworzonej infrastruktury uczenia maszynowego i uczenia głębokiego, w tym najpopularniejszych bibliotek ML i DL. Ma również wbudowaną, wstępnie skonfigurowaną obsługę procesora GPU, w tym sterowniki i biblioteki pomocnicze. Przeglądaj informacje o najnowszych wersjach środowiska uruchomieniowego w notatkach o wersjach i zgodności Databricks Runtime.

Eksperyment

Kolekcja przebiegów MLflow na potrzeby trenowania modelu uczenia maszynowego. Zobacz Organizowanie przebiegów trenowania za pomocą eksperymentów MLflow.

Funkcje

Funkcje są ważnym składnikiem modeli uczenia maszynowego. Magazyn funkcji umożliwia udostępnianie i odnajdywanie funkcji w całej organizacji, a także zapewnia, że ten sam kod obliczeniowy funkcji jest używany do trenowania i wnioskowania modelu. Zobacz Inżynieria funkcji i obsługa.

Generatywne modele sztucznej inteligencji

Usługa Databricks obsługuje eksplorację, opracowywanie i wdrażanie modeli generacyjnych sztucznej inteligencji, w tym:

Plac zabaw dla sztucznej inteligencji to środowisko w obszarze roboczym przypominające czat, w którym można testować, stymulować i porównywać LLM. Zobacz Rozmawiaj z modelami językowymi (LLM) i twórz prototypy aplikacji generatywnej sztucznej inteligencji w AI Playground.
Wbudowany zestaw wstępnie skonfigurowanych modeli podstawowych, dla których można wykonywać zapytania:
- Zobacz API Modelu Bazowego płatności za token.
- Zobacz [Zalecane] Udostępniaj modele podstawowe z katalogu Unity, które można obsłużyć jednym kliknięciem.
Modele LLM hostowane przez strony trzecie, nazywane modelami zewnętrznymi. Te modele mają być używane zgodnie z rzeczywistymi wymaganiami.
Możliwości dostosowywania modelu podstawowego w celu zoptymalizowania jego wydajności dla określonej aplikacji (często nazywanego dostrajaniem). Zobacz Dostosowywanie modelu podstawowego.

Rejestr modeli

Databricks oferuje hostowaną wersję MLflow Model Registry w katalogu Unity. Modele zarejestrowane w katalogu Unity dziedziczą scentralizowaną kontrolę dostępu, pochodzenie, wyszukiwanie i dostęp między różnymi obszarami roboczymi. Zobacz Zarządzanie cyklem życia modelu w Unity Catalog.

Obsługa modelu

Usługa Mosaic AI Model Serving udostępnia ujednolicony interfejs do wdrażania modeli sztucznej inteligencji, zarządzania nimi i wykonywania zapytań. Każdy model, który oferujesz, jest dostępny jako interfejs REST API, który można zintegrować z aplikacją internetową lub kliencką. Korzystając z usługi Mosaic AI Model Serving, można wdrażać własne modele, modele podstawowe lub modele innych firm hostowane poza usługą Databricks. Zobacz Wdrażanie modeli przy użyciu Mosaic AI Model Serving.

Magazynowanie danych

Magazynowanie danych odnosi się do zbierania i przechowywania danych z wielu źródeł, dzięki czemu można je szybko uzyskać w celu uzyskania dostępu do szczegółowych informacji biznesowych i raportowania. Usługa Databricks SQL to kolekcja usług, które zapewniają możliwości magazynowania danych i wydajność istniejących magazynów danych. Zobacz Co to jest magazynowanie danych w usłudze Azure Databricks?.

Zapytanie

Zapytanie jest prawidłową instrukcją SQL, która umożliwia interakcję z danymi. Zapytania można tworzyć przy użyciu edytora SQL platformy lub łączyć się przy użyciu łącznika SQL, sterownika lub interfejsu API. Zobacz Uzyskiwanie dostępu do zapisanych zapytań i zarządzanie nimi, aby dowiedzieć się więcej o sposobie pracy z zapytaniami.

SQL Warehouse

Zasób obliczeniowy, na którym są uruchamiane zapytania SQL. Istnieją trzy typy magazynów SQL: klasyczne, pro i bezserwerowe. Usługa Azure Databricks zaleca korzystanie z magazynów bezserwerowych tam, gdzie są dostępne. Zobacz Typy usługi SQL Warehouse, aby porównać dostępne funkcje dla każdego typu magazynu.

Historia zapytań

Lista wykonanych zapytań i ich właściwości wydajności. Historia zapytań umożliwia monitorowanie wydajności zapytań, co ułatwia identyfikowanie wąskich gardeł i optymalizowanie czasów wykonywania zapytań. Zobacz Historia zapytań.

Wizualizacja

Graficzna prezentacja wyniku uruchomienia zapytania. Zobacz Wizualizacje w notatnikach Databricks.

Panel sterowania

Prezentacja wizualizacji danych i komentarzy. Panele umożliwiają automatyczne wysyłanie raportów do dowolnego użytkownika na koncie usługi Azure Databricks. Użyj Asystenta usługi Databricks, aby ułatwić tworzenie wizualizacji na podstawie monitów języka naturalnego. Zobacz Tablice. Panel można również utworzyć z notesu. Zobacz Panele nawigacyjne w notesach.

Dla starszych pulpitów nawigacyjnych zobacz Starsze pulpity nawigacyjne.