Pojęcia dotyczące usługi Azure Databricks
W tym artykule przedstawiono podstawowe pojęcia, które należy zrozumieć, aby efektywnie korzystać z usługi Azure Databricks.
Konta i obszary robocze
W usłudze Azure Databricks obszar roboczy to wdrożenie usługi Azure Databricks w chmurze, które działa jako środowisko dla twojego zespołu w celu uzyskania dostępu do zasobów usługi Databricks. Twoja organizacja może wybrać wiele obszarów roboczych lub tylko jeden, w zależności od potrzeb.
Konto usługi Azure Databricks reprezentuje jedną jednostkę, która może zawierać wiele obszarów roboczych. Konta włączone dla wykazu aparatu Unity mogą służyć do zarządzania użytkownikami i ich dostępem do danych centralnie we wszystkich obszarach roboczych na koncie.
Rozliczenia: jednostki usługi Databricks (DBU)
Opłaty za usługę Azure Databricks są naliczane na podstawie jednostek usługi Databricks (DBU), które są jednostkami możliwości przetwarzania na godzinę na podstawie typu wystąpienia maszyny wirtualnej.
Zobacz stronę cennika usługi Azure Databricks.
Uwierzytelnianie i autoryzacja
W tej sekcji opisano pojęcia, które należy znać podczas zarządzania tożsamościami usługi Azure Databricks i ich dostępem do zasobów usługi Azure Databricks.
User
Unikatowa osoba, która ma dostęp do systemu. Tożsamości użytkowników są reprezentowane przez adresy e-mail. Zobacz Zarządzanie użytkownikami.
Jednostka usługi
Tożsamość usługi do użycia z zadaniami, zautomatyzowanymi narzędziami i systemami, takimi jak skrypty, aplikacje i platformy ciągłej integracji/ciągłego wdrażania. Jednostki usługi są reprezentowane przez identyfikator aplikacji. Zobacz Zarządzanie jednostkami usługi.
Grupuj
Kolekcja tożsamości. Grupy upraszczają zarządzanie tożsamościami, ułatwiając przypisywanie dostępu do obszarów roboczych, danych i innych zabezpieczanych obiektów. Wszystkie tożsamości usługi Databricks można przypisać jako członków grup. Zobacz Zarządzanie grupami.
Lista kontroli dostępu (ACL)
Lista uprawnień dołączonych do obszaru roboczego, klastra, zadania, tabeli lub eksperymentu. Lista ACL określa, którzy użytkownicy lub procesy systemowe otrzymują dostęp do obiektów, a także jakie operacje są dozwolone w zasobach. Każdy wpis w typowej liście ACL określa temat i operację. Zobacz Listy kontroli dostępu.
Osobisty token dostępu (PAT)
Osobisty token dostępu to ciąg używany do uwierzytelniania wywołań interfejsu API REST, połączeń partnerów technologicznych i innych narzędzi. Zobacz Uwierzytelnianie osobistego tokenu dostępu w usłudze Azure Databricks.
Tokeny identyfikatora Entra firmy Microsoft mogą być również używane do uwierzytelniania w interfejsie API REST.
Interfejsy usługi Azure Databricks
W tej sekcji opisano interfejsy uzyskiwania dostępu do zasobów w usłudze Azure Databricks.
INTERFEJS UŻYTKOWNIKA
Interfejs użytkownika usługi Azure Databricks to graficzny interfejs umożliwiający interakcję z funkcjami, takimi jak foldery obszaru roboczego i zawarte w nich obiekty, obiekty danych i zasoby obliczeniowe.
Interfejs API REST
Interfejs API REST usługi Databricks udostępnia punkty końcowe do modyfikowania lub żądania informacji o koncie usługi Azure Databricks i obiektach obszaru roboczego. Zobacz dokumentację konta i dokumentację obszaru roboczego.
SQL REST API
Interfejs API REST SQL umożliwia automatyzowanie zadań na obiektach SQL. Zobacz Interfejs API SQL.
CLI
Interfejs wiersza polecenia usługi Databricks jest hostowany w usłudze GitHub. Interfejs wiersza polecenia jest oparty na interfejsie API REST usługi Databricks.
Zarządzanie danymi
W tej sekcji opisano obiekty logiczne, które przechowują dane, które są wprowadzane do algorytmów uczenia maszynowego i na których są wykonywane analizy. Ponadto opisuje on interfejs użytkownika platformy do eksplorowania obiektów danych i zarządzania nimi.
Unity Catalog
Wykaz aparatu Unity to ujednolicone rozwiązanie do zapewniania ładu dla zasobów danych i sztucznej inteligencji w usłudze Azure Databricks, które zapewnia scentralizowaną kontrolę dostępu, inspekcję, pochodzenie i funkcje odnajdywania danych w obszarach roboczych usługi Databricks. Sprawdź temat Co to jest wykaz Unity?.
Katalog główny systemu plików DBFS.
Ważne
Przechowywanie i uzyskiwanie dostępu do danych przy użyciu instalacji root lub DBFS systemu plików DBFS jest przestarzałym wzorcem i nie jest zalecane przez usługę Databricks. Zamiast tego usługa Databricks zaleca używanie wykazu aparatu Unity do zarządzania dostępem do wszystkich danych. Sprawdź temat Co to jest wykaz Unity?.
Katalog główny systemu plików DBFS jest domyślnie dostępna dla wszystkich użytkowników. Zobacz Co to jest DBFS?.
Eksplorator wykazu
Eksplorator wykazu umożliwia eksplorowanie danych i zasobów sztucznej inteligencji oraz zarządzanie nimi, w tym schematy (bazy danych), tabele, modele, woluminy (dane inne niż tabelaryczne), funkcje i zarejestrowane modele uczenia maszynowego. Służy do znajdowania obiektów danych i właścicieli, rozumienia relacji danych między tabelami oraz zarządzania uprawnieniami i udostępnianiem. Zobacz Co to jest Eksplorator wykazu?.
baza danych
Kolekcja obiektów danych, takich jak tabele lub widoki i funkcje, jest zorganizowana tak, aby można było łatwo uzyskiwać do niej dostęp, zarządzać i aktualizować. Zobacz Co to są schematy w usłudze Azure Databricks?
Table
Reprezentacja danych strukturalnych. Wykonujesz zapytania dotyczące tabel za pomocą interfejsów API apache Spark SQL i Apache Spark. Zobacz Co to są tabele i widoki?.
Tabela delty
Domyślnie wszystkie tabele utworzone w usłudze Azure Databricks to tabele różnicowe. Tabele delty są oparte na projekcie typu open source usługi Delta Lake— strukturze magazynu tabel ACID o wysokiej wydajności w magazynach obiektów w chmurze. Tabela delty przechowuje dane jako katalog plików w magazynie obiektów w chmurze i rejestruje metadane tabeli w magazynie metadanych w katalogu i schemacie.
Dowiedz się więcej o technologiach markowych jako delta.
Magazyn metadanych
Składnik, który przechowuje wszystkie informacje o strukturze różnych tabel i partycji w magazynie danych, w tym informacje o typie kolumny i kolumny, serializatory i deserializatory niezbędne do odczytywania i zapisywania danych oraz odpowiednich plików, w których są przechowywane dane. Zobacz Magazyny metadanych
Każde wdrożenie usługi Azure Databricks ma centralny magazyn metadanych Hive dostępny dla wszystkich klastrów na potrzeby utrwalania metadanych tabel. Możesz również użyć istniejącego zewnętrznego magazynu metadanych Hive.
Zarządzanie obliczeniami
W tej sekcji opisano pojęcia, które należy wiedzieć, aby uruchamiać obliczenia w usłudze Azure Databricks.
Klaster
Zestaw zasobów obliczeniowych i konfiguracji, na których są uruchamiane notesy i zadania. Istnieją dwa typy klastrów: wszystkie przeznaczenie i zadanie. Zobacz Obliczenia.
- Klaster ogólnego przeznaczenia jest tworzony przy użyciu interfejsu użytkownika, interfejsu wiersza polecenia lub interfejsu API REST. Działanie klastra ogólnego przeznaczenia można ręcznie przerwać i uruchomić ponownie. Wielu użytkowników może współużytkować takie klastry do interakcyjnej analizy.
- Harmonogram zadań usługi Azure Databricks tworzy klaster zadań podczas uruchamiania zadania w nowym klastrze zadań i kończy klaster po zakończeniu zadania. Nie można ponownie uruchomić klastra zadań.
Pula
Zestaw bezczynnych, gotowych do użycia wystąpień, które zmniejszają czas uruchamiania klastra i automatycznego skalowania. Po dołączeniu do puli klaster przydziela jego węzły sterowników i procesów roboczych z puli. Zobacz Dokumentację konfiguracji puli.
Jeśli pula nie ma wystarczających zasobów bezczynnych, aby obsłużyć żądanie klastra, pula rozwija się, przydzielając nowe wystąpienia od dostawcy wystąpień. Po zakończeniu działania dołączonego klastra używane wystąpienia są zwracane do puli i mogą być ponownie używane przez inny klaster.
Środowisko uruchomieniowe usługi Databricks
Zestaw podstawowych składników uruchamianych w klastrach zarządzanych przez usługę Azure Databricks. Zobacz Obliczenia. Usługa Azure Databricks ma następujące środowiska uruchomieniowe:
- Środowisko Databricks Runtime obejmuje platformę Apache Spark, ale także dodaje wiele składników i aktualizacji, które znacząco zwiększają użyteczność, wydajność i bezpieczeństwo analizy danych big data.
- Środowisko Databricks Runtime for Machine Learning jest oparte na środowisku Databricks Runtime i zapewnia wstępnie utworzoną infrastrukturę uczenia maszynowego zintegrowaną ze wszystkimi możliwościami obszaru roboczego usługi Azure Databricks. Zawiera wiele popularnych bibliotek, w tym TensorFlow, Keras, PyTorch i XGBoost.
Przepływy pracy
Interfejs użytkownika obszaru roboczego Przepływy pracy zawiera wpis w interfejsach użytkownika zadań i potoków DLT, które są narzędziami, które umożliwiają organizowanie i planowanie przepływów pracy.
Stanowiska
Nieinterakcyjny mechanizm organizowania i planowania notesów, bibliotek i innych zadań. Zobacz Planowanie i organizowanie przepływów pracy
Pipelines
Potoki tabel na żywo delty zapewniają deklaratywną strukturę do tworzenia niezawodnych, konserwowalnych i testowalnych potoków przetwarzania danych. Zobacz Co to jest delta live tables?.
Obciążenie
Obciążenie to ilość możliwości przetwarzania potrzebnej do wykonania zadania lub grupy zadań. Usługa Azure Databricks identyfikuje dwa typy obciążeń: inżynierię danych (zadanie) i analizę danych (wszystko przeznaczenie).
- Inżynieria danych Obciążenie (zautomatyzowane) jest uruchamiane w klastrze zadań, który tworzy harmonogram zadań usługi Azure Databricks dla każdego obciążenia.
- Analiza danych Obciążenie (interaktywne) jest uruchamiane w klastrze ogólnego przeznaczenia. Obciążenia interaktywne zwykle uruchamiają polecenia w notesie usługi Azure Databricks. Jednak uruchomienie zadania w istniejącym klastrze all-purpose jest również traktowane jako obciążenie interakcyjne.
Kontekst wykonywania
Stan środowiska pętli read-eval-print loop (REPL) dla każdego obsługiwanego języka programowania. Obsługiwane języki to Python, R, Scala i SQL.
Inżynieria danych
Narzędzia do inżynierii danych ułatwiają współpracę między analitykami danych, inżynierami danych, analitykami danych i inżynierami uczenia maszynowego.
Obszar roboczy
Obszar roboczy to środowisko służące do uzyskiwania dostępu do wszystkich zasobów usługi Azure Databricks. Obszar roboczy organizuje obiekty (notesy, biblioteki, pulpity nawigacyjne i eksperymenty) w folderach oraz zapewnia dostęp do obiektów danych i zasobów obliczeniowych.
Notes
Internetowy interfejs służący do tworzenia przepływów pracy nauki o danych i uczenia maszynowego, które mogą zawierać polecenia, wizualizacje i tekst narracji. Zobacz Wprowadzenie do notesów usługi Databricks.
Biblioteka
Pakiet kodu dostępny dla notesu lub zadania uruchomionego w klastrze. Środowiska uruchomieniowe usługi Databricks obejmują wiele bibliotek, a także możesz przekazać własne. Zobacz Biblioteki.
Folder Git (dawniej Repos)
Folder, którego zawartość jest współwymiarowa, synchronizując je ze zdalnym repozytorium Git. Foldery Usługi Git usługi Databricks integrują się z usługą Git, aby zapewnić kontrolę źródła i wersji dla projektów.
SI i uczenie maszynowe
Usługa Databricks udostępnia zintegrowane kompleksowe środowisko z usługami zarządzanymi do tworzenia i wdrażania aplikacji sztucznej inteligencji i uczenia maszynowego.
Mozaika AI
Nazwa marki produktów i usług firmy Databricks Mosaic AI Research, zespołu naukowców i inżynierów odpowiedzialnych za największe przełomy w generowaniu sztucznej inteligencji. Produkty mozaiki sztucznej inteligencji obejmują funkcje uczenia maszynowego i sztucznej inteligencji w usłudze Databricks. Zobacz Mozaika Research.
Środowisko uruchomieniowe uczenia maszynowego
Aby ułatwić opracowywanie modeli uczenia maszynowego i sztucznej inteligencji, usługa Databricks udostępnia środowisko Uruchomieniowe usługi Databricks dla uczenia maszynowego, które automatyzuje tworzenie obliczeń przy użyciu wstępnie utworzonej infrastruktury uczenia maszynowego i uczenia głębokiego, w tym najpopularniejszych bibliotek ML i DL. Ma również wbudowaną, wstępnie skonfigurowaną obsługę procesora GPU, w tym sterowniki i biblioteki pomocnicze. Przejdź do informacji o najnowszych wersjach środowiska uruchomieniowego z informacji o wersji środowiska Databricks Runtime i zgodności.
Experiment
Kolekcja platformy MLflow jest uruchamiana na potrzeby trenowania modelu uczenia maszynowego. Zobacz Organizowanie przebiegów trenowania przy użyciu eksperymentów MLflow.
Funkcje
Funkcje są ważnym składnikiem modeli uczenia maszynowego. Magazyn funkcji umożliwia udostępnianie i odnajdywanie funkcji w całej organizacji, a także zapewnia, że ten sam kod obliczeniowy funkcji jest używany do trenowania i wnioskowania modelu. Zobacz Inżynieria funkcji i obsługa.
Modele GenAI
Usługa Databricks obsługuje eksplorację, opracowywanie i wdrażanie modeli generacyjnych sztucznej inteligencji, w tym:
- Plac zabaw dla sztucznej inteligencji, środowisko przypominające czat w obszarze roboczym, w którym można testować, monitować i porównywać maszyny LLM. Zobacz Chat with LLMs and prototype GenAI apps using AI Playground (Czat z modułami LLM i prototypowymi aplikacjami GenAI korzystającymi ze środowiska sztucznej inteligencji).
- Wbudowany zestaw wstępnie skonfigurowanych modeli podstawowych, dla których można wykonywać zapytania:
- Zobacz Interfejsy API modelu Modelu modelu płatności za token na token.
- Zobacz [Zalecane] Wdrażanie modeli podstawowych z katalogu aparatu Unity dla modeli podstawowych, które można obsłużyć jednym kliknięciem.
- Maszyny LLM hostowane przez inne firmy nazywane modelami zewnętrznymi. Te modele mają być używane zgodnie z rzeczywistymi wymaganiami.
- Możliwości dostosowywania modelu podstawowego w celu zoptymalizowania jego wydajności dla określonej aplikacji (często nazywanego dostrajaniem). Zobacz Dostosowywanie modelu podstawowego.
Rejestr modeli
Usługa Databricks udostępnia hostowaną wersję rejestru modeli MLflow w katalogu aparatu Unity. Modele zarejestrowane w katalogu aparatu Unity dziedziczą scentralizowaną kontrolę dostępu, pochodzenie i odnajdywanie i dostęp między obszarami roboczymi. Zobacz Zarządzanie cyklem życia modelu w wykazie aparatu Unity.
Obsługa modelu
Usługa Mosaic AI Model Serving udostępnia ujednolicony interfejs do wdrażania modeli sztucznej inteligencji, zarządzania nimi i wykonywania zapytań. Każdy model, który służy, jest dostępny jako interfejs API REST, który można zintegrować z aplikacją internetową lub kliencką. Korzystając z usługi Mosaic AI Model Serving, można wdrażać własne modele, modele podstawowe lub modele innych firm hostowane poza usługą Databricks. Zobacz Obsługa modelu w usłudze Azure Databricks.
Magazynowanie danych
Magazynowanie danych odnosi się do zbierania i przechowywania danych z wielu źródeł, dzięki czemu można je szybko uzyskać w celu uzyskania dostępu do szczegółowych informacji biznesowych i raportowania. Usługa Databricks SQL to kolekcja usług, które zapewniają możliwości magazynowania danych i wydajność istniejących magazynów danych. Zobacz Co to jest magazynowanie danych w usłudze Azure Databricks?.
Query
Zapytanie jest prawidłową instrukcją SQL, która umożliwia interakcję z danymi. Zapytania można tworzyć przy użyciu edytora SQL platformy lub łączyć się przy użyciu łącznika SQL, sterownika lub interfejsu API. Zobacz Uzyskiwanie dostępu do zapisanych zapytań i zarządzanie nimi, aby dowiedzieć się więcej o sposobie pracy z zapytaniami.
SQL Warehouse
Zasób obliczeniowy, na którym są uruchamiane zapytania SQL. Istnieją trzy typy magazynów SQL: klasyczne, pro i bezserwerowe. Usługa Azure Databricks zaleca korzystanie z magazynów bezserwerowych tam, gdzie są dostępne. Zobacz Typy usługi SQL Warehouse, aby porównać dostępne funkcje dla każdego typu magazynu.
Historia zapytań
Lista wykonanych zapytań i ich właściwości wydajności. Historia zapytań umożliwia monitorowanie wydajności zapytań, co ułatwia identyfikowanie wąskich gardeł i optymalizowanie środowisk uruchomieniowych zapytań. Zobacz Historia zapytań.
Wizualizacja
Graficzna prezentacja wyniku uruchomienia zapytania. Zobacz Wizualizacje w notesach usługi Databricks.
Pulpit nawigacyjny
Prezentacja wizualizacji danych i komentarzy. Pulpity nawigacyjne umożliwiają automatyczne wysyłanie raportów do wszystkich użytkowników konta usługi Azure Databricks. Użyj Asystenta usługi Databricks, aby ułatwić tworzenie wizualizacji na podstawie naturalnych monitów o langauge. Zobacz Pulpity nawigacyjne. Pulpit nawigacyjny można również utworzyć na podstawie notesu. Zobacz Pulpity nawigacyjne w notesach.
W przypadku starszych pulpitów nawigacyjnych zobacz Starsze pulpity nawigacyjne.
Ważne
- Usługa Databricks zaleca korzystanie z pulpitów nawigacyjnych AI/BI (dawniej pulpitów nawigacyjnych usługi Lakeview). Starsze wersje pulpitów nawigacyjnych, nazywane wcześniej pulpitami nawigacyjnymi SQL usługi Databricks, są teraz nazywane starszymi pulpitami nawigacyjnymi. Usługa Databricks nie zaleca tworzenia nowych starszych pulpitów nawigacyjnych.
oś czasu zakończenia pomocy technicznej:
7 kwietnia 2025 r.: zakończy się oficjalna obsługa starszych wersji pulpitów nawigacyjnych. Zostaną rozwiązane tylko krytyczne problemy z zabezpieczeniami i awarie usługi.
3 listopada 2025 r.: Usługa Databricks rozpocznie archiwizowanie starszych pulpitów nawigacyjnych, do których nie uzyskiwano dostępu w ciągu ostatnich sześciu miesięcy. Zarchiwizowane pulpity nawigacyjne nie będą już dostępne, a proces archiwizacji będzie występować w sposób ciągły. Dostęp do aktywnie używanych pulpitów nawigacyjnych pozostanie niezmieniony.
Usługa Databricks będzie współpracować z klientami, aby opracować plany migracji dla aktywnych dotychczasowych pulpitów nawigacyjnych po 3 listopada 2025 r.
Konwertowanie starszych pulpitów nawigacyjnych przy użyciu narzędzia do migracji lub interfejsu API REST. Aby uzyskać instrukcje dotyczące korzystania z wbudowanego narzędzia do migracji, zobacz Klonowanie starszego pulpitu nawigacyjnego do pulpitu nawigacyjnego AI/BI. Zobacz Samouczki dotyczące pulpitów nawigacyjnych , aby zapoznać się z samouczkami dotyczącymi tworzenia pulpitów nawigacyjnych i zarządzania nimi przy użyciu interfejsu API REST.