Uruchamianie zadania usługi Azure Databricks z bezserwerowym obliczeniami dla przepływów pracy
Ważne
Ponieważ przetwarzanie bezserwerowe dla przepływów pracy nie obsługuje kontrolowania ruchu wychodzącego, zadania mają pełny dostęp do Internetu.
Bezserwerowe obliczenia dla przepływów pracy umożliwiają uruchamianie zadania usługi Azure Databricks bez konfigurowania i wdrażania infrastruktury. W przypadku bezserwerowych zasobów obliczeniowych koncentrujesz się na implementowaniu potoków przetwarzania i analizy danych, a usługa Azure Databricks efektywnie zarządza zasobami obliczeniowymi, w tym optymalizowanie i skalowanie zasobów obliczeniowych dla obciążeń. Skalowanie automatyczne i narzędzie Photon są automatycznie włączone dla zasobów obliczeniowych, które uruchamiają zadanie.
Bezserwerowe obliczenia dla przepływów pracy automatycznie i stale optymalizują infrastrukturę, taką jak typy wystąpień, pamięć i aparaty przetwarzania, aby zapewnić najlepszą wydajność na podstawie określonych wymagań dotyczących przetwarzania obciążeń.
Usługa Databricks automatycznie uaktualnia wersję środowiska Databricks Runtime w celu obsługi ulepszeń i uaktualnień platformy przy jednoczesnym zapewnieniu stabilności zadań usługi Azure Databricks. Aby wyświetlić bieżącą wersję środowiska Databricks Runtime używaną przez bezserwerowe obliczenia dla przepływów pracy, zobacz Informacje o wersji obliczeniowej bezserwerowej.
Ponieważ uprawnienia do tworzenia klastra nie są wymagane, wszyscy użytkownicy obszaru roboczego mogą używać bezserwerowych obliczeń do uruchamiania przepływów pracy.
W tym artykule opisano używanie interfejsu użytkownika zadań usługi Azure Databricks do tworzenia i uruchamiania zadań, które używają bezserwerowych obliczeń. Można również zautomatyzować tworzenie i uruchamianie zadań, które używają bezserwerowych obliczeń przy użyciu interfejsu API zadań, pakietów zasobów usługi Databricks i zestawu SDK usługi Databricks dla języka Python.
- Aby dowiedzieć się więcej o używaniu interfejsu API zadań do tworzenia i uruchamiania zadań korzystających z bezserwerowych obliczeń, zobacz Zadania w dokumentacji interfejsu API REST.
- Aby dowiedzieć się więcej o używaniu pakietów zasobów usługi Databricks do tworzenia i uruchamiania zadań korzystających z bezserwerowych obliczeń, zobacz Tworzenie zadania w usłudze Azure Databricks przy użyciu pakietów zasobów usługi Databricks.
- Aby dowiedzieć się więcej na temat używania zestawu SDK usługi Databricks dla języka Python do tworzenia i uruchamiania zadań korzystających z bezserwerowych obliczeń, zobacz Zestaw SDK usługi Databricks dla języka Python.
Wymagania
Obszar roboczy usługi Azure Databricks musi mieć włączony Unity Catalog.
Ponieważ przetwarzanie bezserwerowe dla przepływów pracy korzysta z trybu dostępu współdzielonego, obciążenia muszą obsługiwać ten tryb dostępu.
Obszar roboczy usługi Databricks musi znajdować się w obsługiwanym regionie. Zobacz temat Funkcje z ograniczoną dostępnością regionalną.
Twoje konto usługi Azure Databricks musi mieć włączone przetwarzanie bezserwerowe. Zobacz Włączanie przetwarzania bezserwerowego.
Tworzenie zadania przy użyciu obliczeń bezserwerowych
Uwaga
Ponieważ przetwarzanie bezserwerowe dla przepływów pracy zapewnia, że wystarczające zasoby są aprowidowane do uruchamiania obciążeń, może wystąpić dłuższy czas uruchamiania podczas uruchamiania zadania usługi Azure Databricks, które wymaga dużej ilości pamięci lub zawiera wiele zadań.
Przetwarzanie bezserwerowe jest obsługiwane w przypadku typów zadań notebook, skryptów języka Python, dbt i python wheel. Domyślnie obliczenia bezserwerowe są wybierane jako typ obliczeniowy podczas tworzenia nowego zadania i dodawania jednego z tych obsługiwanych typów zadań.
Usługa Databricks zaleca używanie bezserwerowych obliczeń dla wszystkich zadań podrzędnych zadań. Można również określić różne typy zasobów obliczeniowych dla zadań w zadaniu, które mogą być wymagane, jeśli typ zadania nie jest obsługiwany przez bezserwerowe obliczenia dla przepływów pracy.
Konfigurowanie istniejącego zadania do używania bezserwerowych obliczeń
Istniejące zadanie można przełączyć, aby używać bezserwerowych obliczeń dla obsługiwanych typów zadań podczas edytowania zadania. Aby przełączyć się na obliczenia bezserwerowe, wykonaj jedną z następujących czynności:
- W bocznym panelu szczegóły zadania, kliknij Zamień w obszarze Compute, a następnie kliknij przycisk Nowy, wprowadź lub zaktualizuj dowolne ustawienia, i kliknij pozycję Aktualizuj.
- Kliknij w menu rozwijanym Compute i wybierz Serverless.
Planowanie notesu przy użyciu obliczeń bezserwerowych
Oprócz używania interfejsu użytkownika zadań do tworzenia i planowania zadania przy użyciu obliczeń bezserwerowych można utworzyć i uruchomić zadanie korzystające z bezserwerowych obliczeń bezpośrednio z notesu usługi Databricks. Zobacz Tworzenie zaplanowanych zadań notesu i zarządzanie nimi.
Wybierz zasady budżetu dla użycia bezserwerowego
Ważne
Ta funkcja jest dostępna w publicznej wersji zapoznawczej.
Zasady budżetowe umożliwiają organizacji stosowanie tagów niestandardowych w przypadku użycia bezserwerowego na potrzeby szczegółowego przypisywania rozliczeń.
Jeśli obszar roboczy używa zasad budżetu do określenia użycia bezserwerowego, możesz wybrać odpowiednie zasady budżetu dla swojego zadania, korzystając z ustawienia Zasady budżetu w interfejsie użytkownika szczegółów zadania. Jeśli masz przypisaną tylko jedną zasadę budżetową, zasady zostaną automatycznie wybrane dla nowych zadań.
Uwaga
Po przypisaniu zasad budżetu istniejące zadania nie są automatycznie oznaczane zasadami. Jeśli chcesz przypisać im politykę, musisz ręcznie zaktualizować istniejące zadania.
Aby uzyskać więcej informacji na temat zasad budżetu, zobacz Atrybut użycia bezserwerowego przy użyciu zasad budżetu.
Ustawianie parametrów konfiguracji platformy Spark
Aby zautomatyzować konfigurację platformy Spark na obliczeniach bezserwerowych, usługa Databricks zezwala na ustawianie tylko określonych parametrów konfiguracji platformy Spark. Aby uzyskać listę dozwolonych parametrów, zobacz Obsługiwane parametry konfiguracji platformy Spark.
Parametry konfiguracji platformy Spark można ustawić tylko na poziomie sesji. Aby to zrobić, zapisz je w notesie i dodaj notes do zadania zawartego w tej samej pracy, która wykorzystuje te parametry. Zobacz Jak pobierać i ustawiać właściwości konfiguracji Apache Spark w notesie.
Konfigurowanie środowisk i zależności
Aby dowiedzieć się, jak zainstalować biblioteki i zależności przy użyciu bezserwerowych obliczeń, zobacz Instalowanie zależności notesu.
Konfigurowanie automatycznej optymalizacji obliczeń bezserwerowych w celu uniemożliwiania ponawiania prób
Bezserwerowe obliczenia dla przepływów pracy automatycznej optymalizacji automatycznie optymalizuje zasoby obliczeniowe używane do uruchamiania zadań i ponawiania prób zadań, które zakończyły się niepowodzeniem. Automatyczna optymalizacja jest domyślnie włączona, a usługa Databricks zaleca pozostawienie go włączonego w celu zapewnienia pomyślnego uruchomienia co najmniej raz krytycznych obciążeń. Jeśli jednak masz obciążenia, które muszą być wykonywane co najwyżej raz, na przykład zadania, które nie są idempotentne, możesz wyłączyć automatyczną optymalizację podczas dodawania lub edytowania zadania:
- Obok pozycji Ponawianie prób kliknij przycisk Dodaj (lub jeśli już istnieją zasady ponawiania).
- W oknie dialogowym Zasady ponawiania próby usuń zaznaczenie pola wyboru Włącz automatyczną optymalizację bezserwerową (może obejmować dodatkowe ponawianie prób).
- Kliknij przycisk Potwierdź.
- Jeśli dodajesz zadanie, kliknij pozycję Utwórz zadanie. Jeśli edytujesz zadanie, kliknij pozycję Zapisz zadanie.
Monitorowanie kosztów zadań, które używają bezserwerowych obliczeń dla przepływów pracy
Można monitorować koszt zadań korzystających z bezserwerowych zasobów obliczeniowych w przepływach pracy, wykonując zapytanie do tabeli systemowej kosztu użycia . Ta tabela jest aktualizowana w celu uwzględnienia atrybutów użytkownika i obciążenia dotyczących kosztów bezserwerowych. Zobacz odniesienie do tabeli rozliczeń użycia systemu .
Aby uzyskać informacje na temat bieżących cen i wszelkich promocji, zobacz stronę Cennik przepływów pracy.
Wyświetlanie szczegółów zapytania dla przebiegów zadań
Szczegółowe informacje o środowisku uruchomieniowym można wyświetlić dla instrukcji platformy Spark, takich jak metryki i plany zapytań.
Aby uzyskać dostęp do szczegółów zapytania z poziomu interfejsu użytkownika zadań, wykonaj następujące kroki:
Kliknij pozycję Przepływy pracy na pasku bocznym.
Kliknij nazwę zadania, które chcesz wyświetlić.
Kliknij konkretny przebieg, który chcesz wyświetlić.
Kliknij pozycję Oś czasu , aby wyświetlić przebieg jako oś czasu z podziałem na poszczególne zadania.
Kliknij strzałkę obok nazwy zadania, aby wyświetlić instrukcje zapytania i ich środowiska uruchomieniowe.
Kliknij instrukcję, aby otworzyć panel szczegółów zapytania. Zobacz Wyświetlanie szczegółów zapytania, aby dowiedzieć się więcej o informacjach dostępnych w tym panelu.
Aby wyświetlić historię zapytań dla zadania:
- W sekcji Obliczenia panelu bocznego Uruchomienia zadania kliknij pozycję Historia zapytań.
- Nastąpi przekierowanie do historii zapytań wstępnie przefiltrowanych na podstawie identyfikatora uruchomienia zadania, w którym znajdowało się zadanie.
Aby uzyskać informacje na temat korzystania z historii zapytań, zobacz Dostęp do historii zapytań dla potoków Delta Live Tables oraz Historia zapytań.
Ograniczenia
Aby uzyskać listę bezserwerowych obliczeń dotyczących ograniczeń przepływów pracy, zobacz ograniczenia obliczeniowe bezserwerowe w informacjach o wersji obliczeniowej bezserwerowej.