Udostępnij za pośrednictwem


Uruchamianie zadania usługi Azure Databricks z bezserwerowym obliczeniami dla przepływów pracy

Ważne

Ponieważ przetwarzanie bezserwerowe dla przepływów pracy nie obsługuje kontrolowania ruchu wychodzącego, zadania mają pełny dostęp do Internetu.

Bezserwerowe obliczenia dla przepływów pracy umożliwiają uruchamianie zadania usługi Azure Databricks bez konfigurowania i wdrażania infrastruktury. W przypadku bezserwerowych zasobów obliczeniowych koncentrujesz się na implementowaniu potoków przetwarzania i analizy danych, a usługa Azure Databricks efektywnie zarządza zasobami obliczeniowymi, w tym optymalizowanie i skalowanie zasobów obliczeniowych dla obciążeń. Skalowanie automatyczne i narzędzie Photon są automatycznie włączone dla zasobów obliczeniowych, które uruchamiają zadanie.

Bezserwerowe obliczenia dla przepływów pracy automatycznie i stale optymalizują infrastrukturę, taką jak typy wystąpień, pamięć i aparaty przetwarzania, aby zapewnić najlepszą wydajność na podstawie określonych wymagań dotyczących przetwarzania obciążeń.

Usługa Databricks automatycznie uaktualnia wersję środowiska Databricks Runtime w celu obsługi ulepszeń i uaktualnień platformy przy jednoczesnym zapewnieniu stabilności zadań usługi Azure Databricks. Aby wyświetlić bieżącą wersję środowiska Databricks Runtime używaną przez bezserwerowe obliczenia dla przepływów pracy, zobacz Informacje o wersji obliczeniowej bezserwerowej.

Ponieważ uprawnienia do tworzenia klastra nie są wymagane, wszyscy użytkownicy obszaru roboczego mogą używać bezserwerowych obliczeń do uruchamiania przepływów pracy.

W tym artykule opisano używanie interfejsu użytkownika zadań usługi Azure Databricks do tworzenia i uruchamiania zadań, które używają bezserwerowych obliczeń. Można również zautomatyzować tworzenie i uruchamianie zadań, które używają bezserwerowych obliczeń przy użyciu interfejsu API zadań, pakietów zasobów usługi Databricks i zestawu SDK usługi Databricks dla języka Python.

  • Aby dowiedzieć się więcej o używaniu interfejsu API zadań do tworzenia i uruchamiania zadań korzystających z bezserwerowych obliczeń, zobacz Zadania w dokumentacji interfejsu API REST.
  • Aby dowiedzieć się więcej o używaniu pakietów zasobów usługi Databricks do tworzenia i uruchamiania zadań korzystających z bezserwerowych obliczeń, zobacz Tworzenie zadania w usłudze Azure Databricks przy użyciu pakietów zasobów usługi Databricks.
  • Aby dowiedzieć się więcej na temat używania zestawu SDK usługi Databricks dla języka Python do tworzenia i uruchamiania zadań korzystających z bezserwerowych obliczeń, zobacz Zestaw SDK usługi Databricks dla języka Python.

Wymagania

  • Obszar roboczy usługi Azure Databricks musi mieć włączoną funkcję Unity Catalog.

  • Ponieważ przetwarzanie bezserwerowe dla przepływów pracy korzysta z trybu dostępu współdzielonego, obciążenia muszą obsługiwać ten tryb dostępu.

  • Obszar roboczy usługi Azure Databricks musi znajdować się w obsługiwanym regionie. Zobacz temat Funkcje z ograniczoną dostępnością regionalną.

  • Twoje konto usługi Azure Databricks musi mieć włączone przetwarzanie bezserwerowe. Zobacz Włączanie przetwarzania bezserwerowego.

Tworzenie zadania przy użyciu obliczeń bezserwerowych

Uwaga

Ponieważ przetwarzanie bezserwerowe dla przepływów pracy zapewnia, że wystarczające zasoby są aprowidowane do uruchamiania obciążeń, może wystąpić dłuższy czas uruchamiania podczas uruchamiania zadania usługi Azure Databricks, które wymaga dużej ilości pamięci lub zawiera wiele zadań.

Przetwarzanie bezserwerowe jest obsługiwane w przypadku typów zadań notebook, skryptów języka Python, dbt i python wheel. Domyślnie obliczenia bezserwerowe są wybierane jako typ obliczeniowy podczas tworzenia nowego zadania i dodawania jednego z tych obsługiwanych typów zadań.

Tworzenie zadania bezserwerowego

Usługa Databricks zaleca używanie bezserwerowych obliczeń dla wszystkich zadań podrzędnych zadań. Można również określić różne typy zasobów obliczeniowych dla zadań w zadaniu, które mogą być wymagane, jeśli typ zadania nie jest obsługiwany przez bezserwerowe obliczenia dla przepływów pracy.

Konfigurowanie istniejącego zadania do używania bezserwerowych obliczeń

Istniejące zadanie można przełączyć, aby używać bezserwerowych obliczeń dla obsługiwanych typów zadań podczas edytowania zadania. Aby przełączyć się na obliczenia bezserwerowe, wykonaj jedną z następujących czynności:

  • Na panelu bocznym szczegóły zadania kliknij pozycję Computekliknij pozycję Nowy, wprowadź lub wszelkie ustawienia, a następnie kliknij przycisk .
  • Kliknij daszka w dół w menu rozwijanym Compute i selectbezserwerowego.

Przełączanie zadania na obliczenia bezserwerowe

Planowanie notesu przy użyciu obliczeń bezserwerowych

Oprócz używania interfejsu użytkownika zadań do tworzenia i planowania zadania przy użyciu obliczeń bezserwerowych można utworzyć i uruchomić zadanie korzystające z bezserwerowych obliczeń bezpośrednio z notesu usługi Databricks. Zobacz Tworzenie zaplanowanych zadań notesu i zarządzanie nimi.

Select zasady budżetowej dla użycia bezserwerowego

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

Zasady budżetowe umożliwiają organizacji stosowanie tagów niestandardowych w przypadku użycia bezserwerowego na potrzeby szczegółowego przypisywania rozliczeń.

Jeśli obszar roboczy używa zasad budżetowych do przypisania użycia bezserwerowego, możesz select zasad budżetowych zadania przy użyciu ustawienia Zasady budżetowe w interfejsie użytkownika szczegółów zadania. Jeśli masz przypisaną tylko jedną zasadę budżetową, zasady zostaną automatycznie wybrane dla nowych zadań.

Uwaga

Po przypisaniu zasad budżetu istniejące zadania nie są automatycznie oznaczane zasadami. Musisz ręcznie update istniejące zadania, jeśli chcesz przypisać do nich zasady.

Aby uzyskać więcej informacji na temat zasad budżetu, zobacz Atrybut użycia bezserwerowego przy użyciu zasad budżetu.

Set parameters konfiguracji platformy Spark

Aby zautomatyzować konfigurację platformy Spark na obliczeniach bezserwerowych, usługa Databricks umożliwia ustawienie tylko określonej konfiguracji platformy Spark parameters. Aby uzyskać informacje o list dozwolonych parameters, zobacz Obsługiwane konfiguracje platformy Spark parameters.

Konfigurację platformy Spark można setparameters tylko na poziomie sesji. W tym celu set je w notesie i dodaj notes do zadania uwzględnionego w tym samym zadaniu, które używa parameters. Zobacz Get i set właściwości konfiguracji Apache Spark w notatniku.

Konfigurowanie środowisk i zależności

Aby dowiedzieć się, jak zainstalować biblioteki i zależności przy użyciu bezserwerowych obliczeń, zobacz Instalowanie zależności notesu.

Konfigurowanie automatycznej optymalizacji obliczeń bezserwerowych w celu uniemożliwiania ponawiania prób

Bezserwerowe obliczenia dla przepływów pracy automatycznej optymalizacji automatycznie optymalizuje zasoby obliczeniowe używane do uruchamiania zadań i ponawiania prób zadań, które zakończyły się niepowodzeniem. Automatyczna optymalizacja jest domyślnie włączona, a usługa Databricks zaleca pozostawienie go włączonego w celu zapewnienia pomyślnego uruchomienia co najmniej raz krytycznych obciążeń. Jeśli jednak masz obciążenia, które muszą być wykonywane co najwyżej raz, na przykład zadania, które nie są idempotentne, możesz wyłączyć automatyczną optymalizację podczas dodawania lub edytowania zadania:

  1. Obok pozycji Ponawianie prób kliknij przycisk Dodaj (lub Edytuj ikonę jeśli już istnieją zasady ponawiania).
  2. W oknie dialogowym Zasady ponawiania próby usuń zaznaczenie pola wyboru Włącz automatyczną optymalizację bezserwerową (może obejmować dodatkowe ponawianie prób).
  3. Kliknij przycisk Potwierdź.
  4. Jeśli dodajesz zadanie, kliknij pozycję Utwórz zadanie. Jeśli edytujesz zadanie, kliknij pozycję Zapisz zadanie.

Monitorowanie kosztów zadań, które używają bezserwerowych obliczeń dla przepływów pracy

Koszt zadań wykorzystujących bezserwerowe zasoby obliczeniowe dla przepływów pracy można monitorować, wykonując zapytanie do rozliczanego systemu użycia table. Ta table jest aktualizowana, aby uwzględnić atrybuty użytkownika i obciążenia związane z kosztami bezserwerowymi. Zobacz informacje o rozliczanym systemie użycia table.

Aby uzyskać informacje na temat bieżących cen i wszelkich promocji, zobacz stronę Cennik przepływów pracy.

Wyświetlanie szczegółów zapytania dla przebiegów zadań

Szczegółowe informacje o środowisku uruchomieniowym można wyświetlić dla instrukcji platformy Spark, takich jak metryki i plany zapytań.

Aby uzyskać dostęp do szczegółów zapytania z poziomu interfejsu użytkownika zadań, wykonaj następujące kroki:

  1. Kliknij pozycję Ikona przepływów pracyPrzepływy pracy na pasku bocznym.

  2. Kliknij nazwę zadania, które chcesz wyświetlić.

  3. Kliknij konkretny przebieg, który chcesz wyświetlić.

  4. Kliknij pozycję Oś czasu , aby wyświetlić przebieg jako oś czasu z podziałem na poszczególne zadania.

  5. Kliknij strzałkę obok nazwy zadania, aby wyświetlić instrukcje zapytania i ich środowiska uruchomieniowe.

    Zadanie z kilkoma instrukcjami zapytania i ich środowiskami uruchomieniowymi w widoku osi czasu z interfejsu użytkownika zadań.

  6. Kliknij instrukcję, aby otworzyć panel szczegółów zapytania. Zobacz Wyświetlanie szczegółów zapytania, aby dowiedzieć się więcej o informacjach dostępnych w tym panelu.

Aby wyświetlić historię zapytań dla zadania:

  1. W sekcji Obliczenia panelu bocznego Uruchomienia zadania kliknij pozycję Historia zapytań.
  2. Nastąpi przekierowanie do historii zapytań wstępnie przefiltrowanych na podstawie identyfikatora uruchomienia zadania, w którym znajdowało się zadanie.

Aby uzyskać informacje na temat korzystania z historii zapytań, zobacz Uzyskaj dostęp do historii zapytań dla Delta Live Tables pipelines oraz Historia zapytań.

Ograniczenia

Aby uzyskać list bezserwerowych zasobów obliczeniowych dla ograniczeń przepływów pracy, zobacz Ograniczenia obliczeniowe bezserwerowe w informacjach o wersji obliczeniowej bezserwerowej.