Udostępnij za pośrednictwem


Konfigurowanie i edytowanie zadań usługi Databricks

Zadanie można utworzyć i uruchomić przy użyciu interfejsu użytkownika zadań lub narzędzi deweloperskich, takich jak interfejs wiersza polecenia usługi Databricks lub interfejs API REST. Za pomocą interfejsu użytkownika lub interfejsu API można naprawić i ponownie uruchomić zadanie, które zakończyło się niepowodzeniem lub anulowano. W tym artykule pokazano, jak tworzyć, konfigurować i edytować zadania przy użyciu interfejsu użytkownika obszaru roboczego Przepływów pracy. Aby uzyskać informacje o innych narzędziach, zobacz następujące informacje:

  • Aby dowiedzieć się więcej na temat tworzenia i uruchamiania zadań przy użyciu interfejsu wiersza polecenia usługi Databricks, zobacz Co to jest interfejs wiersza polecenia usługi Databricks?.
  • Aby dowiedzieć się więcej na temat tworzenia i uruchamiania zadań przy użyciu interfejsu API zadań, zobacz Zadania w dokumentacji interfejsu API REST.
  • Jeśli wolisz podejście infrastruktury jako kodu (IaC) do konfigurowania zadań, możesz użyć Databricks Asset Bundles (DAB). Aby dowiedzieć się więcej na temat konfigurowania i organizowania zadań przy użyciu baz danych, zobacz Pakiety zasobów usługi Databricks.
  • Aby dowiedzieć się, jak uruchamiać i planować zadania bezpośrednio w notesie usługi Databricks, zobacz Tworzenie zaplanowanych zadań notesu i zarządzanie nimi.

Napiwek

Aby wyświetlić zadanie jako YAML, kliknij menu kebab po lewej stronie pozycji Uruchom teraz dla zadania, a następnie kliknij pozycję Przełącz na wersję kodu (YAML).

Jaka jest minimalna konfiguracja wymagana dla zadania?

Wszystkie zadania w usłudze Azure Databricks wymagają następujących elementów:

  • Zadanie, które zawiera logikę do uruchomienia, takie jak notatnik Databricks. Zobacz Konfigurowanie i edytowanie zadań usługi Databricks
  • Zasób obliczeniowy do uruchomienia logiki. Zasób obliczeniowy może być bezserwerowy, obliczenia klasyczne lub obliczenia ogólnego przeznaczenia. Zobacz Konfigurowanie obliczeń dla zadań.
  • Określony harmonogram uruchamiania zadania. Opcjonalnie można pominąć ustawianie harmonogramu i wyzwalać zadanie ręcznie.
  • Unikatowa nazwa.

Tworzenie nowego zadania

W tej sekcji opisano kroki tworzenia nowego zadania za pomocą zadania notatnika oraz zaplanowanie za pomocą interfejsu użytkownika obszaru roboczego.

Zadania zawierają co najmniej jedno zadanie. Nowe zadanie można utworzyć, konfigurując pierwsze zadanie dla tego zadania.

Uwaga

Każdy typ zadania ma dynamiczne opcje konfiguracji w interfejsie użytkownika obszaru roboczego. Zobacz Konfigurowanie i edytowanie zadań usługi Databricks.

  1. Kliknij pozycję Ikona przepływów pracyPrzepływy pracy na pasku bocznym i kliknij pozycję .Przycisk Utwórz zadanie
  2. Wprowadź nazwę zadania.
  3. Wybierz notatnik dla pola ścieżki .
  4. Kliknij pozycję Utwórz zadanie.

Jeśli obszar roboczy nie jest włączony do używania bezserwerowych zasobów obliczeniowych w zadaniach, musisz wybrać opcję Compute. Usługa Databricks zaleca zawsze używanie zasobów obliczeniowych zadań podczas konfigurowania zadań.

Nowe zadanie zostanie wyświetlone na liście zadań obszaru roboczego z domyślną nazwą New Job <date> <time>.

Możesz nadal dodawać więcej zadań w ramach tego samego zadania, jeśli jest to konieczne dla przepływu pracy.

Planowanie zadań

Możesz zdecydować, kiedy zadanie jest uruchamiane. Domyślnie będzie on uruchamiany tylko po ręcznym uruchomieniu, ale można go również skonfigurować do automatycznego uruchamiania. Możesz utworzyć wyzwalacz , aby uruchomić zadanie zgodnie z harmonogramem lub na podstawie zdarzenia.

Kontrolowanie przepływu zadań w zadaniu

Podczas konfigurowania wielu zadań w obrębie pracy można użyć wyspecjalizowanych zadań do kontrolowania sposobu ich uruchamiania. Zobacz Kontrolowanie przepływu zadań w zadaniu usługi Databricks.

Wybierz zadanie do edycji w obszarze roboczym

Aby edytować istniejące zadanie za pomocą interfejsu użytkownika obszaru roboczego, wykonaj następujące czynności:

  1. Kliknij pozycję Ikona przepływów pracyPrzepływy pracy na pasku bocznym.
  2. W kolumnie Nazwa kliknij nazwę zadania.

Użyj interfejsu użytkownika zadań, aby wykonać następujące czynności:

  • Edytowanie ustawień zadania
  • Zmienianie nazwy, klonowanie lub usuwanie zadania
  • Dodawanie nowych zadań do istniejącego zadania
  • Edytowanie ustawień zadania

Uwaga

Możesz również wyświetlić definicje JSON do użycia z interfejsem API REST, uzyskać, utworzyći zresetować punkty końcowe.

Edytowanie ustawień zadania

Panel boczny zawiera szczegóły zadania. Możesz zmienić wyzwalacz zadania, konfigurację obliczeniową, powiadomienia, maksymalną liczbę współbieżnych przebiegów, skonfigurować progi czasu trwania i dodać lub zmienić tagi. Możesz również edytować uprawnienia zadania, jeśli włączono kontrolę dostępu do zadań.

Dodaj parametry dla wszystkich zadań

Parametry skonfigurowane na poziomie zlecenia są przekazywane do zadań zlecenia, które akceptują parametry klucz-wartość, w tym pliki wheel Pythona skonfigurowane do akceptowania argumentów słów kluczowych. Zobacz Sparametryzowanie zadań.

Dodawanie tagów do zadania

Aby dodać etykiety lub atrybuty klucz-wartość do zadania, możesz dodać tagi podczas edytowania zadania. Za pomocą tagów można filtrować zadania na liście zadań . Możesz na przykład użyć tagu department do filtrowania wszystkich zadań należących do określonego działu.

Uwaga

Ponieważ tagi zadań nie są przeznaczone do przechowywania poufnych informacji, takich jak dane osobowe lub hasła, usługa Databricks zaleca używanie tagów tylko dla wartości niewrażliwych.

Tagi są również propagowane do klastrów zadań utworzonych podczas uruchamiania zadania, co umożliwia używanie tagów z istniejącym monitorowaniem klastra.

Kliknij pozycję + Tag w panelu bocznym Szczegóły zadania, aby dodać lub edytować tagi. Tag można dodać jako etykietę lub parę klucz-wartość. Aby dodać etykietę, wprowadź etykietę w polu Klucz i pozostaw puste pole Wartość .

Dodawanie zasad budżetu do zadania

Ważny

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

Jeśli w obszarze roboczym stosowane są zasady budżetu do przypisania użycia bezserwerowego, możesz wybrać zasady budżetu dla zadań przy użyciu ustawienia zasady budżetu w panelu bocznym szczegółów zadania. Zobacz Atrybut użycia bezserwerowego przy użyciu zasad budżetu.

Zmienianie nazwy, klonowanie lub usuwanie zadania

Aby zmienić nazwę zadania, przejdź do interfejsu użytkownika zadań i kliknij nazwę zadania.

Nowe zadanie można szybko utworzyć, klonując istniejące zadanie. Klonowanie zadania powoduje utworzenie identycznej kopii zadania z wyjątkiem identyfikatora zadania. Aby sklonować zadanie, wykonaj następujące czynności:

  1. Przejdź do interfejsu użytkownika zadań dla zadania.
  2. Kliknij Menu Kebab przycisk Uruchom teraz .
  3. Wybierz z menu rozwijanego pozycję Sklonuj zadanie.
  4. Wprowadź nazwę sklonowanego zadania.
  5. Kliknij pozycję Klonuj.

Usuwanie zadania

Aby usunąć zadanie, przejdź do strony zadania, kliknij menu Kebab obok nazwy zadania, a następnie wybierz pozycję Usuń zadanie z menu rozwijanego.

Używanie usługi Git z zadaniami

Jeśli zadanie zawiera jakiekolwiek zadania, które obsługują korzystanie z zdalnego dostawcy usługi Git, interfejs użytkownika zadań zawiera pole Git i opcję dodawania lub edytowania ustawień usługi Git.

Można skonfigurować następujące typy zadań, aby używać zdalnego repozytorium Git:

  • Notesy
  • Skrypty w języku Python
  • Pliki SQL
  • dbt

Wszystkie zadania w zadaniu muszą odwoływać się do tego samego zatwierdzenia w repozytorium zdalnym. Musisz określić tylko jedną z następujących czynności dla zadania, które używa repozytorium zdalnego:

  • branch: nazwa gałęzi, na przykład main.
  • tag: nazwa tagu, na przykład release-1.0.0.
  • commit: skrót określonego zatwierdzenia, na przykład e0056d01.

Po rozpoczęciu uruchamiania zadania usługa Databricks wykonuje zatwierdzenie migawki repozytorium zdalnego, aby upewnić się, że całe zadanie działa względem tej samej wersji kodu.

Po wyświetleniu historii uruchamiania zadania, które uruchamia kod przechowywany w zdalnym repozytorium Git, panel Szczegóły przebiegu zadania zawiera szczegóły narzędzia Git, w tym zatwierdzenie SHA skojarzone z uruchomieniem. Zobacz Wyświetlanie historii uruchamiania zadań.

Uwaga

Zadania skonfigurowane do używania zdalnego repozytorium Git nie mogą zapisywać w plikach obszaru roboczego. Te zadania muszą zapisywać dane tymczasowe w magazynie efemerycznym dołączonym do węzła sterownika, skonfigurowanego do uruchomienia obliczeń, oraz dane trwałe do woluminu lub tabeli.

Usługa Databricks zaleca odwoływanie się do ścieżek obszaru roboczego w folderach Git tylko w celu szybkiego iteracji i testowania podczas programowania. Podczas przenoszenia zadań do środowiska przejściowego i produkcyjnego usługa Databricks zaleca skonfigurowanie tych zadań w celu odwołania się do zdalnego repozytorium Git. Aby dowiedzieć się więcej o korzystaniu ze zdalnego repozytorium Git z zadaniem usługi Databricks, zobacz następującą sekcję.

Konfigurowanie dostawcy usługi Git

Interfejs użytkownika zadań zawiera okno dialogowe konfigurowania zdalnego repozytorium Git. To okno dialogowe jest dostępne z panelu Szczegóły zadania w nagłówku Git lub w dowolnym zadaniu skonfigurowanym do korzystania z dostawcy usługi Git.

Wyświetlane opcje dostępu do okna dialogowego różnią się w zależności od typu zadania i tego, czy dla zadania skonfigurowano już odwołanie git. Przyciski umożliwiające uruchomienie okna dialogowego obejmują dodawanie ustawień usługi Git, edytowanie lub dodawanie dokumentacji git.

W oknie dialogowym Informacje o usłudze Git (po prostu oznaczone jako Git w przypadku uzyskania dostępu do panelu Szczegóły zadania) wprowadź następujące szczegóły:

  • Adres URL repozytorium Git.
  • Z listy rozwijanej wybierz dostawcę Git.
  • W polu odniesienia Git wprowadź identyfikator gałęzi, tagu lub komita odpowiadającego wersji kodu źródłowego, który chcesz uruchomić.
  • Wybierz gałęzi, tag lub zatwierdzenie z listy rozwijanej.

Uwaga

W oknie dialogowym mogą pojawić się następujące monity: brakuje poświadczeń usługi Git dla tego konta. Dodaj poświadczenia. Przed użyciem repozytorium Git należy skonfigurować zdalne repozytorium Git jako odwołanie. Zobacz Konfigurowanie folderów Git usługi Databricks (Repos).

Konfigurowanie progów czasu trwania przebiegu zadania lub metryki zaległości przesyłania strumieniowego

Ważny

Możliwość obserwowania przesyłania strumieniowego zadań usługi Databricks znajduje się w publicznej wersji zapoznawczej.

Możesz skonfigurować opcjonalne progi czasu trwania wykonania zadania lub metryki zapasu przesyłania strumieniowego. Aby skonfigurować progi czasu trwania lub przesyłania strumieniowego, kliknij Czas trwania i progi zaległości przesyłania strumieniowego w panelu szczegółów zadania.

Aby skonfigurować progi czasu trwania zadania, w tym oczekiwany i maksymalny czas jego ukończenia, wybierz Czas trwania w menu rozwijanym Metryka. Wprowadź czas trwania w polu Ostrzeżenie , aby skonfigurować oczekiwany czas ukończenia zadania. Jeśli zadanie przekroczy ten próg, zostanie wyzwolone zdarzenie. To zdarzenie służy do powiadamiania, gdy zadanie działa wolno. Zobacz Konfigurowanie powiadomień dla wolnych zadań. Aby skonfigurować maksymalny czas ukończenia zadania, wprowadź maksymalny czas trwania w polu Limit czasu . Jeśli zadanie nie zostanie ukończone w tym czasie, usługa Azure Databricks ustawia jego stan na "Przekroczono limit czasu".

Aby skonfigurować próg dla metryki zaległości w przesyłaniu strumieniowym, wybierz metrykę w menu rozwijanym Metryka i wprowadź wartość progu. Aby dowiedzieć się więcej o określonych metrykach obsługiwanych przez źródło przesyłania strumieniowego, zobacz Wyświetl metryki dla zadań przesyłania strumieniowego.

Jeśli zdarzenie jest wyzwalane z powodu przekroczenia progu, możesz użyć zdarzenia do wysłania powiadomienia. Zobacz Konfigurowanie powiadomień dla wolnych zadań.

Opcjonalnie można określić progi czasu trwania dla zadań podrzędnych. Zobacz Konfigurowanie progów dla czasu wykonywania zadania lub metryk zaległości przesyłania strumieniowego.