Udostępnij za pośrednictwem


Konfigurowanie i edytowanie zadań usługi Databricks

Ten artykuł koncentruje się na instrukcjach dotyczących tworzenia, konfigurowania i edytowania zadań przy użyciu interfejsu użytkownika obszaru roboczego Przepływy pracy. Usługa Azure Databricks ma inne punkty wejścia i narzędzia do konfiguracji, w tym następujące:

  • Aby dowiedzieć się więcej na temat tworzenia i uruchamiania zadań przy użyciu interfejsu wiersza polecenia usługi Databricks, zobacz Co to jest interfejs wiersza polecenia usługi Databricks?.
  • Aby dowiedzieć się więcej na temat tworzenia i uruchamiania zadań przy użyciu interfejsu API zadań, zobacz Zadania w dokumentacji interfejsu API REST.
  • Aby dowiedzieć się, jak uruchamiać i planować zadania bezpośrednio w notesie usługi Databricks, zobacz Tworzenie zaplanowanych zadań notesu i zarządzanie nimi.

Napiwek

Aby wyświetlić zadanie jako YAML, kliknij menu kebab po lewej stronie pozycji Uruchom teraz dla zadania, a następnie kliknij pozycję Przełącz na wersję kodu (YAML).

Tworzenie nowego zadania

W tej sekcji opisano minimalną konfigurację wymaganą do utworzenia nowego zadania w celu zaplanowana zadania notesu za pomocą interfejsu użytkownika obszaru roboczego.

Zadania zawierają co najmniej jedno zadanie. Nowe zadanie można utworzyć, konfigurując pierwsze zadanie dla tego zadania.

Uwaga

Każdy typ zadania ma dynamiczne opcje konfiguracji w interfejsie użytkownika obszaru roboczego. Zobacz Konfigurowanie i edytowanie zadań usługi Databricks.

  1. Kliknij pozycję Ikona przepływów pracyPrzepływy pracy na pasku bocznym i kliknij pozycję .Przycisk Utwórz zadanie
  2. Wprowadź nazwę zadania.
  3. Select notatnik dla pola ścieżki.
  4. Kliknij pozycję Utwórz zadanie.

Jeśli obszar roboczy nie jest włączony do bezserwerowych zasobów obliczeniowych dla zadań, musisz wybrać opcję obliczeniową select. Usługa Databricks zaleca zawsze używanie zasobów obliczeniowych zadań podczas konfigurowania zadań.

Nowe zadanie zostanie wyświetlone w zadaniach obszaru roboczego list z nazwą domyślną New Job <date> <time>.

Select zadania do edycji w obszarze roboczym

Aby edytować istniejące zadanie za pomocą interfejsu użytkownika obszaru roboczego, wykonaj następujące czynności:

  1. Kliknij pozycję Ikona przepływów pracyPrzepływy pracy na pasku bocznym.
  2. W nazwie columnkliknij nazwę zadania.

Użyj interfejsu użytkownika zadań, aby wykonać następujące czynności:

  • Edytowanie ustawień zadania
  • Zmienianie nazwy, klonowanie lub usuwanie zadania
  • Dodawanie nowych zadań do istniejącego zadania
  • Edytowanie ustawień zadania

Uwaga

Można również wyświetlić definicje JSON do użycia z interfejsem API REST get, utworzyći punkty końcowe reset.

Edytowanie ustawień zadania

Panel boczny zawiera szczegóły zadania. Możesz zmienić wyzwalacz zadania, konfigurację obliczeniową, powiadomienia, maksymalną liczbę współbieżnych przebiegów, skonfigurować progi czasu trwania i dodać lub zmienić tagi. Możesz również edytować uprawnienia zadania, jeśli włączono kontrolę dostępu do zadań.

Dodaj parameters dla wszystkich zadań roboczych

Parameters skonfigurowane na poziomie zadania są przekazywane do zadań, które akceptują wartość kluczową parameters, w tym pliki języka Python wheel skonfigurowane do akceptowania argumentów słów kluczowych. Zobacz Sparametryzowanie zadań.

Dodawanie tagów do zadania

Aby dodać etykiety lub atrybuty klucz-wartość do zadania, możesz dodać tagi podczas edytowania zadania. Możesz używać tagów do filtrowania zadań w Zadania list. Możesz na przykład użyć tagu department do filtrowania wszystkich zadań należących do określonego działu.

Uwaga

Databricks zaleca używanie etykiet tylko dla niewrażliwych danych, ponieważ nie są one przeznaczone do przechowywania poufnych informacji, takich jak dane osobowe lub hasła, values.

Tagi są również propagowane do klastrów zadań utworzonych podczas uruchamiania zadania, co umożliwia używanie tagów z istniejącym monitorowaniem klastra.

Kliknij pozycję + Tag w panelu bocznym Szczegóły zadania, aby dodać lub edytować tagi. Tag można dodać jako etykietę lub parę klucz-wartość. Aby dodać etykietę, wprowadź etykietę w polu Klucz i pozostaw puste pole Wartość .

Dodawanie zasad budżetu do zadania

Ważny

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

Jeśli obszar roboczy używa zasad budżetu do przypisywania użycia bezserwerowego, możesz zasad budżetu zadań przy użyciu ustawienia zasad budżetu w panelu bocznym szczegóły zadania. Zobacz Atrybut użycia bezserwerowego przy użyciu zasad budżetu.

Zmienianie nazwy, klonowanie lub usuwanie zadania

Aby zmienić nazwę zadania, przejdź do interfejsu użytkownika zadań i kliknij nazwę zadania.

Nowe zadanie można szybko utworzyć, klonując istniejące zadanie. Klonowanie zadania powoduje utworzenie identycznej kopii zadania z wyjątkiem identyfikatora zadania. Aby sklonować zadanie, wykonaj następujące czynności:

  1. Przejdź do interfejsu użytkownika zadań dla zadania.
  2. Kliknij Menu Kebab przycisk Uruchom teraz .
  3. Select Sklonuj zadanie z menu rozwijanego.
  4. Wprowadź nazwę sklonowanego zadania.
  5. Kliknij pozycję Klonuj.

Usuwanie zadania

Aby usunąć zadanie, przejdź do strony zadania, kliknij menu Kebab obok nazwy zadania i selectUsuń zadanie z menu rozwijanego.

Używanie usługi Git z zadaniami

Jeśli zadanie zawiera jakiekolwiek zadania, które obsługują korzystanie z zdalnego dostawcy usługi Git, interfejs użytkownika zadań zawiera pole Git i opcję dodawania lub edytowania ustawień usługi Git.

Można skonfigurować następujące typy zadań, aby używać zdalnego repozytorium Git:

  • Notesy
  • Skrypty w języku Python
  • Pliki SQL
  • dbt

Wszystkie zadania w zadaniu muszą odwoływać się do tego samego zatwierdzenia w repozytorium zdalnym. Musisz określić tylko jedną z następujących czynności dla zadania, które używa repozytorium zdalnego:

  • branch: nazwa gałęzi, na przykład main.
  • tag: nazwa tagu, na przykład release-1.0.0.
  • commit: skrót określonego zatwierdzenia, na przykład e0056d01.

Po rozpoczęciu uruchamiania zadania usługa Databricks wykonuje zatwierdzenie migawki repozytorium zdalnego, aby upewnić się, że całe zadanie działa względem tej samej wersji kodu.

Po wyświetleniu historii uruchamiania zadania, które uruchamia kod przechowywany w zdalnym repozytorium Git, panel Szczegóły przebiegu zadania zawiera szczegóły narzędzia Git, w tym zatwierdzenie SHA skojarzone z uruchomieniem. Zobacz Wyświetlanie historii uruchamiania zadań.

Uwaga

Zadania skonfigurowane do używania zdalnego repozytorium Git nie mogą zapisywać w plikach obszaru roboczego. Te zadania muszą zapisywać dane tymczasowe w pamięci tymczasowej dołączonej do węzła sterującego, skonfigurowanego do uruchamiania zadania, a trwałe dane do woluminu lub table.

Usługa Databricks zaleca odwoływanie się do ścieżek obszaru roboczego w folderach Git tylko w celu szybkiego iteracji i testowania podczas programowania. Podczas przenoszenia zadań do środowiska przejściowego i produkcyjnego usługa Databricks zaleca skonfigurowanie tych zadań w celu odwołania się do zdalnego repozytorium Git. Aby dowiedzieć się więcej o korzystaniu ze zdalnego repozytorium Git z zadaniem usługi Databricks, zobacz następującą sekcję.

Konfigurowanie dostawcy usługi Git

Interfejs użytkownika zadań zawiera okno dialogowe konfigurowania zdalnego repozytorium Git. To okno dialogowe jest dostępne z panelu Szczegóły zadania w nagłówku Git lub w dowolnym zadaniu skonfigurowanym do korzystania z dostawcy usługi Git.

Wyświetlane opcje dostępu do okna dialogowego różnią się w zależności od typu zadania i tego, czy dla zadania skonfigurowano już odwołanie git. Przyciski umożliwiające uruchomienie okna dialogowego obejmują dodawanie ustawień usługi Git, edytowanie lub dodawanie dokumentacji git.

W oknie dialogowym Informacje o usłudze Git (po prostu oznaczone jako Git w przypadku uzyskania dostępu do panelu Szczegóły zadania) wprowadź następujące szczegóły:

  • Adres URL repozytorium Git.
  • Select Wybierz dostawcę Git z listy rozwijanej list.
  • W polu Git reference wprowadź dla gałęzi, tagu lub zatwierdzenia odpowiadające wersji kodu źródłowego, którą chcesz uruchomić.
  • Select gałąź, taglub commit z listy rozwijanej.

Uwaga

Możliwe, że w oknie dialogowym pojawią się następujące monity: brak Git credentials dla tego konta. Dodaj credentials. Przed użyciem repozytorium Git należy skonfigurować zdalne repozytorium Git jako odwołanie. Zobacz Set repozytoria Git w usłudze Databricks (Repos).

Konfigurowanie progów czasu trwania przebiegu zadania lub metryki zaległości przesyłania strumieniowego

Ważny

Możliwość obserwowania przesyłania strumieniowego zadań usługi Databricks znajduje się w publicznej wersji zapoznawczej.

Możesz skonfigurować opcjonalne progi czasu trwania wykonania zadania lub metryki zapasu przesyłania strumieniowego. Aby skonfigurować progi czasu trwania lub przesyłania strumieniowego, kliknij Czas trwania i progi zaległości przesyłania strumieniowego w panelu szczegółów zadania.

Aby skonfigurować progi czasu trwania zadania, w tym oczekiwane i maksymalne czasy ukończenia zadania, Czas trwania uruchamiania w menu rozwijanym Metryka . Wprowadź czas trwania w polu Ostrzeżenie , aby skonfigurować oczekiwany czas ukończenia zadania. Jeśli zadanie przekroczy ten próg, zostanie wyzwolone zdarzenie. To zdarzenie służy do powiadamiania, gdy zadanie działa wolno. Zobacz Konfigurowanie powiadomień dla wolnych zadań. Aby skonfigurować maksymalny czas ukończenia zadania, wprowadź maksymalny czas trwania w polu Limit czasu . Jeśli zadanie nie zostanie ukończone w tym czasie, usługa Azure Databricks ustawia jego stan na "Przekroczono limit czasu".

Aby skonfigurować próg dla metryki listy prac przesyłania strumieniowego, wybierz metrykę z menu rozwijanego Metryka i wprowadź wartość progu select. Aby dowiedzieć się więcej o określonych metrykach obsługiwanych przez źródło przesyłania strumieniowego, zobacz Wyświetl metryki dla zadań przesyłania strumieniowego.

Jeśli zdarzenie jest wyzwalane z powodu przekroczenia progu, możesz użyć zdarzenia do wysłania powiadomienia. Zobacz Konfigurowanie powiadomień dla powolnych zadań.

Opcjonalnie można określić progi czasu trwania dla zadań podrzędnych. Zobacz Konfigurowanie progów dla czasu wykonywania zadania lub metryk zaległości przesyłania strumieniowego.