Udostępnij za pośrednictwem


Konfigurowanie obliczeń dla zadań

Ten artykuł zawiera zalecenia i zasoby dotyczące konfigurowania zasobów obliczeniowych dla zadań usługi Databricks.

Ważne

Ograniczenia dotyczące przetwarzania bezserwerowego dla zadań obejmują następujące elementy:

  • Brak obsługi planowania ciągłego .
  • Brak obsługi domyślnych lub opartych na czasie wyzwalaczy interwałów w Strumieniowaniu Strukturalnym.

Aby uzyskać więcej ograniczeń, zobacz Ograniczenia obliczeń bezserwerowych.

Każda praca może mieć jedno lub więcej zadań. Należy zdefiniować zasoby obliczeniowe dla każdego zadania. Wiele zadań zdefiniowanych dla tego samego zadania może używać tego samego zasobu obliczeniowego.

Obraz przedstawiający zadanie z wieloma próbami i skojarzonymi zasobami obliczeniowymi w chmurze

W poniższej tabeli przedstawiono zalecane i obsługiwane typy obliczeń dla każdego typu zadania.

Uwaga

Bezserwerowe obliczenia dla zadań mają ograniczenia i nie obsługują wszystkich obciążeń. Zobacz Ograniczenia obliczeń bezserwerowych.

Zadanie Zalecane obliczenia Obsługiwane zasoby obliczeniowe
Zeszyty Zadania bezserwerowe Zadania bezserwerowe, zadania klasyczne, klasyczne zadania ogólnego przeznaczenia
Skrypt języka Python Zadania bezserwerowe Zadania bezserwerowe, zadania klasyczne, klasyczne zadania ogólnego przeznaczenia
Koło języka Python Zadania bezserwerowe Zadania bezserwerowe, zadania klasyczne, klasyczne zadania ogólnego przeznaczenia
SQL Bezserwerowa usługa SQL Warehouse Bezserwerowy Magazyn SQL, zaawansowany Magazyn SQL
Proces DLT Potok bezserwerowy Potok bezserwerowy, potok klasyczny
dbt Bezserwerowa usługa SQL Warehouse Bezserwerowa usługa SQL Warehouse, pro SQL Warehouse
Polecenia interfejsu wiersza polecenia dbt Zadania bezserwerowe Zadania bezserwerowe, zadania klasyczne, klasyczne zadania ogólnego przeznaczenia
JAR Zadania klasyczne Klasyczne prace, uniwersalne klasyki
Przesyłanie zadań Spark Zadania klasyczne Zadania klasyczne

Koszty zadań są powiązane z mocą obliczeniową potrzebną do wykonywania zadań. Aby uzyskać więcej informacji, zobacz Cennik usługi Databricks.

Jak mogę skonfigurować zasoby obliczeniowe dla zadań?

Obliczenia zadań klasycznych są konfigurowane bezpośrednio z interfejsu użytkownika zadań usługi Databricks, a te konfiguracje są częścią definicji zadania. Wszystkie inne dostępne typy obliczeniowe przechowują swoje konfiguracje z innymi aktywami obszaru roboczego. Poniższa tabela zawiera więcej szczegółów:

Typ środowiska obliczeniowego Szczegóły
Obliczenia dotyczące klasycznych zadań Obliczenia dla zadań klasycznych można skonfigurować przy użyciu tego samego interfejsu użytkownika i ustawień dostępnych dla obliczeń wszystkich celów. Zobacz Informacje o konfiguracji obliczeniowej.
Bezserwerowe obliczenia dla zadań Bezserwerowe obliczenia dla zadań są domyślne dla wszystkich zadań, które je obsługują. Usługa Databricks zarządza ustawieniami obliczeniowymi dla bezserwerowych obliczeń. Zobacz Uruchom swoje zadanie Azure Databricks z użyciem bezserwerowych obliczeń w przepływach pracy. nn Administrator obszaru roboczego musi włączyć bezserwerowe obliczenia, aby ta opcja jest widoczna. Zobacz Włączanie przetwarzania bezserwerowego.
Magazyny SQL Bezserwerowe i profesjonalne magazyny danych SQL są konfigurowane przez administratorów obszaru roboczego lub użytkowników z uprawnieniami do nieograniczonego tworzenia klastrów. Konfigurujesz zadania do uruchamiania względem istniejących hurtowni SQL. Zobacz Nawiązywanie połączenia z usługą SQL Warehouse.
Obliczenia potoku DLT Podczas konfigurowania potoków należy skonfigurować ustawienia obliczeniowe dla potoków DLT. Zobacz Konfigurowanie obliczeń dla potoku DLT. nn Azure Databricks zarządza zasobami obliczeniowymi dla bezserwerowych potoków DLT. Zobacz Konfigurowanie bezserwerowego potoku DLT.
Obliczenia ogólnego przeznaczenia Opcjonalnie można skonfigurować zadania przy użyciu klasycznych obliczeń ogólnego przeznaczenia. Usługa Databricks nie zaleca tej konfiguracji dla zadań produkcyjnych. Zobacz Informacje o konfiguracji obliczeniowej i Czy zasoby obliczeniowe przeznaczone do wszystkich celów powinny być kiedykolwiek używane dla zadań?.

Udostępnianie zasobów obliczeniowych między zadaniami

Skonfiguruj zadania tak, aby używały tych samych zasobów obliczeniowych w celu optymalizacji wykorzystania zasobów przy pomocą zadań, które zarządzają wieloma zadaniami. Udostępnianie zasobów obliczeniowych między zadaniami może zmniejszyć opóźnienie związane z czasem uruchamiania.

Za pomocą pojedynczego zasobu obliczeniowego zadania można uruchamiać wszystkie zadania, które są częścią zadania lub wiele zasobów zadań zoptymalizowanych pod kątem określonych obciążeń. Wszystkie obliczenia zadań skonfigurowane jako część zadania są dostępne dla wszystkich innych zadań w zadaniu.

W poniższej tabeli przedstawiono różnice między obliczeniami zadań skonfigurowanymi dla pojedynczego zadania i obliczeniami zadań współużytkowanych między zadaniami:

Jedno zadanie Współużytkowany między zadaniami
Start Po rozpoczęciu uruchamiania zadania. Kiedy rozpoczyna się pierwsze uruchomienie zadania skonfigurowanego do korzystania z zasobu obliczeniowego.
Zakończ Po uruchomieniu zadania. Po zakończeniu wykonywania zadania skonfigurowanego do korzystania z zasobów obliczeniowych.
Bezczynne obliczenia Nie dotyczy. Funkcjonalność obliczeniowa pozostaje włączona i w stanie bezczynności, gdy zadania, które nie korzystają z zasobów obliczeniowych, są uruchamiane.

Wspólny klaster zadań jest ograniczony do jednego uruchomienia zadania i nie może być używany przez inne zadania lub uruchomienia tego samego zadania.

Nie można zadeklarować bibliotek w konfiguracji współdzielonego klastra zadań. Biblioteki zależne należy dodać w ustawieniach zadań.

Przeglądanie, konfigurowanie i zamiana zadań obliczeniowych

Sekcja Obliczenia w panelu Szczegóły zadania zawiera listę wszystkich zasobów obliczeniowych skonfigurowanych dla zadań w bieżącym zadaniu.

Zadania skonfigurowane do używania zasobu obliczeniowego są wyróżnione na wykresie zadań po umieszczeniu wskaźnika myszy na specyfikacji obliczeniowej.

Użyj przycisku Zamień, aby zmienić obliczenia dla wszystkich zadań skojarzonych z zasobem obliczeniowym.

Zasoby obliczeniowe zadań klasycznych mają opcję Konfiguruj . Inne zasoby obliczeniowe udostępniają opcje wyświetlania i modyfikowania szczegółów konfiguracji obliczeniowej.

Zalecenia dotyczące konfigurowania obliczeń zadań klasycznych

Ta sekcja koncentruje się na ogólnych zaleceniach dotyczących funkcji i konfiguracji, które mogą przynieść korzyści niektórym przepływom pracy. Konkretne zalecenia dotyczące konfigurowania rozmiaru i typów zasobów obliczeniowych różnią się w zależności od obciążenia.

Usługa Databricks zaleca włączenie Przyspieszania Photon, używanie najnowszych wersji środowiska Databricks Runtime oraz korzystanie z zasobów obliczeniowych skonfigurowanych dla Unity Catalog.

Bezserwerowe obliczenia dla zadań zarządzają całą infrastrukturą, eliminując następujące zagadnienia. Zobacz Jak uruchomić zadanie Azure Databricks z bezserwerowymi obliczeniami dla przepływów pracy.

Uwaga

Procesy Structured Streaming mają określone zalecenia. Zobacz Zagadnienia dotyczące produkcji strukturalnego przesyłania strumieniowego.

Korzystanie ze standardowego trybu dostępu (dawniej trybu dostępu współdzielonego)

Usługa Databricks zaleca używanie standardowego trybu dostępu dla zadań. Zobacz „Tryby dostępu” dla więcej informacji.

Uwaga

Standardowy tryb dostępu nie obsługuje niektórych obciążeń i funkcji. Usługa Databricks zaleca dedykowany tryb dostępu (dawniej tryb dostępu pojedynczego użytkownika) dla tych obciążeń. Zobacz Ograniczenia trybu dostępu obliczeniowego dla Unity Catalog.

Korzystanie z zasad klastra

Usługa Databricks zaleca, aby administratorzy obszarów roboczych definiowali zasady klastra dla zadań i wymuszali te zasady dla wszystkich użytkowników, którzy konfigurują zadania.

Zasady klastra umożliwiają administratorom obszarów roboczych ustawianie kontroli kosztów i ograniczanie opcji konfiguracji użytkowników. Aby uzyskać szczegółowe informacje na temat konfigurowania zasad klastra, zobacz Tworzenie zasad obliczeniowych i zarządzanie nimi.

Usługa Azure Databricks udostępnia domyślne zasady skonfigurowane dla zadań. Administratorzy mogą udostępnić te zasady innym użytkownikom obszaru roboczego. Zobacz Job Compute.

Używanie skalowania automatycznego

Skonfiguruj skalowanie automatyczne, aby długotrwałe zadania mogły dynamicznie dodawać i usuwać węzły robocze podczas wykonywania zadań. Zobacz Włącz skalowanie automatyczne.

Użyj puli, aby skrócić czas uruchamiania klastra

Pule zasobów obliczeniowych umożliwiają rezerwę zasobów obliczeniowych od dostawcy usług w chmurze. Pule są korzystne, aby zmniejszyć czas rozpoczęcia nowego klastra zadań i zapewnić dostępność zasobów obliczeniowych. Zobacz Odniesienie do konfiguracji puli.

Użyj wystąpień typu spot

Skonfiguruj instancje typu spot dla obciążeń, które mają nieścisłe wymagania dotyczące opóźnień, w celu optymalizacji kosztów. Zobacz instancje typu Spot.

Czy uniwersalne obliczenia powinny być stosowane do zadań?

Istnieje wiele powodów, dla których usługa Databricks odradza korzystanie z obliczeń ogólnego przeznaczenia dla zadań, w tym między innymi:

  • Opłaty za usługę Azure Databricks dla obliczeń ogólnego przeznaczenia są naliczane według innej stawki niż dla obliczeń zadań.
  • Proces obliczeniowy zadania kończy się automatycznie po zakończeniu wykonania zadania. Obliczenia ogólnego przeznaczenia obsługują automatyczne kończenie, które jest powiązane z brakiem aktywności, a nie końcem uruchomienia zadania.
  • Obliczenia ogólnego przeznaczenia są często współużytkowane przez zespoły użytkowników. Zadania zaplanowane dla obliczeń wszystkich celów często zwiększają opóźnienie ze względu na konkurencję dla zasobów obliczeniowych.
  • Wiele zaleceń dotyczących optymalizowania konfiguracji obliczeniowej zadań nie jest odpowiednie dla typu zapytań ad hoc i obciążeń interakcyjnych uruchamianych w obliczeniach wszystkich celów.

Poniżej przedstawiono przypadki użycia, w których można użyć uniwersalnych obliczeń do wykonywania zadań:

  • Iteracyjnie opracowujesz lub testujesz nowe zadania. Czas uruchamiania zadań obliczeniowych może sprawić, że iteracyjny rozwój będzie żmudny. Obliczenia ogólnego przeznaczenia umożliwiają szybkie stosowanie zmian i uruchamianie zadania.
  • Masz krótkotrwałe zadania, które muszą być uruchamiane często lub zgodnie z określonym harmonogramem. Nie ma czasu uruchamiania skojarzonego z aktualnie uruchomionymi obliczeniami ogólnymi. Rozważ koszty związane z czasem bezczynności, jeśli używasz tego wzorca.

Obliczenia bezserwerowe w przypadku zadań są zalecanym zamiennikiem dla większości typów zadań, jeśli rozważasz ich uruchomienie z użyciem obliczeń ogólnego przeznaczenia.