Udostępnij za pośrednictwem


Najlepsze rozwiązania dotyczące przetwarzania bezserwerowego

W tym artykule przedstawiono zalecenia dotyczące używania bezserwerowych obliczeń w notesach i zadaniach.

Postępując zgodnie z tymi zaleceniami, zwiększysz produktywność, wydajność i niezawodność obciążeń w usłudze Azure Databricks.

Migrowanie obciążeń do obliczeń bezserwerowych

Aby chronić izolację kodu użytkownika, przetwarzanie bezserwerowe korzysta z bezpiecznego trybu dostępu współdzielonego usługi Azure Databricks. W związku z tym niektóre obciążenia będą wymagać zmian kodu w celu kontynuowania pracy nad bezserwerowymi obliczeniami. Aby uzyskać list nieobsługiwanych funkcji, zobacz Ograniczenia obliczeniowe bezserwerowe.

Niektóre obciążenia są łatwiejsze do migracji niż inne. Obciążenia spełniające następujące wymagania będą najłatwiejsze do zmigrowania:

  • Uzyskiwane dane muszą być przechowywane w środowisku Unity Catalog.
  • Obciążenie powinno być zgodne z obliczeniami trybu dostępu współdzielonego.
  • Obciążenie powinno być zgodne z środowiskiem Databricks Runtime 14.3 lub nowszym.

Aby sprawdzić, czy obciążenie będzie działać na bezserwerowym środowisku obliczeniowym, uruchom je na zasobie obliczeniowym bezserwerowym z trybem dostępu współdzielonego i środowiskiem Uruchomieniowym usługi Databricks w wersji 14.3 lub nowszej. Jeśli przebieg zakończy się pomyślnie, obciążenie jest gotowe do migracji.

Ze względu na znaczenie tej zmiany i obecne list ograniczeń, wiele obciążeń nie będzie migrować bezproblemowo. Zamiast odzyskić wszystko, usługa Azure Databricks zaleca ustalanie priorytetów zgodności obliczeń bezserwerowych podczas tworzenia nowych obciążeń.

Pozyskiwanie danych z systemów zewnętrznych

Ponieważ przetwarzanie bezserwerowe nie obsługuje instalacji plików JAR, nie można użyć sterownika JDBC lub ODBC do pozyskiwania danych z zewnętrznego źródła danych.

Alternatywne strategie, których można użyć do pozyskiwania, obejmują:

Alternatywy pozyskiwania

W przypadku korzystania z obliczeń bezserwerowych można również użyć następujących funkcji, aby wykonywać zapytania dotyczące danych bez ich przenoszenia.

  • Jeśli chcesz limit duplikowanie danych lub zagwarantować, że wykonujesz zapytania dotyczące najświeższych możliwych danych, usługa Databricks zaleca korzystanie z funkcji udostępniania różnicowego. Zobacz Co to jest udostępnianie różnicowe?.
  • Jeśli chcesz wykonać pracę w zakresie raportowania ad hoc i weryfikacji koncepcji, usługa Databricks zaleca wypróbowanie odpowiedniego wyboru, co może być federacją lakehouse. Lakehouse Federacja umożliwia synchronizowanie całych baz danych do usługi Azure Databricks z systemów zewnętrznych i jest zarządzana przez platformę Unity Catalog. Zobacz Co to jest Federacja Lakehouse?.

Wypróbuj jedną lub obie te funkcje i sprawdź, czy spełniają wymagania dotyczące wydajności zapytań.

Monitorowanie kosztów obliczeń bezserwerowych

Istnieje wiele funkcji, których można użyć, aby ułatwić monitorowanie kosztów obliczeń bezserwerowych: