Najlepsze rozwiązania dotyczące przetwarzania bezserwerowego
W tym artykule przedstawiono zalecenia dotyczące używania bezserwerowych obliczeń w notesach i zadaniach.
Postępując zgodnie z tymi zaleceniami, zwiększysz produktywność, wydajność i niezawodność obciążeń w usłudze Azure Databricks.
Migrowanie obciążeń do obliczeń bezserwerowych
Aby chronić izolację kodu użytkownika, przetwarzanie bezserwerowe korzysta z bezpiecznego trybu dostępu współdzielonego usługi Azure Databricks. W związku z tym niektóre obciążenia będą wymagać zmian kodu w celu kontynuowania pracy nad bezserwerowymi obliczeniami. Aby uzyskać list nieobsługiwanych funkcji, zobacz Ograniczenia obliczeniowe bezserwerowe.
Niektóre obciążenia są łatwiejsze do migracji niż inne. Obciążenia spełniające następujące wymagania będą najłatwiejsze do zmigrowania:
- Uzyskiwane dane muszą być przechowywane w środowisku Unity Catalog.
- Obciążenie powinno być zgodne z obliczeniami trybu dostępu współdzielonego.
- Obciążenie powinno być zgodne z środowiskiem Databricks Runtime 14.3 lub nowszym.
Aby sprawdzić, czy obciążenie będzie działać na bezserwerowym środowisku obliczeniowym, uruchom je na zasobie obliczeniowym bezserwerowym z trybem dostępu współdzielonego i środowiskiem Uruchomieniowym usługi Databricks w wersji 14.3 lub nowszej. Jeśli przebieg zakończy się pomyślnie, obciążenie jest gotowe do migracji.
Ze względu na znaczenie tej zmiany i obecne list ograniczeń, wiele obciążeń nie będzie migrować bezproblemowo. Zamiast odzyskić wszystko, usługa Azure Databricks zaleca ustalanie priorytetów zgodności obliczeń bezserwerowych podczas tworzenia nowych obciążeń.
Pozyskiwanie danych z systemów zewnętrznych
Ponieważ przetwarzanie bezserwerowe nie obsługuje instalacji plików JAR, nie można użyć sterownika JDBC lub ODBC do pozyskiwania danych z zewnętrznego źródła danych.
Alternatywne strategie, których można użyć do pozyskiwania, obejmują:
Bloki konstrukcyjne oparte na języku SQL, takie jak przesyłanie strumieniowe COPY INTO i , tables.
Automatyczne ładowanie w celu przyrostowego i wydajnego przetwarzania nowych plików danych w miarę ich przybycia do magazynu w chmurze. Zobacz Co to jest moduł automatycznego ładowania?.
Rozwiązania partnerów pozyskiwania danych. Zobacz Nawiązywanie połączenia z partnerami pozyskiwania przy użyciu programu Partner Connect.
Interfejs użytkownika dodawania danych do bezpośredniego przekazywania plików. Zobacz Przekazywanie plików do usługi Azure Databricks.
Alternatywy pozyskiwania
W przypadku korzystania z obliczeń bezserwerowych można również użyć następujących funkcji, aby wykonywać zapytania dotyczące danych bez ich przenoszenia.
- Jeśli chcesz limit duplikowanie danych lub zagwarantować, że wykonujesz zapytania dotyczące najświeższych możliwych danych, usługa Databricks zaleca korzystanie z funkcji udostępniania różnicowego. Zobacz Co to jest udostępnianie różnicowe?.
- Jeśli chcesz wykonać pracę w zakresie raportowania ad hoc i weryfikacji koncepcji, usługa Databricks zaleca wypróbowanie odpowiedniego wyboru, co może być federacją lakehouse. Lakehouse Federacja umożliwia synchronizowanie całych baz danych do usługi Azure Databricks z systemów zewnętrznych i jest zarządzana przez platformę Unity Catalog. Zobacz Co to jest Federacja Lakehouse?.
Wypróbuj jedną lub obie te funkcje i sprawdź, czy spełniają wymagania dotyczące wydajności zapytań.
Monitorowanie kosztów obliczeń bezserwerowych
Istnieje wiele funkcji, których można użyć, aby ułatwić monitorowanie kosztów obliczeń bezserwerowych:
Użyj systemu tables do tworzenia pulpitów nawigacyjnych, ustanawiania alertów w set i wykonywania zapytań ad hoc. Zobacz Monitorowanie kosztów obliczeń bezserwerowych.
Set alerty budżetowe na twoim koncie. Zobacz Monitorowanie wydatków na koncie przy użyciu budżetów.
Importowanie wstępnie skonfigurowanego pulpitu nawigacyjnego użycia. Zobacz Importowanie pulpitu nawigacyjnego użycia.