Konfigurowanie bezserwerowego potoku usługi Delta Live Tables
W tym artykule opisano konfiguracje bezserwerowych potoków usługi Delta Live Tables.
Usługa Databricks zaleca opracowywanie nowych potoków przy użyciu bezserwerowych. Niektóre obciążenia mogą wymagać skonfigurowania klasycznego środowiska obliczeniowego lub pracy ze starszym magazynem metadanych Hive. Zobacz
Uwaga
Potoki bezserwerowe zawsze używają silnika Unity Catalog. Unity Catalog dla Delta Live Tables jest dostępny w publicznym podglądzie i posiada pewne ograniczenia. Zobacz Use Unity Catalog with your Delta Live Tables pipelines (Używanie Catalog aparatu Unity za pomocą potoków usługi Delta Live).
Nie można ręcznie dodać ustawień obliczeniowych w
clusters
obiekcie w konfiguracji JSON dla potoku bezserwerowego. Próba wykonania tej czynności powoduje wystąpienie błędu.Aby uzyskać informacje na temat uprawnień i włączania dla bezserwerowych potoków DLT, zobacz Włączanie bezserwerowych obliczeń.
Jeśli musisz użyć połączenia usługi Azure Private Link z bezserwerowymi potokami DLT, skontaktuj się z przedstawicielem usługi Databricks.
Wymagania
Aby korzystać z potoków bezserwerowych, obszar roboczy musi mieć włączoną funkcję Unity Catalog.
Obszar roboczy musi znajdować się w regionie bezserwerowym.
Zalecana konfiguracja dla potoków bezserwerowych
Ważne
Uprawnienia do tworzenia klastra nie są wymagane do konfigurowania potoków bezserwerowych. Domyślnie wszyscy użytkownicy obszaru roboczego mogą używać potoków bezserwerowych.
Potoki bezserwerowe remove większości opcji konfiguracji, ponieważ usługa Azure Databricks zarządza całą infrastrukturą. Aby skonfigurować potok bezserwerowy, wykonaj następujące czynności:
- Kliknij delta live Tables na pasku bocznym.
- Kliknij pozycję Utwórz potok.
- Podaj unikatową nazwę potoku.
- Zaznacz pole wyboru obok pozycji Bezserwerowe.
- (Opcjonalnie) Użyj selektora plików, aby skonfigurować notesy i pliki obszaru roboczego jako kod źródłowy.
- Jeśli nie dodasz żadnego kodu źródłowego, zostanie utworzony nowy notes dla potoku. Notes jest tworzony w nowym katalogu w katalogu użytkownika, a link umożliwiający dostęp do tego notesu jest wyświetlany w polu Kod źródłowy w okienku Szczegóły potoku po utworzeniu potoku.
- Link umożliwiający dostęp do tego notesu znajduje się w polu Kod źródłowy w panelu Szczegóły potoku po utworzeniu potoku.
- Użyj przycisku Dodaj kod źródłowy, aby dodać dodatkowe zasoby kodu źródłowego.
- Jeśli nie dodasz żadnego kodu źródłowego, zostanie utworzony nowy notes dla potoku. Notes jest tworzony w nowym katalogu w katalogu użytkownika, a link umożliwiający dostęp do tego notesu jest wyświetlany w polu Kod źródłowy w okienku Szczegóły potoku po utworzeniu potoku.
- Select i Catalog do publikowania danych.
- Select Schema w catalog. tables przesyłanie strumieniowe i zmaterializowane obiekty views zdefiniowane w potoku są tworzone w tym schema.
- Kliknij pozycję Utwórz.
Te zalecane konfiguracje tworzą nowy potok skonfigurowany do uruchamiania w trybie wyzwalanym i bieżącym kanale. Ta konfiguracja jest zalecana w wielu przypadkach użycia, w tym w przypadku programowania i testowania, i jest odpowiednia dla obciążeń produkcyjnych, które powinny być uruchamiane zgodnie z harmonogramem. Aby uzyskać szczegółowe informacje na temat planowania potoków, zobacz zadania potoku delta live Tables dla zadań.
Możesz również przekonwertować istniejące potoki skonfigurowane z Unity Catalog do użycia w trybie bezserwerowym. Zobacz Konwertowanie istniejącego potoku w celu użycia bezserwerowego.
Inne zagadnienia dotyczące konfiguracji
Następujące opcje konfiguracji są również dostępne dla potoków bezserwerowych:
- Możesz użyć trybu potoku ciągłego podczas uruchamiania potoków w środowisku produkcyjnym. Zobacz Wyzwalane a tryb potoku ciągłego.
- Dodaj powiadomienia dotyczące aktualizacji wiadomości e-mail na podstawie warunków powodzenia lub niepowodzenia. Zobacz Dodawanie powiadomień e-mail dotyczących zdarzeń potoku.
- Użyj pola Configuration, aby set pary klucz-wartość dla potoku. Te konfiguracje służą dwóm celom:
- Set dowolny parameters, do którego można się odwołać w kodzie źródłowym. Zobacz Use parameters with Delta Live Tables pipelines (Używanie parameters z potokami usługi Delta Live Tables).
- Konfigurowanie ustawień potoku i konfiguracji platformy Spark. Zobacz właściwości usługi Delta Live Tables.
- Użyj kanału
w wersji zapoznawczej, aby przetestować potok przed oczekującymi zmianami środowiska uruchomieniowego usługi Delta Live i nowymi funkcjami wersji próbnej.
Polityka budżetowa
Ważne
Ta funkcja jest dostępna w publicznej wersji zapoznawczej.
Zasady budżetowe umożliwiają organizacji stosowanie tagów niestandardowych w przypadku użycia bezserwerowego na potrzeby szczegółowego przypisywania rozliczeń. Po
Uwaga
Po przypisaniu zasad budżetu istniejące potoki nie są automatycznie oznaczane zasadami. Jeśli chcesz dołączyć do nich zasady, musisz ręcznie update istniejących potoków.
Aby uzyskać więcej informacji na temat zasad budżetu, zobacz Atrybut użycia bezserwerowego przy użyciu zasad budżetu.
Funkcje potoku bezserwerowego
Oprócz uproszczenia konfiguracji potoki bezserwerowe mają następujące funkcje:
refresh przyrostowych dla zmaterializowanych views: aktualizacje materializowane views są odświeżane przyrostowo, gdy jest to możliwe. Przyrostowe refresh ma takie same wyniki jak pełne przeliczenie. update korzysta z pełnego refresh, jeśli nie można obliczyć wyników przyrostowo. Zobacz refresh przyrostowe, aby uzyskać zmaterializowane views.
Potokowanie strumienia: aby zwiększyć wykorzystanie, przepływność i opóźnienie dla obciążeń danych przesyłanych strumieniowo, takich jak pozyskiwanie danych, mikrobajty są potokowe. Innymi słowy, zamiast uruchamiać mikrobajty sekwencyjnie, takie jak standardowe przesyłanie strumieniowe ze strukturą platformy Spark, bezserwerowe potoki DLT są uruchamiane jednocześnie, co zwiększa wykorzystanie zasobów obliczeniowych. Potoki potokowe strumienia są domyślnie włączone w potokach DLT bezserwerowych.
Pionowe skalowanie automatyczne: bezserwerowe potoki DLT uzupełniają poziome skalowanie automatyczne zapewniane przez Databricks poprzez ulepszone skalowanie, które automatycznie przydziela najbardziej ekonomiczne typy instancji, zdolne do uruchamiania potoku Delta Live Tables bez awarii spowodowanych błędami braku pamięci. Zobacz Co to jest skalowanie automatyczne w pionie?
Co to jest skalowanie automatyczne w pionie?
Bezserwerowe potoki DLT automatyczne skalowanie w pionie przydziela najbardziej ekonomiczne dostępne typy wystąpień do uruchamiania aktualizacji potoków Delta Live Tables bez niepowodzeń z powodu błędów braku pamięci. Skalowanie automatyczne w pionie skaluje się w górę, gdy do uruchomienia potoku update wymagane są większe typy wystąpień, a także skaluje się w dół, gdy stwierdza, że update można uruchomić przy użyciu mniejszych typów wystąpień. Skalowanie automatyczne w pionie określa, czy węzły sterowników, węzły procesu roboczego, czy węzły sterownika i procesu roboczego powinny być skalowane w górę lub w dół.
Skalowanie automatyczne w pionie jest stosowane we wszystkich bezserwerowych potokach DLT, w tym w potokach używanych przez Databricks do zmaterializowanych widoków views oraz przetwarzania strumieniowego tables.
Skalowanie automatyczne w pionie działa przez wykrywanie aktualizacji potoku, które zakończyły się niepowodzeniem z powodu błędów braku pamięci. Skalowanie automatyczne w pionie przydziela większe typy instancji, gdy te niepowodzenia są wykrywane na podstawie danych dotyczących braku pamięci zebranych z nieudanych instancji update. W trybie produkcyjnym nowa update, korzystająca z nowych zasobów obliczeniowych, jest uruchamiana automatycznie. W trybie deweloperskim nowe zasoby obliczeniowe są wykorzystywane, gdy ręcznie uruchamiasz nowy update.
Jeśli automatyczne skalowanie w pionie wykryje, że pamięć przydzielonych wystąpień jest stale niedostatecznie wykorzystywana, zmniejszy typy wystąpień do użycia w następnym pipeline'u update.
Konwertowanie istniejącego potoku w celu użycia bezserwerowego
Istniejące potoki skonfigurowane z Unity Catalog można przekonwertować na potoki bezserwerowe. Zakończ poniższe kroki:
- Kliknij delta live Tables na pasku bocznym.
- Kliknij nazwę żądanej ścieżki w list.
- Kliknij przycisk Ustawienia.
- Zaznacz pole wyboru obok pozycji Bezserwerowe.
- Kliknij przycisk Zapisz i uruchom.
Ważne
Po włączeniu bezserwerowych wszystkich ustawień obliczeniowych skonfigurowanych dla potoku zostaną usunięte. W przypadku przełączenia potoku z powrotem do aktualizacji bezserwerowych należy ponownie skonfigurować żądane ustawienia obliczeniowe do konfiguracji potoku.
Jak znaleźć użycie jednostek DBU potoku bezserwerowego?
Można znaleźć użycie jednostek DBU dla bezserwerowych potoków DLT, wykonując zapytanie w sprawie rozliczanego użycia table, będącego częścią systemu Azure Databricks tables. Zobacz What is the DBU consumption of a serverless DLT pipeline? (Co to jest użycie jednostek DBU potoku DLT bezserwerowego?).