Konfigurowanie potoku bezserwerowych tabel na żywo delty
W tym artykule opisano konfiguracje potoków bezserwerowych tabel na żywo delty.
Usługa Databricks zaleca opracowywanie nowych potoków przy użyciu bezserwerowych. Niektóre obciążenia mogą wymagać skonfigurowania klasycznego środowiska obliczeniowego lub pracy ze starszym magazynem metadanych Hive. Zobacz Configure compute for a Delta Live Tables pipeline (Konfigurowanie obliczeń dla potoku delta live tables) i Use Delta Live Tables pipelines with legacy Hive metastore (Używanie potoków tabel na żywo różnicowych ze starszym magazynem metadanych Hive).
Uwaga
Potoki bezserwerowe zawsze używają wykazu aparatu Unity. Wykaz aparatu Unity dla tabel delta live jest w publicznej wersji zapoznawczej i ma pewne ograniczenia. Zobacz Używanie wykazu aparatu Unity z potokami delta Live Tables.
Nie można ręcznie dodać ustawień obliczeniowych w
clusters
obiekcie w konfiguracji JSON dla potoku bezserwerowego. Próba wykonania tej czynności powoduje wystąpienie błędu.Aby uzyskać informacje na temat uprawnień i włączania dla bezserwerowych potoków DLT, zobacz Włączanie bezserwerowych obliczeń.
Jeśli musisz użyć połączenia usługi Azure Private Link z bezserwerowymi potokami DLT, skontaktuj się z przedstawicielem usługi Databricks.
Wymagania
Aby korzystać z potoków bezserwerowych, obszar roboczy musi mieć włączony wykaz aparatu Unity.
Obszar roboczy musi znajdować się w regionie bezserwerowym.
Zalecana konfiguracja dla potoków bezserwerowych
Ważne
Uprawnienia do tworzenia klastra nie są wymagane do konfigurowania potoków bezserwerowych. Domyślnie wszyscy użytkownicy obszaru roboczego mogą używać potoków bezserwerowych.
Potoki bezserwerowe usuwają większość opcji konfiguracji, ponieważ usługa Azure Databricks zarządza całą infrastrukturą. Aby skonfigurować potok bezserwerowy, wykonaj następujące czynności:
- Kliknij pozycję Delta Live Tables (Tabele na żywo funkcji Delta) na pasku bocznym.
- Kliknij pozycję Utwórz potok.
- Podaj unikatową nazwę potoku.
- Zaznacz pole wyboru obok pozycji Bezserwerowe.
- (Opcjonalnie) Użyj selektora plików, aby skonfigurować notesy i pliki obszaru roboczego jako kod źródłowy.
- Jeśli nie dodasz żadnego kodu źródłowego, zostanie utworzony nowy notes dla potoku. Notes jest tworzony w nowym katalogu w katalogu użytkownika, a link umożliwiający dostęp do tego notesu jest wyświetlany w polu Kod źródłowy w okienku Szczegóły potoku po utworzeniu potoku.
- Link umożliwiający dostęp do tego notesu znajduje się w polu Kod źródłowy w panelu Szczegóły potoku po utworzeniu potoku.
- Użyj przycisku Dodaj kod źródłowy, aby dodać dodatkowe zasoby kodu źródłowego.
- Jeśli nie dodasz żadnego kodu źródłowego, zostanie utworzony nowy notes dla potoku. Notes jest tworzony w nowym katalogu w katalogu użytkownika, a link umożliwiający dostęp do tego notesu jest wyświetlany w polu Kod źródłowy w okienku Szczegóły potoku po utworzeniu potoku.
- Wybierz katalog, aby opublikować dane.
- Wybierz schemat w wykazie. Wszystkie tabele przesyłania strumieniowego i zmaterializowane widoki zdefiniowane w potoku są tworzone w tym schemacie.
- Kliknij pozycję Utwórz.
Te zalecane konfiguracje tworzą nowy potok skonfigurowany do uruchamiania w trybie wyzwalanym i bieżącym kanale. Ta konfiguracja jest zalecana w wielu przypadkach użycia, w tym w przypadku programowania i testowania, i jest odpowiednia dla obciążeń produkcyjnych, które powinny być uruchamiane zgodnie z harmonogramem. Aby uzyskać szczegółowe informacje na temat planowania potoków, zobacz Delta Live Tables pipeline task for jobs (Zadanie potoku delta Live Tables dla zadań).
Możesz również przekonwertować istniejące potoki skonfigurowane za pomocą wykazu aparatu Unity w celu użycia bezserwerowego. Zobacz Konwertowanie istniejącego potoku w celu użycia bezserwerowego.
Inne zagadnienia dotyczące konfiguracji
Następujące opcje konfiguracji są również dostępne dla potoków bezserwerowych:
- Możesz użyć trybu potoku ciągłego podczas uruchamiania potoków w środowisku produkcyjnym. Zobacz Wyzwalane a tryb potoku ciągłego.
- Dodaj powiadomienia dotyczące aktualizacji wiadomości e-mail na podstawie warunków powodzenia lub niepowodzenia. Zobacz Dodawanie powiadomień e-mail dotyczących zdarzeń potoku.
- Użyj pola Konfiguracja, aby ustawić pary klucz-wartość dla potoku. Te konfiguracje służą dwóm celom:
- Ustaw dowolne parametry, do których można odwoływać się w kodzie źródłowym. Zobacz Use parameters with Delta Live Tables pipelines (Używanie parametrów z potokami delta live tables).
- Konfigurowanie ustawień potoku i konfiguracji platformy Spark. Zobacz Informacje o właściwościach tabel na żywo funkcji Delta.
- Użyj kanału w wersji zapoznawczej , aby przetestować potok przed oczekującymi zmianami środowiska uruchomieniowego usługi Delta Live Tables i nowymi funkcjami wersji próbnej.
Polityka budżetowa
Ważne
Ta funkcja jest dostępna w publicznej wersji zapoznawczej.
Zasady budżetowe umożliwiają organizacji stosowanie tagów niestandardowych w przypadku użycia bezserwerowego na potrzeby szczegółowego przypisywania rozliczeń. Po zaznaczeniu pola wyboru Bezserwerowe ustawienie zasad budżetu zostanie wyświetlone, w którym można wybrać zasady, które mają zostać zastosowane do potoku. Tagi są dziedziczone z zasad budżetu i mogą być edytowane tylko przez administratorów obszaru roboczego.
Uwaga
Po przypisaniu zasad budżetu istniejące potoki nie są automatycznie oznaczane zasadami. Jeśli chcesz dołączyć do nich zasady, musisz ręcznie zaktualizować istniejące potoki.
Aby uzyskać więcej informacji na temat zasad budżetu, zobacz Atrybut użycia bezserwerowego przy użyciu zasad budżetu.
Funkcje potoku bezserwerowego
Oprócz uproszczenia konfiguracji potoki bezserwerowe mają następujące funkcje:
Odświeżanie przyrostowe dla zmaterializowanych widoków: aktualizacje zmaterializowanych widoków są odświeżane przyrostowo, gdy jest to możliwe. Odświeżanie przyrostowe ma takie same wyniki jak pełna ponowna kompilacja. Aktualizacja używa pełnego odświeżania, jeśli wyniki nie mogą być obliczane przyrostowo. Zobacz Odświeżanie przyrostowe dla zmaterializowanych widoków.
Potokowanie strumienia: aby zwiększyć wykorzystanie, przepływność i opóźnienie dla obciążeń danych przesyłanych strumieniowo, takich jak pozyskiwanie danych, mikrobajty są potokowe. Innymi słowy, zamiast uruchamiać mikrobajty sekwencyjnie, takie jak standardowe przesyłanie strumieniowe ze strukturą platformy Spark, bezserwerowe potoki DLT są uruchamiane jednocześnie, co zwiększa wykorzystanie zasobów obliczeniowych. Potoki potokowe strumienia są domyślnie włączone w potokach DLT bezserwerowych.
Skalowanie automatyczne w pionie: bezserwerowe potoki DLT dodaje do poziomego skalowania automatycznego udostępnianego przez usługę Databricks ulepszone skalowanie automatyczne, automatycznie przydzielając najbardziej ekonomiczne typy wystąpień, które mogą uruchamiać potok delta Live Tables bez awarii z powodu błędów braku pamięci. Zobacz Co to jest skalowanie automatyczne w pionie?
Co to jest skalowanie automatyczne w pionie?
Bezserwerowe potoki DLT skalowanie automatyczne w pionie automatycznie przydziela najbardziej ekonomiczne dostępne typy wystąpień do uruchamiania aktualizacji potoku delta Live Tables bez awarii z powodu błędów braku pamięci. Skalowanie automatyczne w pionie jest skalowane w górę, gdy do uruchomienia aktualizacji potoku są wymagane większe typy wystąpień, a także skaluje w dół, gdy określa, że aktualizacja może być uruchamiana z mniejszymi typami wystąpień. Skalowanie automatyczne w pionie określa, czy węzły sterowników, węzły procesu roboczego, czy węzły sterownika i procesu roboczego powinny być skalowane w górę lub w dół.
Skalowanie automatyczne w pionie jest używane dla wszystkich bezserwerowych potoków DLT, w tym potoków używanych przez zmaterializowane widoki SQL usługi Databricks i tabele przesyłania strumieniowego.
Skalowanie automatyczne w pionie działa przez wykrywanie aktualizacji potoku, które zakończyły się niepowodzeniem z powodu błędów braku pamięci. Skalowanie automatyczne w pionie przydziela większe typy wystąpień w przypadku wykrycia tych błędów na podstawie danych poza pamięci zebranych z aktualizacji, która zakończyła się niepowodzeniem. W trybie produkcyjnym nowa aktualizacja korzystająca z nowych zasobów obliczeniowych jest uruchamiana automatycznie. W trybie programowania nowe zasoby obliczeniowe są używane podczas ręcznego uruchamiania nowej aktualizacji.
Jeśli skalowanie automatyczne w pionie wykryje, że pamięć przydzielonych wystąpień jest stale niedostatecznie wykorzystywana, skaluje w dół typy wystąpień do użycia w następnej aktualizacji potoku.
Konwertowanie istniejącego potoku w celu użycia bezserwerowego
Istniejące potoki skonfigurowane za pomocą wykazu aparatu Unity można przekonwertować na potoki bezserwerowe. Zakończ poniższe kroki:
- Kliknij pozycję Delta Live Tables (Tabele na żywo funkcji Delta) na pasku bocznym.
- Kliknij nazwę żądanego potoku na liście.
- Kliknij przycisk Ustawienia.
- Zaznacz pole wyboru obok pozycji Bezserwerowe.
- Kliknij przycisk Zapisz i uruchom.
Ważne
Po włączeniu bezserwerowych wszystkich ustawień obliczeniowych skonfigurowanych dla potoku zostaną usunięte. W przypadku przełączenia potoku z powrotem do aktualizacji bezserwerowych należy ponownie skonfigurować żądane ustawienia obliczeniowe do konfiguracji potoku.
Jak znaleźć użycie jednostek DBU potoku bezserwerowego?
Użycie jednostek DBU dla bezserwerowych potoków DLT można znaleźć, wykonując zapytanie dotyczące tabeli rozliczanego użycia, części tabel systemowych usługi Azure Databricks. Zobacz What is the DBU consumption of a serverless DLT pipeline? (Co to jest użycie jednostek DBU potoku DLT bezserwerowego?).