Udostępnij za pośrednictwem


Konfigurowanie bezserwerowego potoku usługi Delta Live Tables

W tym artykule opisano konfiguracje bezserwerowych potoków usługi Delta Live Tables.

Usługa Databricks zaleca opracowywanie nowych potoków przy użyciu bezserwerowych. Niektóre obciążenia mogą wymagać skonfigurowania klasycznego środowiska obliczeniowego lub pracy ze starszym magazynem metadanych Hive. Zobacz Configure compute for a Delta Live pipeline and Use Delta Live pipelines with legacy Hive metastore(Konfigurowanie zasobów obliczeniowych dla potoku delta Live i używanie potoków usługi Delta Live ze starszym magazynem metadanych Hive).

Uwaga

Wymagania

  • Aby korzystać z potoków bezserwerowych, obszar roboczy musi mieć włączoną funkcję Unity Catalog.

  • Obszar roboczy musi znajdować się w regionie bezserwerowym.

Ważne

Uprawnienia do tworzenia klastra nie są wymagane do konfigurowania potoków bezserwerowych. Domyślnie wszyscy użytkownicy obszaru roboczego mogą używać potoków bezserwerowych.

Potoki bezserwerowe remove większości opcji konfiguracji, ponieważ usługa Azure Databricks zarządza całą infrastrukturą. Aby skonfigurować potok bezserwerowy, wykonaj następujące czynności:

  1. Kliknij delta live Tables na pasku bocznym.
  2. Kliknij pozycję Utwórz potok.
  3. Podaj unikatową nazwę potoku.
  4. Zaznacz pole wyboru obok pozycji Bezserwerowe.
  5. (Opcjonalnie) Użyj selektora Ikona selektora plików plików, aby skonfigurować notesy i pliki obszaru roboczego jako kod źródłowy.
    • Jeśli nie dodasz żadnego kodu źródłowego, zostanie utworzony nowy notes dla potoku. Notes jest tworzony w nowym katalogu w katalogu użytkownika, a link umożliwiający dostęp do tego notesu jest wyświetlany w polu Kod źródłowy w okienku Szczegóły potoku po utworzeniu potoku.
      • Link umożliwiający dostęp do tego notesu znajduje się w polu Kod źródłowy w panelu Szczegóły potoku po utworzeniu potoku.
    • Użyj przycisku Dodaj kod źródłowy, aby dodać dodatkowe zasoby kodu źródłowego.
  6. Select i Catalog do publikowania danych.
  7. Select Schema w catalog. tables przesyłanie strumieniowe i zmaterializowane obiekty views zdefiniowane w potoku są tworzone w tym schema.
  8. Kliknij pozycję Utwórz.

Te zalecane konfiguracje tworzą nowy potok skonfigurowany do uruchamiania w trybie wyzwalanym i bieżącym kanale. Ta konfiguracja jest zalecana w wielu przypadkach użycia, w tym w przypadku programowania i testowania, i jest odpowiednia dla obciążeń produkcyjnych, które powinny być uruchamiane zgodnie z harmonogramem. Aby uzyskać szczegółowe informacje na temat planowania potoków, zobacz zadania potoku delta live Tables dla zadań.

Możesz również przekonwertować istniejące potoki skonfigurowane z Unity Catalog do użycia w trybie bezserwerowym. Zobacz Konwertowanie istniejącego potoku w celu użycia bezserwerowego.

Inne zagadnienia dotyczące konfiguracji

Następujące opcje konfiguracji są również dostępne dla potoków bezserwerowych:

Polityka budżetowa

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

Zasady budżetowe umożliwiają organizacji stosowanie tagów niestandardowych w przypadku użycia bezserwerowego na potrzeby szczegółowego przypisywania rozliczeń. Po bezserwerowego ustawienie zasad budżetu zostanie wyświetlone można zasad, które mają zostać zastosowane do potoku. Tagi są dziedziczone z zasad budżetu i mogą być edytowane tylko przez administratorów obszaru roboczego.

Uwaga

Po przypisaniu zasad budżetu istniejące potoki nie są automatycznie oznaczane zasadami. Jeśli chcesz dołączyć do nich zasady, musisz ręcznie update istniejących potoków.

Aby uzyskać więcej informacji na temat zasad budżetu, zobacz Atrybut użycia bezserwerowego przy użyciu zasad budżetu.

Funkcje potoku bezserwerowego

Oprócz uproszczenia konfiguracji potoki bezserwerowe mają następujące funkcje:

  • refresh przyrostowych dla zmaterializowanych views: aktualizacje materializowane views są odświeżane przyrostowo, gdy jest to możliwe. Przyrostowe refresh ma takie same wyniki jak pełne przeliczenie. update korzysta z pełnego refresh, jeśli nie można obliczyć wyników przyrostowo. Zobacz refresh przyrostowe, aby uzyskać zmaterializowane views.

  • Potokowanie strumienia: aby zwiększyć wykorzystanie, przepływność i opóźnienie dla obciążeń danych przesyłanych strumieniowo, takich jak pozyskiwanie danych, mikrobajty są potokowe. Innymi słowy, zamiast uruchamiać mikrobajty sekwencyjnie, takie jak standardowe przesyłanie strumieniowe ze strukturą platformy Spark, bezserwerowe potoki DLT są uruchamiane jednocześnie, co zwiększa wykorzystanie zasobów obliczeniowych. Potoki potokowe strumienia są domyślnie włączone w potokach DLT bezserwerowych.

  • Pionowe skalowanie automatyczne: bezserwerowe potoki DLT uzupełniają poziome skalowanie automatyczne zapewniane przez Databricks poprzez ulepszone skalowanie, które automatycznie przydziela najbardziej ekonomiczne typy instancji, zdolne do uruchamiania potoku Delta Live Tables bez awarii spowodowanych błędami braku pamięci. Zobacz Co to jest skalowanie automatyczne w pionie?

Co to jest skalowanie automatyczne w pionie?

Bezserwerowe potoki DLT automatyczne skalowanie w pionie przydziela najbardziej ekonomiczne dostępne typy wystąpień do uruchamiania aktualizacji potoków Delta Live Tables bez niepowodzeń z powodu błędów braku pamięci. Skalowanie automatyczne w pionie skaluje się w górę, gdy do uruchomienia potoku update wymagane są większe typy wystąpień, a także skaluje się w dół, gdy stwierdza, że update można uruchomić przy użyciu mniejszych typów wystąpień. Skalowanie automatyczne w pionie określa, czy węzły sterowników, węzły procesu roboczego, czy węzły sterownika i procesu roboczego powinny być skalowane w górę lub w dół.

Skalowanie automatyczne w pionie jest stosowane we wszystkich bezserwerowych potokach DLT, w tym w potokach używanych przez Databricks do zmaterializowanych widoków views oraz przetwarzania strumieniowego tables.

Skalowanie automatyczne w pionie działa przez wykrywanie aktualizacji potoku, które zakończyły się niepowodzeniem z powodu błędów braku pamięci. Skalowanie automatyczne w pionie przydziela większe typy instancji, gdy te niepowodzenia są wykrywane na podstawie danych dotyczących braku pamięci zebranych z nieudanych instancji update. W trybie produkcyjnym nowa update, korzystająca z nowych zasobów obliczeniowych, jest uruchamiana automatycznie. W trybie deweloperskim nowe zasoby obliczeniowe są wykorzystywane, gdy ręcznie uruchamiasz nowy update.

Jeśli automatyczne skalowanie w pionie wykryje, że pamięć przydzielonych wystąpień jest stale niedostatecznie wykorzystywana, zmniejszy typy wystąpień do użycia w następnym pipeline'u update.

Konwertowanie istniejącego potoku w celu użycia bezserwerowego

Istniejące potoki skonfigurowane z Unity Catalog można przekonwertować na potoki bezserwerowe. Zakończ poniższe kroki:

  1. Kliknij delta live Tables na pasku bocznym.
  2. Kliknij nazwę żądanej ścieżki w list.
  3. Kliknij przycisk Ustawienia.
  4. Zaznacz pole wyboru obok pozycji Bezserwerowe.
  5. Kliknij przycisk Zapisz i uruchom.

Ważne

Po włączeniu bezserwerowych wszystkich ustawień obliczeniowych skonfigurowanych dla potoku zostaną usunięte. W przypadku przełączenia potoku z powrotem do aktualizacji bezserwerowych należy ponownie skonfigurować żądane ustawienia obliczeniowe do konfiguracji potoku.

Jak znaleźć użycie jednostek DBU potoku bezserwerowego?

Można znaleźć użycie jednostek DBU dla bezserwerowych potoków DLT, wykonując zapytanie w sprawie rozliczanego użycia table, będącego częścią systemu Azure Databricks tables. Zobacz What is the DBU consumption of a serverless DLT pipeline? (Co to jest użycie jednostek DBU potoku DLT bezserwerowego?).