Udostępnij za pośrednictwem


Konfigurowanie bezserwerowego potoku Delta Live Tables

W tym artykule opisano konfiguracje potoków bezserwerowych Delta Live Tables.

Usługa Databricks zaleca opracowywanie nowych potoków przy użyciu bezserwerowych. Niektóre obciążenia mogą wymagać skonfigurowania klasycznego środowiska obliczeniowego lub pracy ze starszym magazynem metadanych Hive. Zobacz Jak konfigurować zasoby obliczeniowe dla potoku Delta Live Tables oraz Jak używać potoków Delta Live Tables z dziedziczną metastore Hive.

Uwaga

  • Potoki bezserwerowe zawsze używają Unity Catalog. Katalog Unity dla Delta Live Tables jest w publicznej wersji zapoznawczej i ma pewne ograniczenia. Zobacz Użyj katalogu Unity z potokami Delta Live Tables.

  • Aby uzyskać informacje o ograniczeniach obliczeniowych bezserwerowych, zobacz Ograniczenia obliczeniowe bezserwerowe.

  • Nie można ręcznie dodać ustawień obliczeniowych w clusters obiekcie w konfiguracji JSON dla potoku bezserwerowego. Próba wykonania tej czynności powoduje wystąpienie błędu.

  • Jeśli musisz użyć połączenia usługi Azure Private Link z bezserwerowymi potokami DLT, skontaktuj się z przedstawicielem usługi Databricks.

Wymagania

  • Aby korzystać z potoków serwerless, obszar roboczy musi mieć włączony Unity Catalog.

  • Obszar roboczy musi znajdować się w regionie bezserwerowym.

Ważne

Uprawnienia do tworzenia klastra nie są wymagane do konfigurowania potoków bezserwerowych. Domyślnie wszyscy użytkownicy obszaru roboczego mogą używać potoków bezserwerowych.

Przepływy bezserwerowe usuwają większość opcji konfiguracji, ponieważ Azure Databricks zarządza całą infrastrukturą. Aby skonfigurować potok bezserwerowy, wykonaj następujące czynności:

  1. Kliknij Delta Live Tables na pasku bocznym.
  2. Kliknij pozycję Utwórz potok.
  3. Podaj unikatową nazwę potoku.
  4. Zaznacz pole wyboru obok pozycji Bezserwerowe.
  5. (Opcjonalnie) Użyj selektora Ikona selektora plików plików, aby skonfigurować notesy i pliki obszaru roboczego jako kod źródłowy.
    • Jeśli nie dodasz żadnego kodu źródłowego, zostanie utworzony nowy notes dla potoku. Notes jest tworzony w nowym katalogu w katalogu użytkownika, a link umożliwiający dostęp do tego notesu jest wyświetlany w polu Kod źródłowy w okienku Szczegóły potoku po utworzeniu potoku.
      • Link umożliwiający dostęp do tego notesu znajduje się w polu Kod źródłowy w panelu Szczegóły potoku po utworzeniu potoku.
    • Użyj przycisku Dodaj kod źródłowy, aby dodać dodatkowe zasoby kodu źródłowego.
  6. Wybierz katalog , aby opublikować dane.
  7. Wybierz schemat w katalogu. Wszystkie tabele strumieniowe i zmaterializowane widoki zdefiniowane w ramach potoku są tworzone w tym schemacie.
  8. Kliknij pozycję Utwórz.

Te zalecane konfiguracje tworzą nowy potok skonfigurowany do uruchamiania w trybie wyzwalanym i bieżącym kanale. Ta konfiguracja jest zalecana w wielu przypadkach użycia, w tym w przypadku programowania i testowania, i jest odpowiednia dla obciążeń produkcyjnych, które powinny być uruchamiane zgodnie z harmonogramem. Aby uzyskać szczegółowe informacje na temat planowania potoków, zobacz zadanie potoku Delta Live Tables dla zadań.

Możesz również przekonwertować istniejące potoki skonfigurowane za pomocą wykazu aparatu Unity w celu użycia bezserwerowego. Zobacz Konwertowanie istniejącego potoku w celu użycia bezserwerowego.

Inne zagadnienia dotyczące konfiguracji

Następujące opcje konfiguracji są również dostępne dla potoków bezserwerowych:

  • Możesz użyć trybu potoku ciągłego podczas uruchamiania potoków w środowisku produkcyjnym. Zobacz Wyzwalane a tryb potoku ciągłego.
  • Dodaj powiadomienia dotyczące aktualizacji wiadomości e-mail na podstawie warunków powodzenia lub niepowodzenia. Zobacz Dodawanie powiadomień e-mail dotyczących zdarzeń potoku.
  • Użyj pola Configuration, aby ustawić pary klucz-wartość dla systemu przetwarzania danych. Te konfiguracje służą dwóm celom:
  • Użyj kanału w wersji zapoznawczej, aby przetestować potok przed oczekującymi zmianami w czasie wykonywania tabel delta Live Tables i nowymi funkcjami wersji próbnej.

Polityka budżetowa

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

Zasady budżetowe umożliwiają organizacji stosowanie tagów niestandardowych w przypadku użycia bezserwerowego na potrzeby szczegółowego przypisywania rozliczeń. Po zaznaczeniu pola wyboru bezserwerowego, zostanie wyświetlone ustawienie zasad budżetu, w którym można wybrać zasady, które chcesz zastosować do potoku. Tagi są dziedziczone z zasad budżetu i mogą być edytowane tylko przez administratorów obszaru roboczego.

Uwaga

Po przypisaniu zasad budżetu istniejące potoki nie są automatycznie oznaczane zasadami. Aby dołączyć politykę do istniejących potoków, musisz je ręcznie zaktualizować.

Aby uzyskać więcej informacji na temat zasad budżetu, zobacz Atrybut użycia bezserwerowego przy użyciu zasad budżetu.

Funkcje potoku bezserwerowego

Oprócz uproszczenia konfiguracji potoki bezserwerowe mają następujące funkcje:

  • odświeżanie przyrostowe dla zmaterializowanych widoków: aktualizacje zmaterializowanych widoków są odświeżane przyrostowo, gdy jest to możliwe. Odświeżanie przyrostowe ma takie same wyniki jak pełna ponowna kompilacja. Aktualizacja używa pełnego odświeżania, jeśli wyniki nie mogą być obliczane przyrostowo. Zobacz Odświeżanie przyrostowe, aby uzyskać zmaterializowane widoki.

  • Potokowanie strumienia: aby zwiększyć wykorzystanie, przepływność i opóźnienie dla obciążeń danych przesyłanych strumieniowo, takich jak pozyskiwanie danych, mikrobajty są potokowe. Innymi słowy, zamiast uruchamiać mikrobajty sekwencyjnie, takie jak standardowe przesyłanie strumieniowe ze strukturą platformy Spark, bezserwerowe potoki DLT są uruchamiane jednocześnie, co zwiększa wykorzystanie zasobów obliczeniowych. Potoki potokowe strumienia są domyślnie włączone w potokach DLT bezserwerowych.

  • Pionowe skalowanie automatyczne: bezserwerowe potoki DLT uzupełniają poziome skalowanie automatyczne udostępniane przez Databricks poprzez ulepszone skalowanie automatyczne, automatycznie przydzielając najbardziej ekonomiczne typy instancji, które mogą uruchamiać potok Delta Live Tables bez awarii z powodu błędów wynikających z braku pamięci. Zobacz Co to jest skalowanie automatyczne w pionie?

Co to jest skalowanie automatyczne w pionie?

Automatyczne skalowanie w pionie bezserwerowych potoków DLT przydziela najbardziej niezawodne i ekonomiczne dostępne typy wystąpień do uruchamiania aktualizacji w Delta Live Tables (DLT) bez awarii z powodu błędów braku pamięci. Skalowanie automatyczne w pionie skaluje się w górę, gdy do uruchomienia aktualizacji potoku potrzebne są większe typy instancji, a także skaluje się w dół, gdy stwierdzi, że aktualizacja może być przeprowadzona na mniejszych typach instancji. Skalowanie automatyczne w pionie określa, czy węzły sterowników, węzły procesu roboczego, czy węzły sterownika i procesu roboczego powinny być skalowane w górę lub w dół.

Autoskalowanie pionowe jest używane dla wszystkich bezserwerowych potoków DLT, w tym potoków używanych przez zmaterializowane widoki Databricks SQL i tabel strumieniowych.

Skalowanie automatyczne w pionie działa przez wykrywanie aktualizacji potoku, które zakończyły się niepowodzeniem z powodu błędów braku pamięci. Skalowanie automatyczne w pionie przydziela większe typy wystąpień w przypadku wykrycia tych błędów na podstawie danych poza pamięci zebranych z aktualizacji, która zakończyła się niepowodzeniem. W trybie produkcyjnym nowa aktualizacja korzystająca z nowych zasobów obliczeniowych jest uruchamiana automatycznie. W trybie programowania nowe zasoby obliczeniowe są używane podczas ręcznego uruchamiania nowej aktualizacji.

Jeśli skalowanie automatyczne w pionie wykryje, że pamięć przydzielonych wystąpień jest stale niedostatecznie wykorzystywana, skaluje w dół typy wystąpień do użycia w następnej aktualizacji potoku.

Konwertowanie istniejącego potoku w celu użycia bezserwerowego

Istniejące potoki skonfigurowane z użyciem Unity Catalog można przekonwertować na potoki bezserwerowe. Zakończ poniższe kroki:

  1. Kliknij Delta Live Tables na pasku bocznym.
  2. Kliknij nazwę żądanego potoku z listy.
  3. Kliknij przycisk Ustawienia.
  4. Zaznacz pole wyboru obok pozycji Bezserwerowe.
  5. Kliknij przycisk Zapisz i uruchom.

Ważne

Po włączeniu bezserwerowych wszystkich ustawień obliczeniowych skonfigurowanych dla potoku zostaną usunięte. W przypadku przełączenia potoku z powrotem do aktualizacji bezserwerowych należy ponownie skonfigurować żądane ustawienia obliczeniowe do konfiguracji potoku.

Jak znaleźć użycie jednostek DBU potoku bezserwerowego?

Użycie DBU dla potoków DLT bez serwerów można znaleźć, wykonując zapytanie do tabeli rozliczanego użycia, które są częścią tabel systemowych Azure Databricks. Zobacz What is the DBU consumption of a serverless DLT pipeline? (Co to jest użycie jednostek DBU potoku DLT bezserwerowego?).