Udostępnij za pośrednictwem


Konfigurowanie bezserwerowego przepływu DLT

W tym artykule opisano konfiguracje bezserwerowych potoków DLT.

Databricks zaleca opracowywanie nowych potoków z wykorzystaniem architektury bezserwerowej. Niektóre obciążenia mogą wymagać skonfigurowania klasycznego środowiska obliczeniowego lub pracy ze starszym magazynem metadanych Hive. Zobacz Konfigurowanie zasobów obliczeniowych dla potoku DLT oraz Używanie potoków DLT ze starszym magazynem metadanych Hive.

Notatka

  • Bezserwerowe potoki zawsze używają Unity Catalogu. Katalog Unity dla Delta Live Tables jest w publicznej wersji zapoznawczej i ma pewne ograniczenia. Zobacz Wykorzystaj Katalog Unity z potokami DLT.
  • Aby uzyskać informacje o ograniczeniach obliczeniowych bezserwerowych, zobacz Ograniczenia obliczeniowe bezserwerowe.
  • Nie można ręcznie dodać ustawień obliczeniowych w obiekcie clusters w konfiguracji JSON dla potoku bezserwerowego. Próba wykonania tej czynności powoduje wystąpienie błędu.
  • Jeśli musisz użyć połączenia Azure Private Link z bezserwerowymi potokami DLT, skontaktuj się z przedstawicielem Databricks.

Wymagania

  • Aby używać potoków bezserwerowych, obszar roboczy musi mieć włączony Unity Catalog.

Ważny

Uprawnienia do tworzenia klastra nie są wymagane do konfigurowania potoków bezserwerowych. Domyślnie wszyscy użytkownicy obszaru roboczego mogą używać potoków bezserwerowych.

Potoki bezserwerowe usuwają większość opcji konfiguracji, ponieważ usługa Azure Databricks zarządza całą infrastrukturą. Aby skonfigurować potok bezserwerowy, wykonaj następujące czynności:

  1. Kliknij DLT na pasku bocznym.
  2. Kliknij pozycję Utwórz potok.
  3. Podaj unikatową nazwę Pipeline'u .
  4. Zaznacz pole wyboru obok Serwerless.
  5. (Opcjonalnie) Użyj ikony selektora plików , aby skonfigurować notesy i pliki obszaru roboczego jako kod źródłowy .
    • Jeśli nie dodasz żadnego kodu źródłowego, zostanie utworzony nowy notatnik dla pipeline'u. Notes jest tworzony w nowym katalogu w katalogu użytkownika, a link umożliwiający dostęp do tego notesu jest wyświetlany w polu kodu źródłowego w okienku szczegółów potoku po utworzeniu potoku.
      • Link umożliwiający dostęp do tego notesu znajduje się w polu kod źródłowy w panelu Szczegóły potoku po utworzeniu potoku.
    • Użyj przycisku Dodaj kod źródłowy, aby dodać dodatkowe zasoby kodu źródłowego.
  6. Wybierz wykazu, aby opublikować dane.
  7. Wybierz schemat w katalogu. Wszystkie tabele przesyłania strumieniowego oraz zmaterializowane widoki zdefiniowane w potoku są tworzone w tym schemacie.
  8. Kliknij Utwórz.

Te zalecane konfiguracje tworzą nowy pipeline skonfigurowany do pracy w trybie Wyzwalane i kanale Bieżący. Ta konfiguracja jest zalecana w wielu przypadkach użycia, w tym w przypadku programowania i testowania, i jest odpowiednia dla obciążeń produkcyjnych, które powinny być uruchamiane zgodnie z harmonogramem. Aby uzyskać szczegółowe informacje na temat planowania potoków, zobacz zadanie potoku DLT dla zadań.

Możesz również przekonwertować istniejące potoki skonfigurowane za pomocą Unity Catalog na bezserwerowe. Zobacz , aby skonwertować istniejący pipeline na serverless.

Inne zagadnienia dotyczące konfiguracji

Następujące opcje konfiguracji są również dostępne dla potoków bezserwerowych:

zasady budżetu

Ważny

Ta funkcja jest dostępna w publicznej wersji zapoznawczej .

Zasady budżetowe umożliwiają organizacji stosowanie tagów niestandardowych w przypadku użycia bezserwerowego na potrzeby szczegółowego przypisywania rozliczeń. Po zaznaczeniu pola wyboru bezserwerowego, pojawi się ustawienie zasad budżetu, w którym można wybrać zasady, które mają zostać zastosowane do potoku. Tagi są dziedziczone z zasad budżetu i mogą być edytowane tylko przez administratorów obszaru roboczego.

Notatka

Po przypisaniu polityki budżetowej, istniejące potoki nie są automatycznie oznakowane tą polityką. Jeśli chcesz dołączyć do nich politykę, musisz ręcznie zaktualizować istniejące potoki.

Aby uzyskać więcej informacji na temat zasad budżetowych, zobacz Przypisywanie użycia bezserwerowego do zasad budżetowych.

Funkcje potoku bezserwerowego

Oprócz uproszczenia konfiguracji potoki bezserwerowe charakteryzują się następującymi cechami:

  • odświeżanie przyrostowe dla zmaterializowanych widoków: aktualizacje zmaterializowanych widoków są odświeżane przyrostowo, gdy jest to możliwe. Odświeżanie przyrostowe ma takie same wyniki jak pełna ponowna kompilacja. Aktualizacja używa pełnego odświeżania, jeśli wyniki nie mogą być obliczane przyrostowo. Zobacz Odświeżanie przyrostowe, aby uzyskać zmaterializowane widoki.
  • potokowe przesyłanie strumieniowe: aby zwiększyć wykorzystanie, przepływność i opóźnienie obciążeń danych przesyłanych strumieniowo, takich jak pozyskiwanie danych, mikrobajty są potokowe. Innymi słowy, zamiast uruchamiać mikropartie sekwencyjnie, jak w ramach strukturalnego przesyłania strumieniowego Spark, bezserwerowe potoki DLT działają równolegle, co zwiększa wykorzystanie zasobów obliczeniowych. Pipelining strumieniowe jest domyślnie włączone w bezserwerowych potokach DLT.
  • Autoskalowanie pionowe: bezserwerowe potoki DLT uzupełniające poziome autoskalowanie udostępniane przez Databricks, ulepszone skalowanie automatyczne przydziela najbardziej opłacalne typy instancji, które mogą uruchamiać potok DLT bez awarii z powodu błędów braku pamięci. Zobacz Co to jest skalowanie automatyczne w pionie?

Co to jest skalowanie automatyczne w pionie?

Potoki DLT bezserwerowe automatyczne skalowanie w pionie przydzielają najbardziej ekonomiczne dostępne typy wystąpień do uruchamiania aktualizacji potoku DLT bez przestojów spowodowanych błędami braku pamięci. Skalowanie automatyczne w pionie zwiększa zasoby, gdy do uruchomienia aktualizacji potoku są wymagane większe typy wystąpień, i zmniejsza zasoby, gdy określa, że aktualizacja może być uruchomiona na mniejszych typach wystąpień. Skalowanie automatyczne w pionie określa, czy węzły sterowników, węzły procesu roboczego, czy węzły sterownika i procesu roboczego powinny być skalowane w górę lub w dół.

Skalowanie automatyczne w pionie jest używane dla wszystkich bezserwerowych potoków DLT, w tym potoków używanych przez zmaterializowane widoki SQL usługi Databricks i tabele przesyłania strumieniowego.

Skalowanie automatyczne w pionie działa przez wykrywanie aktualizacji procesu przetwarzania, które zakończyły się niepowodzeniem z powodu błędów braku pamięci. Skalowanie automatyczne w pionie przydziela większe typy wystąpień w przypadku wykrycia tych błędów na podstawie danych poza pamięci zebranych z aktualizacji, która zakończyła się niepowodzeniem. W trybie produkcyjnym nowa aktualizacja korzystająca z nowych zasobów obliczeniowych jest uruchamiana automatycznie. W trybie programowania nowe zasoby obliczeniowe są używane podczas ręcznego uruchamiania nowej aktualizacji.

Jeśli poziome skalowanie automatyczne wykryje, że pamięć przydzielonych instancji jest stale niedostatecznie wykorzystywana, zmniejszy typy instancji do użycia w następnej aktualizacji potoku.

Przekształcanie istniejącego przepływu pracy, aby używał architektury bezserwerowej

Istniejące potoki skonfigurowane w ramach Unity Catalog można przekonwertować na potoki bezserwerowe. Wykonaj następujące kroki:

  1. Kliknij DLT na pasku bocznym.
  2. Kliknij nazwę żądanego pipeline'u na liście.
  3. Kliknij pozycję Ustawienia.
  4. Zaznacz pole wyboru obok Serverless.
  5. Kliknij Zapisz i rozpocznij.

Ważny

Po włączeniu trybu bezserwerowego wszystkie skonfigurowane ustawienia obliczeniowe dla potoku zostaną usunięte. Jeśli przełączysz potok z powrotem na aktualizacje niebezserwerowe, musisz ponownie skonfigurować żądane ustawienia obliczeniowe w konfiguracji potoku.

Jak sprawdzić zużycie jednostek DBU w potoku bezserwerowym?

Użycie jednostek DBU dla potoków DLT w trybie bezserwerowym można znaleźć, poprzez zapytanie do tabeli rozliczanego użycia, będącej częścią tabel systemowych usługi Azure Databricks. Zobacz Jakie jest zużycie DBU w bezserwerowym potoku DLT?.