Skonfiguruj potok DLT

Artykuł
03/06/2025

W tym artykule opisano podstawową konfigurację potoków DLT przy użyciu interfejsu użytkownika obszaru roboczego.

Usługa Databricks zaleca opracowywanie nowych potoków w trybie bezserwerowym. Aby uzyskać instrukcje dotyczące konfiguracji potoków bezserwerowych, zobacz Konfigurowanie bezserwerowego potoku DLT.

Instrukcje konfiguracji w tym artykule wykorzystują Unity Catalog. Aby uzyskać instrukcje dotyczące konfigurowania potoków przy użyciu starszego magazynu metadanych Hive, zobacz Użyj potoków DLT ze starszym magazynem metadanych Hive.

W tym artykule omówiono funkcjonalność bieżącego domyślnego trybu publikowania potoków. Konfiguracje utworzone przed 5 lutego 2025 r. mogą używać starszego trybu publikowania i wirtualnego schematu LIVE. Zobacz live schema (starsza wersja).

Notatka

Interfejs użytkownika ma możliwość wyświetlania i edytowania ustawień w formacie JSON. Większość ustawień można skonfigurować przy użyciu interfejsu użytkownika lub specyfikacji JSON. Niektóre opcje zaawansowane są dostępne tylko przy użyciu konfiguracji JSON.

Pliki konfiguracji JSON są również przydatne podczas wdrażania potoków w nowych środowiskach lub przy użyciu interfejsu wiersza polecenia lub interfejsu API REST .

Aby uzyskać pełne odniesienie do ustawień konfiguracji DLT JSON, zobacz konfiguracje potoków DLT.

Skonfiguruj nowy potok DLT

Aby skonfigurować nowy potok DLT, wykonaj następujące czynności:

Kliknij DLT na pasku bocznym.
Kliknij przycisk Utwórz pipeline.
Podaj unikatową nazwę pipeline'u .
(Optional) Użyj ikony selektora plików , aby skonfigurować notesy i pliki obszaru roboczego jako kod źródłowy .
- Jeśli nie dodasz żadnego kodu źródłowego, zostanie utworzony nowy notatnik dla potoku. Notatnik jest tworzony w nowym katalogu w katalogu użytkownika, a link umożliwiający dostęp do tego notatnika jest wyświetlany w polu kodu źródłowego w okienku szczegółów potoku po utworzeniu potoku.
  - Dostęp do tego notesu można uzyskać przy użyciu adresu URL przedstawionego w polu kod źródłowy w panelu szczegóły potoku po utworzeniu potoku.
- Użyj przycisku Dodaj kod źródłowy, aby dodać dodatkowe zasoby kodu źródłowego.
Wybierz pozycję Unity Catalog w obszarze Opcje przechowywania.
Wybierz katalog . Ustawienie to zarządza domyślnym katalogiem i lokalizacją przechowywania metadanych potoków.
Wybierz schematu w wykazie. Domyślnie tabele przesyłania strumieniowego i zmaterializowane widoki zdefiniowane w potoku są tworzone w tym schemacie.
W sekcji Compute zaznacz pole wyboru obok Użyj Photon Acceleration. Aby uzyskać dodatkowe zagadnienia dotyczące konfiguracji obliczeniowej, zobacz Opcje konfiguracji obliczeniowej.
Kliknij pozycję Utwórz.

Te zalecane konfiguracje tworzą nowy potok skonfigurowany do uruchamiania w trybie Wyzwalane i używają kanału Current. Ta konfiguracja jest zalecana w wielu przypadkach użycia, w tym w przypadku programowania i testowania, i jest odpowiednia dla obciążeń produkcyjnych, które powinny być uruchamiane zgodnie z harmonogramem. Aby uzyskać szczegółowe informacje na temat planowania potoków, zobacz zadanie DLT dla potoków dotyczących zadań .

Opcje konfiguracji obliczeniowej

Usługa Databricks zaleca zawsze używanie ulepszonego skalowania automatycznego. Wartości domyślne innych konfiguracji obliczeniowych działają dobrze w przypadku wielu potoków.

Potoki bezserwerowe usuwają opcje konfiguracji obliczeniowej. Aby uzyskać instrukcje dotyczące konfiguracji potoków bezserwerowych, zobacz Konfigurowanie bezserwerowego potoku DLT.

Użyj następujących ustawień, aby dostosować konfiguracje obliczeniowe:

Administratorzy obszaru roboczego mogą skonfigurować zasady klastra . Zasady obliczeniowe umożliwiają administratorom kontrolowanie, jakie opcje obliczeniowe są dostępne dla użytkowników. Zobacz Wybierz zasady klastra.
Opcjonalnie można skonfigurować tryb klastra do uruchamiania przy użyciu stałego rozmiaru lub starszego skalowania automatycznego . Zobacz Optymalizowanie wykorzystania klastra potoków DLT za pomocą rozszerzonego skalowania automatycznego.
W przypadku obciążeń z włączonym skalowaniem automatycznym, ustal minimalną liczbę procesów roboczych i maksymalną liczbę procesów roboczych w celu ograniczenia skalowania. Zobacz Konfigurowanie obliczeń dla potoku DLT.
Możesz wyłączyć przyspieszanie Photon. Zobacz Co to jest Photon?.

Użyj tagów klastra , aby ułatwić monitorowanie kosztów związanych z potokami DLT. Zobacz Konfigurowanie tagów klastra.
Skonfiguruj rodzaje wystąpień typu, aby określić typ maszyn wirtualnych używanych do uruchamiania Twojego potoku. Zobacz Select instance types (Wybieranie typów wystąpień), aby uruchomić potok.
- Wybierz typ procesu roboczego zoptymalizowany pod kątem obciążeń skonfigurowanych w potoku.
- Opcjonalnie możesz wybrać Typ sterownika, który różni się od typu procesu roboczego. Może to być przydatne w celu redukcji kosztów w potokach z dużymi rodzajami pracowników i niskim wykorzystaniem mocy obliczeniowej przez sterownik lub w celu wybrania większego typu sterownika, aby uniknąć problemów z brakiem pamięci w obciążeniach zawierających wielu małych pracowników.

Inne zagadnienia dotyczące konfiguracji

Następujące opcje konfiguracji są również dostępne dla potoków:

Wersja produktu Advanced zapewnia dostęp do wszystkich funkcji DLT. Potoki można opcjonalnie uruchamiać przy użyciu wersji produktów Pro lub Core. Zobacz Wybierz edycję produktu.
Możesz użyć trybu potoku ciągłego podczas uruchamiania potoków w środowisku produkcyjnym. Zobacz Tryb wyzwalany a tryb potoku ciągłego.
Jeśli obszar roboczy nie jest skonfigurowany dla Unity Catalog lub jeśli obciążenie musi korzystać ze starszego magazynu metadanych Hive, zobacz Używanie potoków DLT ze starszym magazynem metadanych Hive.
Dodaj Powiadomienia na potrzeby aktualizacji wiadomości e-mail na podstawie warunków powodzenia lub niepowodzenia. Zobacz Dodawanie powiadomień e-mail dotyczących zdarzeń potoku.
Użyj pola Configuration, aby ustawić pary klucz-wartość dla potoku danych. Te konfiguracje służą dwóm celom:
- Ustaw dowolne parametry, do których można odwoływać się w kodzie źródłowym. Zobacz Use parameters with DLT pipelines (Używanie parametrów z potokami DLT).
- Skonfiguruj ustawienia pipeline i konfiguracje Spark. Zobacz odwołanie do właściwości DLT.
Użyj kanału w wersji zapoznawczej, aby przetestować potok przed oczekującymi zmianami środowiska uruchomieniowego DLT i nowymi funkcjami wersji próbnej.

Wybierz wersję produktu

Wybierz edycję produktu DLT z najlepszymi funkcjami dla wymagań twojego przepływu danych. Dostępne są następujące wersje produktów:

Core do obsługi zadań pozyskiwania strumieniowego. Wybierz wersję Core, jeśli przepływ danych nie wymaga zaawansowanych funkcjonalności, takich jak rejestracja zmian danych (CDC) lub oczekiwania DLT.
Pro do uruchamiania obciążeń związanych z pozyskiwaniem danych przez transmisję strumieniową i CDC. Wersja produktu Pro obsługuje wszystkie funkcje Core oraz obsługę obciążeń wymagających aktualizacji tabel na podstawie zmian w danych źródłowych.
Advanced do uruchamiania obciążeń pozyskiwania strumieniowego, obciążeń CDC (Change Data Capture) i obciążeń, które wymagają spełnienia określonych oczekiwań. Wersja produktu Advanced obsługuje funkcje wersji Core i Pro, a także obejmuje ograniczenia jakości danych zgodnie z oczekiwaniami DLT.

Wersję produktu można wybrać podczas tworzenia lub edytowania potoku. Dla każdego pipeline'u można wybrać inną wersję. Zobacz stronę produktu DLT.

Uwaga: Jeśli potok zawiera funkcje nieobsługiwane przez wybraną wersję produktu, na przykład oczekiwania, zostanie wyświetlony komunikat o błędzie wyjaśniający przyczynę błędu. Następnie możesz edytować pipeline, aby wybrać odpowiednią wersję.

Konfigurowanie kodu źródłowego

Można użyć selektora plików do skonfigurowania kodu źródłowego definiującego potok w interfejsie użytkownika DLT. Kod źródłowy potoku jest zdefiniowany w notatnikach Databricks albo w skryptach SQL czy Python, przechowywanych w plikach obszaru roboczego. Podczas tworzenia lub edytowania potoku można dodać jeden lub więcej notesów lub plików obszaru roboczego albo kombinację notesów i plików obszaru roboczego.

Ponieważ DLT automatycznie analizuje zależności między zestawami danych w celu skonstruowania grafu przetwarzania twojego potoku danych, możesz dodać elementy kodu źródłowego w dowolnej kolejności.

Plik JSON można zmodyfikować tak, aby zawierał kod źródłowy DLT zdefiniowany w skryptach SQL i Python przechowywanych w plikach obszaru roboczego. Poniższy przykład obejmuje notatniki i pliki obszaru roboczego.

{
  "name": "Example pipeline 3",
  "storage": "dbfs:/pipeline-examples/storage-location/example3",
  "libraries": [
    { "notebook": { "path": "/example-notebook_1" } },
    { "notebook": { "path": "/example-notebook_2" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
  ]
}

Zarządzanie zależnościami zewnętrznymi dla potoków korzystających z języka Python

Narzędzie DLT obsługuje używanie zewnętrznych zależności w potokach, takich jak pakiety i biblioteki Pythona. Aby dowiedzieć się więcej o opcjach i zaleceniach dotyczących korzystania z zależności, zobacz Manage Python dependencies for DLT pipelines (Zarządzanie zależnościami języka Python dla potoków DLT).

Używanie modułów języka Python przechowywanych w obszarze roboczym usługi Azure Databricks

Oprócz implementowania kodu w języku Python w notatnikach usługi Databricks, można używać folderów Git usługi Databricks lub plików przestrzeni roboczej do przechowywania kodu jako modułów języka Python. Przechowywanie kodu jako modułów języka Python jest szczególnie przydatne, gdy masz typowe funkcje, których chcesz używać w wielu potokach lub notesach należących do tego samego potoku. Aby dowiedzieć się, jak używać modułów języka Python z potokami, zobacz Import Python modules from Git folders or workspace files (Importowanie modułów języka Python z folderów Git lub plików obszarów roboczych).

Udostępnij za pośrednictwem