Udostępnij za pośrednictwem


Skonfiguruj potok DLT

W tym artykule opisano podstawową konfigurację potoków DLT przy użyciu interfejsu użytkownika obszaru roboczego.

Usługa Databricks zaleca opracowywanie nowych potoków w trybie bezserwerowym. Aby uzyskać instrukcje dotyczące konfiguracji potoków bezserwerowych, zobacz Konfigurowanie bezserwerowego potoku DLT.

Instrukcje konfiguracji w tym artykule wykorzystują Unity Catalog. Aby uzyskać instrukcje dotyczące konfigurowania potoków przy użyciu starszego magazynu metadanych Hive, zobacz Użyj potoków DLT ze starszym magazynem metadanych Hive.

W tym artykule omówiono funkcjonalność bieżącego domyślnego trybu publikowania potoków. Konfiguracje utworzone przed 5 lutego 2025 r. mogą używać starszego trybu publikowania i wirtualnego schematu LIVE. Zobacz live schema (starsza wersja).

Notatka

Interfejs użytkownika ma możliwość wyświetlania i edytowania ustawień w formacie JSON. Większość ustawień można skonfigurować przy użyciu interfejsu użytkownika lub specyfikacji JSON. Niektóre opcje zaawansowane są dostępne tylko przy użyciu konfiguracji JSON.

Pliki konfiguracji JSON są również przydatne podczas wdrażania potoków w nowych środowiskach lub przy użyciu interfejsu wiersza polecenia lub interfejsu API REST .

Aby uzyskać pełne odniesienie do ustawień konfiguracji DLT JSON, zobacz konfiguracje potoków DLT.

Skonfiguruj nowy potok DLT

Aby skonfigurować nowy potok DLT, wykonaj następujące czynności:

  1. Kliknij DLT na pasku bocznym.
  2. Kliknij przycisk Utwórz pipeline.
  3. Podaj unikatową nazwę pipeline'u .
  4. (Optional) Użyj ikony selektora plików , aby skonfigurować notesy i pliki obszaru roboczego jako kod źródłowy .
    • Jeśli nie dodasz żadnego kodu źródłowego, zostanie utworzony nowy notatnik dla potoku. Notatnik jest tworzony w nowym katalogu w katalogu użytkownika, a link umożliwiający dostęp do tego notatnika jest wyświetlany w polu kodu źródłowego w okienku szczegółów potoku po utworzeniu potoku.
      • Dostęp do tego notesu można uzyskać przy użyciu adresu URL przedstawionego w polu kod źródłowy w panelu szczegóły potoku po utworzeniu potoku.
    • Użyj przycisku Dodaj kod źródłowy, aby dodać dodatkowe zasoby kodu źródłowego.
  5. Wybierz pozycję Unity Catalog w obszarze Opcje przechowywania.
  6. Wybierz katalog . Ustawienie to zarządza domyślnym katalogiem i lokalizacją przechowywania metadanych potoków.
  7. Wybierz schematu w wykazie. Domyślnie tabele przesyłania strumieniowego i zmaterializowane widoki zdefiniowane w potoku są tworzone w tym schemacie.
  8. W sekcji Compute zaznacz pole wyboru obok Użyj Photon Acceleration. Aby uzyskać dodatkowe zagadnienia dotyczące konfiguracji obliczeniowej, zobacz Opcje konfiguracji obliczeniowej.
  9. Kliknij pozycję Utwórz.

Te zalecane konfiguracje tworzą nowy potok skonfigurowany do uruchamiania w trybie Wyzwalane i używają kanału Current. Ta konfiguracja jest zalecana w wielu przypadkach użycia, w tym w przypadku programowania i testowania, i jest odpowiednia dla obciążeń produkcyjnych, które powinny być uruchamiane zgodnie z harmonogramem. Aby uzyskać szczegółowe informacje na temat planowania potoków, zobacz zadanie DLT dla potoków dotyczących zadań .

Opcje konfiguracji obliczeniowej

Usługa Databricks zaleca zawsze używanie ulepszonego skalowania automatycznego. Wartości domyślne innych konfiguracji obliczeniowych działają dobrze w przypadku wielu potoków.

Potoki bezserwerowe usuwają opcje konfiguracji obliczeniowej. Aby uzyskać instrukcje dotyczące konfiguracji potoków bezserwerowych, zobacz Konfigurowanie bezserwerowego potoku DLT.

Użyj następujących ustawień, aby dostosować konfiguracje obliczeniowe:

  • Użyj tagów klastra , aby ułatwić monitorowanie kosztów związanych z potokami DLT. Zobacz Konfigurowanie tagów klastra.
  • Skonfiguruj rodzaje wystąpień typu, aby określić typ maszyn wirtualnych używanych do uruchamiania Twojego potoku. Zobacz Select instance types (Wybieranie typów wystąpień), aby uruchomić potok.
    • Wybierz typ procesu roboczego zoptymalizowany pod kątem obciążeń skonfigurowanych w potoku.
    • Opcjonalnie możesz wybrać Typ sterownika, który różni się od typu procesu roboczego. Może to być przydatne w celu redukcji kosztów w potokach z dużymi rodzajami pracowników i niskim wykorzystaniem mocy obliczeniowej przez sterownik lub w celu wybrania większego typu sterownika, aby uniknąć problemów z brakiem pamięci w obciążeniach zawierających wielu małych pracowników.

Inne zagadnienia dotyczące konfiguracji

Następujące opcje konfiguracji są również dostępne dla potoków:

Wybierz wersję produktu

Wybierz edycję produktu DLT z najlepszymi funkcjami dla wymagań twojego przepływu danych. Dostępne są następujące wersje produktów:

  • Core do obsługi zadań pozyskiwania strumieniowego. Wybierz wersję Core, jeśli przepływ danych nie wymaga zaawansowanych funkcjonalności, takich jak rejestracja zmian danych (CDC) lub oczekiwania DLT.
  • Pro do uruchamiania obciążeń związanych z pozyskiwaniem danych przez transmisję strumieniową i CDC. Wersja produktu Pro obsługuje wszystkie funkcje Core oraz obsługę obciążeń wymagających aktualizacji tabel na podstawie zmian w danych źródłowych.
  • Advanced do uruchamiania obciążeń pozyskiwania strumieniowego, obciążeń CDC (Change Data Capture) i obciążeń, które wymagają spełnienia określonych oczekiwań. Wersja produktu Advanced obsługuje funkcje wersji Core i Pro, a także obejmuje ograniczenia jakości danych zgodnie z oczekiwaniami DLT.

Wersję produktu można wybrać podczas tworzenia lub edytowania potoku. Dla każdego pipeline'u można wybrać inną wersję. Zobacz stronę produktu DLT.

Uwaga: Jeśli potok zawiera funkcje nieobsługiwane przez wybraną wersję produktu, na przykład oczekiwania, zostanie wyświetlony komunikat o błędzie wyjaśniający przyczynę błędu. Następnie możesz edytować pipeline, aby wybrać odpowiednią wersję.

Konfigurowanie kodu źródłowego

Można użyć selektora plików do skonfigurowania kodu źródłowego definiującego potok w interfejsie użytkownika DLT. Kod źródłowy potoku jest zdefiniowany w notatnikach Databricks albo w skryptach SQL czy Python, przechowywanych w plikach obszaru roboczego. Podczas tworzenia lub edytowania potoku można dodać jeden lub więcej notesów lub plików obszaru roboczego albo kombinację notesów i plików obszaru roboczego.

Ponieważ DLT automatycznie analizuje zależności między zestawami danych w celu skonstruowania grafu przetwarzania twojego potoku danych, możesz dodać elementy kodu źródłowego w dowolnej kolejności.

Plik JSON można zmodyfikować tak, aby zawierał kod źródłowy DLT zdefiniowany w skryptach SQL i Python przechowywanych w plikach obszaru roboczego. Poniższy przykład obejmuje notatniki i pliki obszaru roboczego.

{
  "name": "Example pipeline 3",
  "storage": "dbfs:/pipeline-examples/storage-location/example3",
  "libraries": [
    { "notebook": { "path": "/example-notebook_1" } },
    { "notebook": { "path": "/example-notebook_2" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
  ]
}

Zarządzanie zależnościami zewnętrznymi dla potoków korzystających z języka Python

Narzędzie DLT obsługuje używanie zewnętrznych zależności w potokach, takich jak pakiety i biblioteki Pythona. Aby dowiedzieć się więcej o opcjach i zaleceniach dotyczących korzystania z zależności, zobacz Manage Python dependencies for DLT pipelines (Zarządzanie zależnościami języka Python dla potoków DLT).

Używanie modułów języka Python przechowywanych w obszarze roboczym usługi Azure Databricks

Oprócz implementowania kodu w języku Python w notatnikach usługi Databricks, można używać folderów Git usługi Databricks lub plików przestrzeni roboczej do przechowywania kodu jako modułów języka Python. Przechowywanie kodu jako modułów języka Python jest szczególnie przydatne, gdy masz typowe funkcje, których chcesz używać w wielu potokach lub notesach należących do tego samego potoku. Aby dowiedzieć się, jak używać modułów języka Python z potokami, zobacz Import Python modules from Git folders or workspace files (Importowanie modułów języka Python z folderów Git lub plików obszarów roboczych).