Udostępnij za pośrednictwem


Konfigurowanie potoku delta live tables

W tym artykule opisano podstawową konfigurację potoków delty tabel na żywo przy użyciu interfejsu użytkownika obszaru roboczego.

Usługa Databricks zaleca opracowywanie nowych potoków przy użyciu bezserwerowych. Aby uzyskać instrukcje dotyczące konfiguracji potoków bezserwerowych, zobacz Konfigurowanie potoku bezserwerowych tabel delta live tables.

Instrukcje konfiguracji w tym artykule korzystają z wykazu aparatu Unity. Aby uzyskać instrukcje dotyczące konfigurowania potoków przy użyciu starszego magazynu metadanych Hive, zobacz Use Delta Live Tables pipelines with legacy Hive metastore (Używanie potoków tabel na żywo różnicowych ze starszym magazynem metadanych Hive).

Uwaga

Interfejs użytkownika ma możliwość wyświetlania i edytowania ustawień w formacie JSON. Większość ustawień można skonfigurować przy użyciu interfejsu użytkownika lub specyfikacji JSON. Niektóre opcje zaawansowane są dostępne tylko przy użyciu konfiguracji JSON.

Pliki konfiguracji JSON są również przydatne podczas wdrażania potoków w nowych środowiskach lub przy użyciu interfejsu wiersza polecenia lub interfejsu API REST.

Aby uzyskać pełne odwołanie do ustawień konfiguracji JSON tabel delta live tables, zobacz Delta Live Tables pipeline configurations (Konfiguracje potoków tabel delta live tables).

Konfigurowanie nowego potoku tabel na żywo delty

Aby skonfigurować nowy potok delta Live Tables, wykonaj następujące czynności:

  1. Kliknij pozycję Delta Live Tables (Tabele na żywo funkcji Delta) na pasku bocznym.
  2. Kliknij pozycję Utwórz potok.
  3. Podaj unikatową nazwę potoku.
  4. (Opcjonalnie) Użyj selektora Ikona selektora plików plików, aby skonfigurować notesy i pliki obszaru roboczego jako kod źródłowy.
    • Jeśli nie dodasz żadnego kodu źródłowego, zostanie utworzony nowy notes dla potoku. Notes jest tworzony w nowym katalogu w katalogu użytkownika, a link umożliwiający dostęp do tego notesu jest wyświetlany w polu Kod źródłowy w okienku Szczegóły potoku po utworzeniu potoku.
      • Dostęp do tego notesu można uzyskać przy użyciu adresu URL przedstawionego w polu Kod źródłowy w panelu Szczegóły potoku po utworzeniu potoku.
    • Użyj przycisku Dodaj kod źródłowy, aby dodać dodatkowe zasoby kodu źródłowego.
  5. Wybierz pozycję Wykaz aparatu Unity w obszarze Opcje magazynu.
  6. Wybierz katalog, aby opublikować dane.
  7. Wybierz schemat w wykazie. Wszystkie tabele przesyłania strumieniowego i zmaterializowane widoki zdefiniowane w potoku są tworzone w tym schemacie.
  8. W sekcji Obliczenia zaznacz pole wyboru obok pozycji Użyj przyspieszania fotonowego. Aby uzyskać dodatkowe zagadnienia dotyczące konfiguracji obliczeniowej, zobacz Opcje konfiguracji obliczeniowej.
  9. Kliknij pozycję Utwórz.

Te zalecane konfiguracje tworzą nowy potok skonfigurowany do uruchamiania w trybie wyzwalanym i używają bieżącego kanału. Ta konfiguracja jest zalecana w wielu przypadkach użycia, w tym w przypadku programowania i testowania, i jest odpowiednia dla obciążeń produkcyjnych, które powinny być uruchamiane zgodnie z harmonogramem. Aby uzyskać szczegółowe informacje na temat planowania potoków, zobacz Delta Live Tables pipeline task for jobs (Zadanie potoku delta Live Tables dla zadań).

Opcje konfiguracji obliczeniowej

Usługa Databricks zaleca zawsze używanie rozszerzonego skalowania automatycznego. Wartości domyślne innych konfiguracji obliczeniowych działają dobrze w przypadku wielu potoków.

Potoki bezserwerowe usuwają opcje konfiguracji obliczeniowej. Aby uzyskać instrukcje dotyczące konfiguracji potoków bezserwerowych, zobacz Konfigurowanie potoku bezserwerowych tabel delta live tables.

Użyj następujących ustawień, aby dostosować konfiguracje obliczeniowe:

  • Administratorzy obszaru roboczego mogą skonfigurować zasady klastra. Zasady obliczeniowe umożliwiają administratorom kontrolowanie, jakie opcje obliczeniowe są dostępne dla użytkowników. Zobacz Wybieranie zasad klastra.

  • Opcjonalnie możesz skonfigurować tryb klastra do uruchamiania przy użyciu stałego rozmiaru lub starszego skalowania automatycznego. Zobacz Optymalizowanie wykorzystania klastra potoków tabel na żywo delty przy użyciu rozszerzonego skalowania automatycznego.

  • W przypadku obciążeń z włączonym skalowaniem automatycznym ustaw pozycję Minimalne procesy robocze i Maksymalna liczba procesów roboczych, aby ustawić limity dla zachowań skalowania. Zobacz Configure compute for a Delta Live Tables pipeline (Konfigurowanie obliczeń dla potoku tabel na żywo delty).

  • Opcjonalnie możesz wyłączyć przyspieszanie photon. Zobacz Co to jest Photon?.

  • Użyj tagów klastra, aby ułatwić monitorowanie kosztów skojarzonych z potokami tabel delta Live Tables. Zobacz Konfigurowanie tagów klastra.

  • Skonfiguruj typy wystąpień , aby określić typ maszyn wirtualnych używanych do uruchamiania potoku. Zobacz Wybieranie typów wystąpień, aby uruchomić potok.

    • Wybierz typ procesu roboczego zoptymalizowany pod kątem obciążeń skonfigurowanych w potoku.
    • Opcjonalnie możesz wybrać typ sterownika, który różni się od typu procesu roboczego. Może to być przydatne w przypadku obniżenia kosztów w potokach przy użyciu dużych typów procesów roboczych i niskiego wykorzystania mocy obliczeniowej sterowników lub wybrania większego typu sterownika, aby uniknąć problemów z brakiem pamięci w obciążeniach z wieloma małymi procesami roboczymi.

Inne zagadnienia dotyczące konfiguracji

Następujące opcje konfiguracji są również dostępne dla potoków:

  • Wersja produktu Advanced zapewnia dostęp do wszystkich funkcji delta Live Tables. Potoki można opcjonalnie uruchamiać przy użyciu wersji produktów Pro lub Core . Zobacz Wybieranie wersji produktu.
  • Możesz użyć trybu potoku ciągłego podczas uruchamiania potoków w środowisku produkcyjnym. Zobacz Wyzwalane a tryb potoku ciągłego.
  • Jeśli obszar roboczy nie jest skonfigurowany dla wykazu aparatu Unity lub obciążenie musi używać starszego magazynu metadanych Hive, zobacz Używanie potoków delta live tables ze starszym magazynem metadanych Hive.
  • Dodaj powiadomienia dotyczące aktualizacji wiadomości e-mail na podstawie warunków powodzenia lub niepowodzenia. Zobacz Dodawanie powiadomień e-mail dotyczących zdarzeń potoku.
  • Użyj pola Konfiguracja, aby ustawić pary klucz-wartość dla potoku. Te konfiguracje służą dwóm celom:
  • Użyj kanału w wersji zapoznawczej , aby przetestować potok przed oczekującymi zmianami środowiska uruchomieniowego usługi Delta Live Tables i nowymi funkcjami wersji próbnej.

Wybieranie wersji produktu

Wybierz wersję produktu Delta Live Tables z najlepszymi funkcjami dla wymagań potoku. Dostępne są następujące wersje produktów:

  • Core do uruchamiania obciążeń pozyskiwania strumieniowego. Core Wybierz wersję, jeśli potok nie wymaga zaawansowanych funkcji, takich jak przechwytywanie danych zmian (CDC) lub oczekiwania dotyczące tabel delta Live Tables.
  • Pro do uruchamiania pozyskiwania strumieniowego i obciążeń CDC. Wersja Pro produktu obsługuje wszystkie Core funkcje oraz obsługę obciążeń wymagających aktualizacji tabel na podstawie zmian w danych źródłowych.
  • Advanced do uruchamiania obciążeń pozyskiwania przesyłania strumieniowego, obciążeń CDC i obciążeń, które wymagają oczekiwań. Wersja Advanced produktu obsługuje funkcje Core wersji i Pro oraz obejmuje ograniczenia dotyczące jakości danych z oczekiwaniami funkcji Delta Live Tables.

Edycję produktu można wybrać podczas tworzenia lub edytowania potoku. Dla każdego potoku można wybrać inną wersję. Zobacz stronę produktu Delta Live Tables.

Uwaga: Jeśli potok zawiera funkcje nieobsługiwane przez wybraną wersję produktu, na przykład oczekiwania, zostanie wyświetlony komunikat o błędzie wyjaśniający przyczynę błędu. Następnie możesz edytować potok, aby wybrać odpowiednią wersję.

Konfigurowanie kodu źródłowego

Selektora plików można użyć w interfejsie użytkownika tabel delta Live Tables, aby skonfigurować kod źródłowy definiujący potok. Kod źródłowy potoku jest zdefiniowany w notesach usługi Databricks lub skryptach SQL lub Python przechowywanych w plikach obszaru roboczego. Podczas tworzenia lub edytowania potoku można dodać jeden lub więcej notesów lub plików obszaru roboczego albo kombinację notesów i plików obszaru roboczego.

Ponieważ delta Live Tables automatycznie analizuje zależności zestawu danych w celu skonstruowania grafu przetwarzania dla potoku, możesz dodać zasoby kodu źródłowego w dowolnej kolejności.

Plik JSON można zmodyfikować tak, aby zawierał kod źródłowy funkcji Delta Live Tables zdefiniowany w skryptach SQL i Python przechowywanych w plikach obszaru roboczego. Poniższy przykład obejmuje notesy i pliki obszaru roboczego:

{
  "name": "Example pipeline 3",
  "storage": "dbfs:/pipeline-examples/storage-location/example3",
  "libraries": [
    { "notebook": { "path": "/example-notebook_1" } },
    { "notebook": { "path": "/example-notebook_2" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
  ]
}

Zarządzanie zależnościami zewnętrznymi dla potoków korzystających z języka Python

Usługa Delta Live Tables obsługuje używanie zależności zewnętrznych w potokach, takich jak pakiety i biblioteki języka Python. Aby dowiedzieć się więcej o opcjach i zaleceniach dotyczących używania zależności, zobacz Zarządzanie zależnościami języka Python dla potoków tabel na żywo usługi Delta.

Używanie modułów języka Python przechowywanych w obszarze roboczym usługi Azure Databricks

Oprócz implementowania kodu w języku Python w notesach usługi Databricks można używać folderów Git usługi Databricks lub plików obszarów roboczych do przechowywania kodu jako modułów języka Python. Przechowywanie kodu jako modułów języka Python jest szczególnie przydatne, gdy masz typowe funkcje, których chcesz używać w wielu potokach lub notesach w tym samym potoku. Aby dowiedzieć się, jak używać modułów języka Python z potokami, zobacz Importowanie modułów języka Python z folderów git lub plików obszarów roboczych.