Sdílet prostřednictvím


Konfigurace kanálu DLT

Tento článek popisuje základní konfiguraci kanálů DLT pomocí uživatelského rozhraní pracovního prostoru.

Databricks doporučuje vyvíjet nové kanály pomocí bezserverové architektury. Pokyny ke konfiguraci pro bezserverové kanály najdete v tématu Konfigurace bezserverového kanálu DLT.

Pokyny ke konfiguraci v tomto článku používají Katalog Unity. Pokyny ke konfiguraci kanálů se starší verzí metastoru Hive najdete v tématu Použití kanálů DLT se starší verzí metastoru Hive.

Tento článek popisuje funkcionalitu pro aktuální výchozí režim publikování pro datové toky. Kanály vytvořené před 5. únorem 2025 mohou používat starší režim publikování a LIVE virtuální schéma. Viz LIVE schema (starší verze).

Poznámka

Uživatelské rozhraní má možnost zobrazit a upravit nastavení ve formátu JSON. Většinu nastavení můžete nakonfigurovat pomocí uživatelského rozhraní nebo specifikace JSON. Některé pokročilé možnosti jsou k dispozici pouze pomocí konfigurace JSON.

Konfigurační soubory JSON jsou také užitečné při nasazování pipelinů do nových prostředí nebo při použití rozhraní příkazového řádku nebo rozhraní REST API.

Úplný odkaz na nastavení konfigurace DLT JSON najdete v tématu konfigurace kanálů DLT.

Konfigurace nového kanálu DLT

Pokud chcete nakonfigurovat nový kanál DLT, postupujte takto:

  1. Klikněte na DLT v bočním panelu.
  2. Klikněte na Vytvořit kanál.
  3. Zadejte jedinečný název kanálu .
  4. (Volitelné) Pomocí ikony pro výběr souboru nakonfigurujte poznámkové bloky a soubory pracovního prostoru jako zdrojový kód .
    • Pokud nepřidáte žádný zdrojový kód, vytvoří se pro pipeline nový poznámkový blok. Poznámkový blok se vytvoří v novém adresáři ve vašem uživatelském adresáři a po vytvoření pipeline se v poli Zdrojový kód v podokně podrobností pipeline zobrazí odkaz na přístup k tomuto poznámkovému bloku.
      • K tomuto poznámkovému bloku se dostanete pomocí adresy URL uvedené pod polem Zdrojový kód na panelu Podrobnosti pipeline, jakmile jste vytvořili svůj pipeline.
    • Pomocí tlačítka Přidat zdrojový kód přidejte další komponenty zdrojového kódu.
  5. V části možnosti úložiště vyberte katalogu Unity.
  6. Vyberte katalog. Toto nastavení řídí výchozí katalog a umístění úložiště pro metadata kanálu.
  7. V katalogu vyberte schéma . Ve výchozím nastavení se v tomto schématu vytvoří streamovací tabulky a materializovaná zobrazení definovaná v pipeline.
  8. V části Výpočet zaškrtněte políčko vedle Použít zrychlení Photon. Další aspekty konfigurace výpočetních prostředků najdete v tématu možnosti konfigurace výpočetních prostředků.
  9. Klikněte na Vytvořit.

Tyto doporučené konfigurace vytvoří nový kanál nakonfigurovaný tak, aby běžel v režimu Aktivovaný a používá kanál Aktuální. Tato konfigurace se doporučuje pro mnoho případů použití, včetně vývoje a testování, a je vhodná pro produkční úlohy, které by se měly spouštět podle plánu. Podrobnosti o plánování kanálů najdete v tématu úlohy kanálu DLT pro úlohy.

možnosti konfigurace Compute

Databricks doporučuje vždy používat rozšířené automatické škálování. Výchozí hodnoty pro jiné konfigurace výpočetních prostředků fungují dobře pro mnoho datových toků.

Bezserverové kanály odeberou možnosti konfigurace výpočetních prostředků. Pokyny ke konfiguraci pro bezserverové kanály najdete v tématu Konfigurace bezserverového kanálu DLT.

K přizpůsobení konfigurací výpočetních prostředků použijte následující nastavení:

  • Pomocí značek clusteru můžete monitorovat náklady spojené s kanály DLT. Vizte Konfigurace značek clusteru.
  • Nakonfigurujte typy instancí k určení typu virtuálních počítačů, které se používají ke spuštění pipelinu. Viz Výběr typů instancí pro spuštěníkanálu .
    • Vyberte typ pracovníka optimalizovaný pro úlohy nakonfigurované ve vaší pipelině.
    • Volitelně můžete vybrat typ ovladače , který se liší od typu pracovního procesu. To může být užitečné pro snížení nákladů v potrubí s velkými typy pracovníků a nízkým využitím výpočetních prostředků řídicí jednotky nebo pro volbu většího typu řídicí jednotky, aby nedocházelo k problémům s nedostatkem paměti v úlohách s mnoha malými pracovníky.

Další aspekty konfigurace

Pro kanály jsou k dispozici také následující možnosti konfigurace:

  • Edice produktu Advanced poskytuje přístup ke všem funkcím DLT. Kanály můžete volitelně spouštět pomocí edic produktů Pro nebo Core. Podívejte se na Zvolení edice produktu.
  • Při spouštění pipelinů v produkčním prostředí můžete použít režim Continuous. Viz Aktivovaný vs. průběžný režim potrubí.
  • Pokud váš pracovní prostor není nakonfigurován pro Unity Catalog nebo vaše úloha potřebuje používat starší metastore Hive, přečtěte si pokyny Použití DLT pipelin se starší verzí metastoru Hive.
  • Přidejte Oznámení pro e-mailové aktualizace podle podmínek úspěchu nebo selhání. Podívejte se na Přidejte e-mailová oznámení pro události pipeline.
  • Pomocí pole Konfigurace nastavte páry klíč-hodnota pro pipelinu. Tyto konfigurace slouží ke dvěma účelům:
    • Nastavte libovolné parametry, na které můžete odkazovat ve zdrojovém kódu. Viz Použití parametrů s kanály DLT.
    • Nakonfigurujte nastavení datové cesty a konfigurace pro Spark. Viz odkazy na vlastnosti DLT .
  • Pomocí kanálu Preview otestujte své potrubí proti čekajícím změnám v běhovém prostředí DLT a vyzkoušejte nové funkce.

Vybrat edici produktu

Vyberte edici produktu DLT s nejlepšími funkcemi pro vaše požadavky na kanál. K dispozici jsou následující edice produktů:

  • Core pro spouštění úloh zpracování datového proudu. Vyberte edici Core, pokud váš kanál nevyžaduje pokročilé funkce, jako je záznam dat změn (CDC) nebo očekávání DLT.
  • Pro ke spouštění úloh ingestování, streamování a CDC. Edice produktu Pro podporuje všechny funkce Core a podporu úloh, které vyžadují aktualizaci tabulek na základě změn ve zdrojových datech.
  • Advanced ke spouštění úloh streamového zpracování dat, úloh CDC a úloh, které vyžadují splnění podmínek. Edice produktu Advanced podporuje funkce edice Core a Pro a zahrnuje omezení kvality dat s očekáváními DLT.

Při vytváření nebo úpravě pipeliny můžete vybrat edici produktu. Pro každý kanál můžete zvolit jinou edici. Podívejte se na produktovou stránku DLT .

Poznámka: Pokud datový řetězec obsahuje funkce, které vybraná edice produktu nepodporuje, například očekávání, zobrazí se chybová zpráva s vysvětlením důvodu chyby. Potrubí poté můžete upravit a vybrat příslušnou edici.

Konfigurace zdrojového kódu

Pomocí selektoru souborů v uživatelském rozhraní DLT můžete nakonfigurovat zdrojový kód definující váš kanál. Zdrojový kód pipeline je definovaný v poznámkových blocích Databricks nebo ve skriptech SQL či Pythonu, které jsou uloženy v souborech pracovního prostoru. Při vytváření nebo úpravě pipeliny můžete přidat jeden nebo více poznámkových bloků, soubory pracovního prostoru nebo jejich kombinaci.

Vzhledem k tomu, že DLT automaticky analyzuje závislosti datových sad za účelem vytvoření grafu zpracování pro váš kanál, můžete přidat prostředky zdrojového kódu v libovolném pořadí.

Soubor JSON můžete upravit tak, aby zahrnoval zdrojový kód DLT definovaný ve skriptech SQL a Pythonu uložených v souborech pracovního prostoru. Následující příklad obsahuje poznámkové bloky a soubory pracovního prostoru:

{
  "name": "Example pipeline 3",
  "storage": "dbfs:/pipeline-examples/storage-location/example3",
  "libraries": [
    { "notebook": { "path": "/example-notebook_1" } },
    { "notebook": { "path": "/example-notebook_2" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
  ]
}

Správa externích závislostí pro kanály, které používají Python

DLT podporuje používání externích závislostí ve vašich pipelinech, jako jsou balíčky a knihovny Pythonu. Další informace o možnostech a doporučeních pro používání závislostí najdete v tématu Správa závislostí Pythonu pro kanály DLT.

Použití modulů Pythonu uložených v pracovním prostoru Azure Databricks

Kromě implementace kódu Pythonu v poznámkových blocích Databricks můžete použít složky Gitu nebo soubory pracovního prostoru Databricks k uložení kódu jako modulů Pythonu. Ukládání kódu jako modulů Pythonu je užitečné hlavně v případech, kdy máte společné funkce, které chcete použít v několika kanálech nebo poznámkových blocích ve stejném kanálu. Informace o tom, jak používat moduly Pythonu ve vašich kanálech, najdete v tématu Import modulů Pythonu ze složek Git nebo souborů pracovních prostorů.