Sdílet prostřednictvím


Konfigurace potrubí Delta Live Tables

Tento článek popisuje základní konfiguraci pipeline Delta Live Tables pomocí UI pracovního prostoru.

Databricks doporučuje vyvíjet nové kanály pomocí bezserverové architektury. Pokyny ke konfiguraci pro bezserverové datové toky najdete v tématu Konfigurace bezserverového datového toku Delta Live Tables.

Pokyny ke konfiguraci v tomto článku používají Katalog Unity. Pokyny ke konfiguraci kanálů se starší verzí metastoru Hive najdete v tématu Použití kanálů Delta Live Tables se starší verzí metastoru Hive.

Tento článek popisuje funkčnost aktuálního výchozího režimu publikování pro pipelines. Kanály vytvořené před 5. únorem 2025 můžou používat starší režim publikování a LIVE virtuální schéma. Viz LIVE schema (starší verze).

Poznámka:

Uživatelské rozhraní má možnost zobrazit a upravit nastavení ve formátu JSON. Většinu nastavení můžete nakonfigurovat pomocí uživatelského rozhraní nebo specifikace JSON. Některé pokročilé možnosti jsou k dispozici pouze pomocí konfigurace JSON.

Konfigurační soubory JSON jsou také užitečné při nasazování kanálů do nových prostředí nebo pomocí rozhraní příkazového řádku nebo rozhraní REST API.

Úplný přehled nastavení konfigurace JSON pro Delta Live Tables najdete v části Konfigurace kanálu Delta Live Tables.

Nakonfigurujte nový datový kanál Delta Live Tables

Pokud chcete nakonfigurovat nový kanál Delta Live Tables, postupujte takto:

  1. Klikněte na Delta Live Tables v postranním panelu.
  2. Klikněte na Vytvořit kanál.
  3. Zadejte jedinečný název kanálu.
  4. (Volitelné) Ikona výběru souboru Pomocí nástroje pro výběr souborů můžete nakonfigurovat poznámkové bloky a soubory pracovního prostoru jako zdrojový kód.
    • Pokud nepřidáte žádný zdrojový kód, vytvoří se pro kanál nový poznámkový blok. Poznámkový blok se vytvoří v novém adresáři v uživatelském adresáři a po vytvoření kanálu se v poli Zdrojový kód v podokně podrobností kanálu zobrazí odkaz pro přístup k tomuto poznámkovému bloku.
      • K tomuto poznámkovému bloku se dostanete pomocí adresy URL uvedené v poli Zdrojový kód na panelu podrobností kanálu po vytvoření kanálu.
    • Pomocí tlačítka Přidat zdrojový kód přidejte další prostředky zdrojového kódu.
  5. Vyberte katalog Unity v části možnosti úložiště .
  6. Vyberte katalogu. Toto nastavení řídí výchozí katalog a umístění úložiště pro metadata kanálu.
  7. V katalogu vyberte schéma . Ve výchozím nastavení se v tomto schématu vytvoří streamovací tabulky a materializovaná zobrazení definovaná v pipeline.
  8. V části Výpočty zaškrtněte políčko vedle možnosti Použít akceleraci photon. Další aspekty konfigurace výpočetních prostředků najdete v tématu Možnosti konfigurace výpočetních prostředků.
  9. Klikněte na Vytvořit.

Tyto doporučené konfigurace vytvoří nový kanál nakonfigurovaný tak, aby běžel v režimu triggeru a používal aktuální kanál. Tato konfigurace se doporučuje pro mnoho případů použití, včetně vývoje a testování, a je vhodná pro produkční úlohy, které by se měly spouštět podle plánu. Podrobnosti o plánování kanálů najdete v tématu úlohy kanálu Delta Live Tables pro úlohy.

Možnosti konfigurace výpočetních prostředků

Databricks doporučuje vždy používat rozšířené automatické škálování. Výchozí hodnoty pro jiné konfigurace výpočtů fungují dobře pro mnoho pipeline.

Bezserverové kanály odeberou možnosti konfigurace výpočetních prostředků. Pokyny ke konfiguraci pro bezserverové datové toky najdete v tématu Konfigurace bezserverového datového toku Delta Live Tables.

K přizpůsobení konfigurací výpočetních prostředků použijte následující nastavení:

  • Správci pracovního prostoru můžou nakonfigurovat zásady clusteru. Zásady výpočetních prostředků umožňují správcům řídit, jaké výpočetní možnosti jsou uživatelům k dispozici. Viz Výběr zásad clusteru.

  • Volitelně můžete nakonfigurovat režim clusteru tak, aby běžel s pevnou velikostí nebo starším automatickým škálováním. Viz Optimalizace využití clusteru kanálů Delta Live Tables s vylepšeným automatickým škálováním.

  • U úloh s povoleným automatickým škálováním nastavte minimální počet pracovníků a maximální počet pracovníků pro stanovení limitů pro chování škálování. Viz Konfigurace výpočetních prostředků pro kanál Delta Live Tables.

  • Volitelně můžete vypnout akceleraci Photon. Podívejte se, co je Photon?

  • Použijte značky clusterů a pro monitorování nákladů spojených s pipeline Delta Live Tables. Viz Konfigurace značek clusteru.

  • Nakonfigurujte typy instancí tak, aby určily typ virtuálních počítačů, které se používají ke spuštění kanálu. Viz Výběr typů instancí pro spuštění kanálu.

    • Vyberte typ pracovního procesu optimalizovaný pro úlohy nakonfigurované ve vašem kanálu.
    • Volitelně můžete vybrat typ ovladače , který se liší od typu pracovního procesu. To může být užitečné pro snížení nákladů v kanálech s velkými typy pracovních procesů a nízkým využitím výpočetních prostředků ovladačů nebo pro volbu většího typu ovladače, aby nedocházelo k problémům s nedostatkem paměti v úlohách s mnoha malými pracovními procesy.

Další aspekty konfigurace

Pro kanály jsou k dispozici také následující možnosti konfigurace:

Volba edice produktu

Vyberte edici produktu Delta Live Tables s nejlepšími funkcemi pro vaše požadavky na pipeline. K dispozici jsou následující edice produktů:

  • Core ke spouštění úloh ingestování streamování. Vyberte edici Core, pokud vaše pipeline nevyžaduje pokročilé funkce, jako je například zachytávání změn dat (CDC) nebo očekávání pro Delta Live Tables.
  • Pro ke spouštění úloh ingestování streamování a CDC. Edice produktu Pro podporuje všechny funkce Core a podporu úloh, které vyžadují aktualizaci tabulek na základě změn ve zdrojových datech.
  • Advanced ke spouštění úloh ingestování streamování, úloh CDC a úloh, které vyžadují očekávání. Edice produktu Advanced podporuje funkce edicí Core a Pro a zahrnuje omezení kvality dat s očekáváními Delta Live Tables.

Edici produktu můžete vybrat při vytváření nebo úpravě datového toku. Pro každý kanál můžete zvolit jinou edici. Podívejte se na stránku produktu Delta Live Tables .

Poznámka: Pokud kanál obsahuje funkce, které vybraná edice produktu nepodporuje, například očekávání, zobrazí se chybová zpráva s vysvětlením důvodu chyby. Pipeline pak můžete upravit a vybrat příslušnou edici.

Konfigurace zdrojového kódu

Pomocí selektoru souborů v uživatelském rozhraní Delta Live Tables můžete nakonfigurovat zdrojový kód definující váš kanál. Zdrojový kód kanálu je definovaný v poznámkových blocích Databricks nebo skriptech SQL nebo Pythonu uložených v souborech pracovního prostoru. Při vytváření nebo úpravě kanálu můžete přidat jeden nebo více poznámkových bloků nebo souborů pracovního prostoru nebo kombinaci poznámkových bloků a souborů pracovního prostoru.

Vzhledem k tomu, že Delta Live Tables automaticky analyzuje závislosti datových sad za účelem vytvoření grafu zpracování pro váš kanál, můžete přidat prostředky zdrojového kódu v libovolném pořadí.

Soubor JSON můžete upravit tak, aby zahrnoval zdrojový kód Delta Live Tables definovaný ve skriptech SQL a Pythonu uložených v souborech pracovního prostoru. Následující příklad obsahuje poznámkové bloky a soubory pracovního prostoru:

{
  "name": "Example pipeline 3",
  "storage": "dbfs:/pipeline-examples/storage-location/example3",
  "libraries": [
    { "notebook": { "path": "/example-notebook_1" } },
    { "notebook": { "path": "/example-notebook_2" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
  ]
}

Správa externích závislostí pro kanály, které používají Python

Delta Live Tables podporují používání externích závislostí v pipelinech, jako jsou balíčky a knihovny Pythonu. Další informace o možnostech a doporučeních pro používání závislostí najdete v tématu Správa závislostí Pythonu pro kanály Delta Live Tables.

Použití modulů Pythonu uložených v pracovním prostoru Azure Databricks

Kromě implementace kódu Pythonu v poznámkových blocích Databricks můžete použít složky Gitu nebo soubory pracovního prostoru Databricks k uložení kódu jako modulů Pythonu. Ukládání kódu jako modulů Pythonu je užitečné hlavně v případech, kdy máte společné funkce, které chcete použít v několika kanálech nebo poznámkových blocích ve stejném kanálu. Informace o používání modulů Pythonu s vašimi kanály najdete v tématu Import modulů Pythonu ze složek Gitu nebo souborů pracovních prostorů.