Spuštění aktualizace v kanálu Delta Live Tables
Tento článek vysvětluje, co je aktualizace kanálu Delta Live Tables a jak ji spustit.
Jakmile vytvoříte kanál a budete připraveni ho spustit, spustíte aktualizaci. Aktualizace kanálu provede následující:
- Spustí cluster se správnou konfigurací.
- Vyhledá všechny definované tabulky a zobrazení a vyhledá všechny chyby analýzy, jako jsou neplatné názvy sloupců, chybějící závislosti a chyby syntaxe.
- Vytvoří nebo aktualizuje tabulky a zobrazení s nejnovějšími dostupnými daty.
Pomocí ověřované aktualizace můžete zkontrolovat problémy ve zdrojovém kódu kanálu, aniž byste čekali na vytvoření nebo aktualizaci tabulek. Tato funkce je užitečná při vývoji nebo testování kanálů, protože umožňuje rychle vyhledat a opravit chyby v kanálu, jako jsou nesprávné názvy tabulek nebo sloupců.
Informace o tom, jak vytvořit kanál, najdete v tématu Konfigurace kanálu Delta Live Tables.
Aktualizace kanálu můžete orchestrovat pomocí úloh Databricks nebo jiných nástrojů. Viz Spuštění kanálu Delta Live Tables v pracovním postupu.
Spuštění aktualizace kanálu
Azure Databricks nabízí několik možností spuštění aktualizací kanálu, včetně následujících:
- V uživatelském rozhraní Delta Live Tables máte následující možnosti:
- Klikněte na tlačítko na stránce podrobností kanálu.
- V seznamu kanálů klikněte do sloupce Akce.
- Pokud chcete spustit aktualizaci v poznámkovém bloku, připojte ho ke nakonfigurovanému kanálu a klikněte na Start. Viz Vývoj a ladění kanálů Delta Live Tables v poznámkových blocích.
- Kanály můžete aktivovat programově pomocí rozhraní API nebo rozhraní příkazového řádku. Viz rozhraní API kanálu.
- Kanál můžete naplánovat jako úlohu pomocí uživatelského rozhraní Delta Live Tables nebo uživatelského rozhraní úloh. Viz Plánování kanálu.
Poznámka:
Výchozí chování pro ručně aktivované aktualizace kanálu pomocí některé z těchto metod je aktualizovat vše.
Jak Delta Live Tables aktualizuje tabulky a zobrazení
Důležité
Úplná aktualizace streamované tabulky nebo materializovaného zobrazení zkrátí a znovu zkompiluje tabulku nebo zobrazení tak, aby odráželo aktuální stav vstupních zdrojů dat. U streamovaných tabulek se kontrolní body také resetují. Pokud byly záznamy ze zdrojů dat odebrány, například kvůli zásadám uchovávání dat, ručnímu odstranění nebo zdrojům s krátkými obdobími uchovávání, jako je Kafka, se stav tabulky nebo zobrazení po úplné aktualizaci může lišit od předchozího stavu. Kromě toho čas a prostředky k dokončení úplné aktualizace korelují s velikostí zdrojových dat.
Databricks doporučuje spustit úplné aktualizace pouze v případě potřeby a pokud vstupní zdroje dat obsahují data, aby se znovu sestavil stav tabulky nebo zobrazení. Chcete-li zabránit spuštění úplných aktualizací v tabulce nebo zobrazení, nastavte vlastnost tabulky pipelines.reset.allowed
na false
. Viz vlastnosti tabulky Delta Live Tables. Můžete také použít tok přidání k připojení dat k existující streamované tabulce, aniž by bylo nutné provádět úplnou aktualizaci.
Aktualizované tabulky a zobrazení a způsob aktualizace těchto tabulek a zobrazení závisí na typu aktualizace:
- Aktualizovat vše: Všechny tabulky se aktualizují tak, aby odrážely aktuální stav vstupních zdrojů dat. U streamovaných tabulek se k tabulce připojí nové řádky.
- Úplná aktualizace: Všechny tabulky se aktualizují tak, aby odrážely aktuální stav vstupních zdrojů dat. U streamovaných tabulek se Delta Live Tables pokusí vymazat všechna data z každé tabulky a pak načíst všechna data ze zdroje streamování.
-
Výběr aktualizace: Chování je stejné jako
refresh selection
u vybranýchrefresh all
tabulek, ale umožňuje aktualizovat pouze vybrané tabulky. Vybrané tabulky se aktualizují tak, aby odrážely aktuální stav jejich vstupních zdrojů dat. U streamovaných tabulek se k tabulce připojí nové řádky. -
Výběr úplné aktualizace: Chování
full refresh selection
je stejné jakofull refresh all
u vybraných tabulek, ale umožňuje provést úplnou aktualizaci pouze vybraných tabulek. Vybrané tabulky se aktualizují tak, aby odrážely aktuální stav jejich vstupních zdrojů dat. U streamovaných tabulek se Delta Live Tables pokusí vymazat všechna data z každé tabulky a pak načíst všechna data ze zdroje streamování.
U existujících materializovaných zobrazení má aktualizace stejné chování jako SQL REFRESH
v materializovaném zobrazení. U nových materializovaných zobrazení je chování stejné jako operace SQL CREATE
.
Spuštění aktualizace kanálu pro vybrané tabulky
Volitelně můžete znovu zpracovat data pouze pro vybrané tabulky v kanálu. Během vývoje například změníte jenom jednu tabulku a chcete zkrátit dobu testování nebo se nezdaří aktualizace kanálu a chcete aktualizovat pouze neúspěšné tabulky.
Poznámka:
Selektivní aktualizaci můžete použít pouze s aktivovanými kanály.
Pokud chcete spustit aktualizaci, která aktualizuje jenom vybrané tabulky, na stránce podrobností kanálu:
Klikněte na Vybrat tabulky pro aktualizaci. Zobrazí se dialogové okno Vybrat tabulky pro aktualizaci .
Pokud tlačítko Vybrat tabulky pro aktualizaci nevidíte, zkontrolujte, že stránka s podrobnostmi kanálu zobrazuje nejnovější aktualizaci a že je aktualizace dokončená. Pokud se například pro nejnovější aktualizaci nezobrazuje dag, protože aktualizace selhala, tlačítko Vybrat tabulky pro aktualizaci se nezobrazí.
Pokud chcete vybrat tabulky, které se mají aktualizovat, klikněte na každou tabulku. Vybrané tabulky jsou zvýrazněné a označené. Pokud chcete tabulku z aktualizace odebrat, klikněte znovu na tabulku.
Klikněte na Aktualizovat výběr.
Poznámka:
Tlačítko Aktualizovat výběr zobrazuje počet vybraných tabulek v závorkách.
Chcete-li znovu zpracovat data ingestované pro vybrané tabulky, klikněte na tlačítko Aktualizovat výběr a klikněte na výběr Úplné aktualizace.
Spuštění aktualizace kanálu pro neúspěšné tabulky
Pokud aktualizace kanálu selže kvůli chybám v jedné nebo více tabulkách v grafu kanálu, můžete spustit aktualizaci pouze neúspěšných tabulek a všech podřízených závislostí.
Poznámka:
Vyloučené tabulky se neaktualizuje, i když závisí na neúspěšné tabulce.
Pokud chcete aktualizovat neúspěšné tabulky, klikněte na stránce Podrobností kanálu na Aktualizovat neúspěšné tabulky.
Aktualizace pouze vybraných neúspěšných tabulek:
Klikněte vedle tlačítka Aktualizovat neúspěšné tabulky a klikněte na Vybrat tabulky pro aktualizaci. Zobrazí se dialogové okno Vybrat tabulky pro aktualizaci .
Pokud chcete vybrat tabulky, které se mají aktualizovat, klikněte na každou tabulku. Vybrané tabulky jsou zvýrazněné a označené. Pokud chcete tabulku z aktualizace odebrat, klikněte znovu na tabulku.
Klikněte na Aktualizovat výběr.
Poznámka:
Tlačítko Aktualizovat výběr zobrazuje počet vybraných tabulek v závorkách.
Chcete-li znovu zpracovat data ingestované pro vybrané tabulky, klikněte na tlačítko Aktualizovat výběr a klikněte na výběr Úplné aktualizace.
Kontrola chyb v kanálu bez čekání na aktualizaci tabulek
Důležité
Funkce aktualizace Delta Live Tables Validate
je ve verzi Public Preview.
Pokud chcete zkontrolovat, jestli je zdrojový kód kanálu platný bez spuštění úplné aktualizace, použijte funkci Ověřit. Aktualizace Validate
vyřeší definice datových sad a toků definovaných v kanálu, ale ne materializuje ani nepublikuje žádné datové sady. Chyby zjištěné během ověřování, například nesprávné názvy tabulek nebo sloupců, jsou hlášeny v uživatelském rozhraní.
Pokud chcete spustit Validate
aktualizaci, klikněte na stránku podrobností kanálu vedle nabídky Start a klikněte na Ověřit.
Validate
Po dokončení aktualizace protokol událostí zobrazuje události související pouze s Validate
aktualizací a v DAG se nezobrazují žádné metriky. Pokud jsou nalezeny chyby, podrobnosti jsou k dispozici v protokolu událostí.
Zobrazí se výsledky pouze pro nejnovější Validate
aktualizaci.
Validate
Pokud byla aktualizace naposledy spuštěnou aktualizací, můžete výsledky zobrazit tak, že ji vyberete v historii aktualizací. Pokud se po Validate
aktualizaci spustí jiná aktualizace, výsledky už nebudou v uživatelském rozhraní k dispozici.
Jak zvolit hranice kanálu
Kanál Delta Live Tables může zpracovávat aktualizace jedné tabulky, mnoho tabulek se závislými relacemi, mnoho tabulek bez relací nebo několik nezávislých toků tabulek se závislými relacemi. Tato část obsahuje důležité informace, které vám pomůžou určit, jak rozdělit kanály.
Větší kanály dynamických tabulek Delta mají několik výhod. Patří mezi ně následující:
- Efektivněji používejte prostředky clusteru.
- Snižte počet kanálů ve vašem pracovním prostoru.
- Snižte složitost orchestrace pracovních postupů.
Mezi běžná doporučení týkající se rozdělení kanálů zpracování patří:
- Rozdělení funkcí na hranicích týmu Váš datový tým může například udržovat kanály pro transformaci dat, zatímco datoví analytici udržují kanály, které analyzují transformovaná data.
- Rozdělte funkce na hranicích specifických pro aplikaci, abyste omezili párování a usnadnili opětovné použití běžných funkcí.
Vývojové a produkční režimy
Spuštění kanálu můžete optimalizovat přepnutím mezi režimy vývoje a produkce. Pomocí tlačítek v uživatelském rozhraní Pipelines můžete přepínat mezi těmito dvěma režimy. Ve výchozím nastavení se kanály spouštějí v režimu vývoje.
Při spuštění kanálu ve vývojovém režimu provede systém Delta Live Tables následující:
- Znovu použije cluster, aby se zabránilo režii restartování. Clustery ve výchozím nastavení běží po dobu dvou hodin, když je povolený režim vývoje. Můžete to změnit nastavením
pipelines.clusterShutdown.delay
v konfiguraci výpočetních prostředků pro kanál Delta Live Tables. - Zakáže opakování kanálu, abyste mohli okamžitě zjišťovat a opravovat chyby.
V produkčním režimu systém Delta Live Tables provede následující:
- Restartuje cluster pro konkrétní obnovitelné chyby, včetně nevracení paměti a zastaralých přihlašovacích údajů.
- Opakuje provádění v případě konkrétních chyb, jako je například selhání spuštění clusteru.
Poznámka:
Přepínání mezi režimy vývoje a produkce řídí pouze chování clusteru a spouštění kanálů. Umístění úložiště a cílová schémata v katalogu pro tabulky publikování musí být nakonfigurovaná jako součást nastavení kanálu a při přepínání mezi režimy to neovlivní.
Naplánování kanálu
Aktivovaný kanál můžete spustit ručně nebo spustit kanál podle plánu pomocí úlohy Azure Databricks. Úlohu můžete vytvořit a naplánovat s jednou úlohou kanálu přímo v uživatelském rozhraní Delta Live Tables nebo přidat úlohu kanálu do pracovního postupu s více úlohami v uživatelském rozhraní úloh. Viz úloha kanálu Delta Live Tables pro úlohy.
Vytvoření úlohy s jedním úkolem a plánu pro úlohu v uživatelském rozhraní Delta Live Tables:
- Klikněte na Naplánovat > přidání plánu. Pokud je kanál součástí jedné nebo více naplánovaných úloh, tlačítko Plán se aktualizuje, aby se zobrazil počet existujících plánů, například Plán (5).
- Do pole Název úlohy zadejte název úlohy.
- Nastavte plán na Naplánovaný.
- Zadejte období, počáteční čas a časové pásmo.
- Nakonfigurujte jednu nebo více e-mailových adres pro příjem upozornění na spuštění kanálu, úspěch nebo selhání.
- Klikněte na Vytvořit.