Spusťte aktualizaci na pipeline Delta Live Tables
Tento článek vysvětluje aktualizace pipeline a obsahuje podrobnosti o tom, jak spustit aktualizaci.
Co je aktualizace pipeline?
Po vytvoření pipeliny a když jste připraveni ji spustit, zahájíte aktualizaci. Aktualizace pipeline provede následující:
- Spustí cluster se správnou konfigurací.
- Vyhledá všechny definované tabulky a zobrazení a vyhledá všechny chyby analýzy, jako jsou neplatné názvy sloupců, chybějící závislosti a chyby syntaxe.
- Vytvoří nebo aktualizuje tabulky a zobrazení s nejnovějšími dostupnými daty.
Pomocí aktualizace ověřitmůžete zkontrolovat problémy ve zdrojovém kódu datového toku, aniž byste museli čekat na vytvoření nebo aktualizaci tabulek. Tato funkce je užitečná při vývoji nebo testování kanálů, protože umožňuje rychle vyhledat a opravit chyby v kanálu, jako jsou nesprávné názvy tabulek nebo sloupců.
Jak se aktivují aktualizace potrubí?
Pro zahájení aktualizací pipeline použijte jednu z následujících možností:
Aktualizační spouštěč | Podrobnosti |
---|---|
Příručka | Aktualizace kanálu můžete aktivovat ručně z uživatelského rozhraní kanálu, seznamu kanálů nebo poznámkového bloku připojeného k kanálu. Viz Ruční aktivace aktualizace kanálu a Vývoj a ladění kanálů Delta Live Tables v poznámkových blocích. |
Naplánovaný | Aktualizace pipelinek můžete naplánovat pomocí úloh. Viz úlohu v rámci přenosového kanálu Delta Live Tables pro úlohy. |
Programatický | Můžete programově spustit aktualizace pomocí nástrojů, rozhraní API a CLI třetích stran. Viz Spuštění kanálu Delta Live Tables v pracovním postupu a rozhraní API kanálu. |
Ruční aktivace aktualizace kanálu
K ručnímu spuštění aktualizace pipeline použijte jednu z následujících možností:
- Na stránce podrobností pipeline klikněte na tlačítko .
- V seznamu potrubních systémů klikněte na ve sloupci Akce.
Poznámka:
Výchozí chování pro ručně aktivované aktualizace kanálu spočívá v aktualizaci všech datových sad definovaných v kanálu.
sémantika aktualizace kanálu
Následující tabulka popisuje chování materializovaných zobrazení a streamovaných tabulek pro výchozí aktualizaci a úplnou aktualizaci:
Typ aktualizace | Materializovaná sémantika zobrazení | Sémantika streamovacích tabulek |
---|---|---|
Aktualizovat (výchozí) | Aktualizuje výsledky tak, aby odrážely aktuální výsledky pro definující dotaz. | Zpracovává nové záznamy prostřednictvím logiky definované v tabulkách a tocích streamování. |
Úplná aktualizace | Aktualizuje výsledky tak, aby odrážely aktuální výsledky pro definující dotaz. | Vymaže data ze streamovaných tabulek, vymaže informace o stavu (kontrolní body) z toků a znovu zpracuje všechny záznamy ze zdroje dat. |
Ve výchozím nastavení je, že veškerá materializovaná zobrazení a streamované tabulky v rámci datového toku se obnovují při každé aktualizaci. Tabulky můžete volitelně vynechat z aktualizací pomocí následujících funkcí:
- Výběr tabulek pro aktualizaci: Pomocí tohoto uživatelského rozhraní můžete před spuštěním aktualizace přidat nebo odebrat materializovaná zobrazení a streamované tabulky. Viz Spuštění aktualizace kanálu pro vybrané tabulky.
- Aktualizovat neúspěšné tabulky: Spusťte aktualizaci pro neúspěšná materializovaná zobrazení a streamované tabulky, včetně podřízených závislostí. Viz Spuštění aktualizace datového toku pro chybové tabulky.
Obě tyto funkce podporují výchozí sémantiku aktualizace nebo úplnou aktualizaci. Volitelně můžete pomocí dialogového okna Vybrat tabulky pro aktualizaci vyloučit další tabulky při spuštění aktualizace pro neúspěšné tabulky.
Mám použít úplnou aktualizaci?
Databricks doporučuje spustit úplné aktualizace jenom v případě potřeby. Úplná aktualizace vždy znovu zpracuje všechny záznamy ze zadaných zdrojů dat prostřednictvím logiky, která definuje datovou sadu. Doba a prostředky k dokončení úplné aktualizace odpovídají velikosti zdrojových dat.
Materializovaná zobrazení vrací stejné výsledky bez ohledu na to, jestli se používá výchozí nebo úplná aktualizace. Použití úplné aktualizace se streamovanými tabulkami resetuje veškeré informace o zpracování stavu a kontrolních bodů a může vést k vyřazení záznamů, pokud už nejsou vstupní data k dispozici.
Databricks doporučuje úplnou aktualizaci pouze v případě, že vstupní zdroje dat obsahují data potřebná k opětovnému vytvoření požadovaného stavu tabulky nebo zobrazení. Představte si následující scénáře, kdy už nejsou k dispozici vstupní zdrojová data a výsledek spuštění úplné aktualizace:
Zdroj dat | Důvod chybějících vstupních dat | Výsledek úplné aktualizace |
---|---|---|
Kafka | Prahová hodnota krátkého uchovávání | Záznamy, které se už nenachází ve zdroji Kafka, se z cílové tabulky zahodí. |
Soubory v úložišti objektů | Zásady životního cyklu | Datové soubory, které již nejsou ve zdrojovém adresáři, se z cílové tabulky zahodí. |
Záznamy v tabulce | Odstraněno kvůli dodržování předpisů | Zpracovávají se jenom záznamy, které jsou ve zdrojové tabulce. |
Chcete-li zabránit spuštění úplných aktualizací v tabulce nebo zobrazení, nastavte vlastnost tabulky pipelines.reset.allowed
na false
. Viz vlastnosti tabulky Delta Live Tables. Můžete také použít tok připojení k připojení dat k existující streamované tabulce bez nutnosti úplné aktualizace.
Zahájit aktualizaci pipeline pro vybrané tabulky
Volitelně můžete znovu zpracovat data pouze pro vybrané tabulky v datovém toku. Například během vývoje změníte pouze jednu tabulku a chcete zkrátit dobu testování, nebo dojde k selhání aktualizace pipeline a chcete obnovit pouze tabulky, které selhaly.
Poznámka:
Selektivní aktualizaci můžete použít pouze s aktivovanými kanály.
Chcete-li spustit aktualizaci, která obnovuje pouze vybrané tabulky, na stránce Podrobnosti kanálu :
Klikněte na Vyberte tabulky k aktualizaci. Zobrazí se dialogové okno Výběr tabulek pro aktualizaci.
Pokud tlačítko Vybrat tabulky pro aktualizaci nevidíte, zkontrolujte, že se na stránce s podrobnostmi kanálu zobrazí nejnovější aktualizace a že je aktualizace dokončená. Pokud DAG není zobrazen pro nejnovější aktualizaci, například proto, že aktualizace selhala, tlačítko Vybrat tabulky pro aktualizaci se nezobrazí.
Pokud chcete vybrat tabulky, které se mají aktualizovat, klikněte na každou tabulku. Vybrané tabulky jsou zvýrazněné a označené. Pokud chcete tabulku z aktualizace odebrat, klikněte znovu na tabulku.
Klikněte na Aktualizovat výběr.
Poznámka:
Tlačítko Aktualizovat výběr zobrazí počet vybraných tabulek v závorkách.
Chcete-li znovu zpracovat data již ingestovaná pro vybrané tabulky, klikněte na vedle tlačítka Aktualizovat výběr a klikněte na Úplná aktualizace výběru.
Spuštění aktualizace datového proudu pro selhalé tabulky
Pokud aktualizace kanálu selže kvůli chybám v jedné nebo více tabulkách v grafu kanálu, můžete spustit aktualizaci pouze neúspěšných tabulek a všech podřízených závislostí.
Poznámka:
Vyloučené tabulky se neaktualizují, i když závisí na selhalé tabulce.
Pokud chcete aktualizovat neúspěšné tabulky, klikněte na stránce podrobností kanálu na Aktualizovat neúspěšné tabulky.
Aktualizace pouze vybraných neúspěšných tabulek:
Klikněte na tlačítko vedle tlačítka Obnovit neúspěšné tabulky a poté klikněte na Vybrat tabulky pro obnovení. Zobrazí se dialogové okno Výběr tabulek pro aktualizaci.
Pokud chcete vybrat tabulky, které se mají aktualizovat, klikněte na každou tabulku. Vybrané tabulky jsou zvýrazněné a označené. Pokud chcete tabulku z aktualizace odebrat, klikněte znovu na tabulku.
Klikněte na Aktualizovat výběr.
Poznámka:
Tlačítko Aktualizovat výběr zobrazí počet vybraných tabulek v závorkách.
Chcete-li znovu zpracovat data již ingestovaná pro vybrané tabulky, klikněte na vedle tlačítka Aktualizovat výběr a klikněte na Úplná aktualizace výběru.
Zkontrolujte chyby v datovém toku bez čekání na aktualizaci tabulek
Důležité
Funkce Validate
aktualizace Delta Live Tables je ve verzi veřejná testovací verze.
Pokud chcete zkontrolovat, jestli je zdrojový kód pipeline platný, použijte Ověřitbez spuštění úplné aktualizace. Aktualizace Validate
řeší definice datových sad a toků definovaných v potrubí, ale nematerializuje ani nepublikuje žádné datové sady. Chyby zjištěné během ověřování, například nesprávné názvy tabulek nebo sloupců, jsou hlášeny v uživatelském rozhraní.
Chcete-li spustit aktualizaci Validate
, klikněte na na stránce podrobností kanálu vedle Start a klikněte na Ověřit.
Po dokončení aktualizace Validate
protokol událostí zobrazuje události související pouze s aktualizací Validate
a v DAG se nezobrazují žádné metriky. Pokud jsou nalezeny chyby, podrobnosti jsou k dispozici v protokolu událostí.
Zobrazí se výsledky pouze pro nejnovější aktualizaci Validate
. Pokud byla aktualizace Validate
spustí jiná aktualizace, výsledky už nebudou v uživatelském rozhraní dostupné.
Vývojové a produkční režimy
Spuštění pipeline můžete optimalizovat přepnutím mezi režimy vývoje a produkce. Mezi těmito dvěma režimy můžete přepínat pomocí ikon v uživatelském rozhraní Pipelines. Ve výchozím nastavení se kanály spouštějí v režimu vývoje.
Při spuštění potrubí v režimu vývoje provede systém Delta Live Tables následující:
- Znovu použije cluster, aby se zabránilo režii restartování. Clustery ve výchozím nastavení běží po dobu dvou hodin, když je povolený režim vývoje. Můžete to změnit nastavením
pipelines.clusterShutdown.delay
v Konfigurovat výpočetní prostředky pro potrubí Delta Live Tables. - Zakáže opakování kanálu, abyste mohli okamžitě zjišťovat a opravovat chyby.
V produkčním režimu systém Delta Live Tables provede následující:
- Restartuje cluster pro konkrétní obnovitelné chyby, včetně úniků paměti a zastaralých přihlašovacích údajů.
- Opakuje provádění v případě konkrétních chyb, jako je například selhání spuštění clusteru.
Poznámka:
Přepínání mezi režimy vývoje a produkce řídí pouze chování clusteru a spouštění kanálů. Umístění úložiště a cílová schémata v katalogu pro zveřejňování tabulek musí být nakonfigurována jako součást nastavení kanálu a nejsou ovlivněna při přepínání mezi režimy.