Sdílet prostřednictvím


Spusťte aktualizaci na pipeline Delta Live Tables

Tento článek vysvětluje aktualizace pipeline a obsahuje podrobnosti o tom, jak spustit aktualizaci.

Co je aktualizace pipeline?

Po vytvoření pipeliny a když jste připraveni ji spustit, zahájíte aktualizaci. Aktualizace pipeline provede následující:

  • Spustí cluster se správnou konfigurací.
  • Vyhledá všechny definované tabulky a zobrazení a vyhledá všechny chyby analýzy, jako jsou neplatné názvy sloupců, chybějící závislosti a chyby syntaxe.
  • Vytvoří nebo aktualizuje tabulky a zobrazení s nejnovějšími dostupnými daty.

Pomocí aktualizace ověřitmůžete zkontrolovat problémy ve zdrojovém kódu datového toku, aniž byste museli čekat na vytvoření nebo aktualizaci tabulek. Tato funkce je užitečná při vývoji nebo testování kanálů, protože umožňuje rychle vyhledat a opravit chyby v kanálu, jako jsou nesprávné názvy tabulek nebo sloupců.

Jak se aktivují aktualizace potrubí?

Pro zahájení aktualizací pipeline použijte jednu z následujících možností:

Aktualizační spouštěč Podrobnosti
Příručka Aktualizace kanálu můžete aktivovat ručně z uživatelského rozhraní kanálu, seznamu kanálů nebo poznámkového bloku připojeného k kanálu. Viz Ruční aktivace aktualizace kanálu a Vývoj a ladění kanálů Delta Live Tables v poznámkových blocích.
Naplánovaný Aktualizace pipelinek můžete naplánovat pomocí úloh. Viz úlohu v rámci přenosového kanálu Delta Live Tables pro úlohy.
Programatický Můžete programově spustit aktualizace pomocí nástrojů, rozhraní API a CLI třetích stran. Viz Spuštění kanálu Delta Live Tables v pracovním postupu a rozhraní API kanálu.

Ruční aktivace aktualizace kanálu

K ručnímu spuštění aktualizace pipeline použijte jednu z následujících možností:

  • Na stránce podrobností pipeline klikněte na tlačítko ikona spuštění Delta Live Tables.
  • V seznamu potrubních systémů klikněte na Ikona pravé šipky ve sloupci Akce.

Poznámka:

Výchozí chování pro ručně aktivované aktualizace kanálu spočívá v aktualizaci všech datových sad definovaných v kanálu.

sémantika aktualizace kanálu

Následující tabulka popisuje chování materializovaných zobrazení a streamovaných tabulek pro výchozí aktualizaci a úplnou aktualizaci:

Typ aktualizace Materializovaná sémantika zobrazení Sémantika streamovacích tabulek
Aktualizovat (výchozí) Aktualizuje výsledky tak, aby odrážely aktuální výsledky pro definující dotaz. Zpracovává nové záznamy prostřednictvím logiky definované v tabulkách a tocích streamování.
Úplná aktualizace Aktualizuje výsledky tak, aby odrážely aktuální výsledky pro definující dotaz. Vymaže data ze streamovaných tabulek, vymaže informace o stavu (kontrolní body) z toků a znovu zpracuje všechny záznamy ze zdroje dat.

Ve výchozím nastavení je, že veškerá materializovaná zobrazení a streamované tabulky v rámci datového toku se obnovují při každé aktualizaci. Tabulky můžete volitelně vynechat z aktualizací pomocí následujících funkcí:

Obě tyto funkce podporují výchozí sémantiku aktualizace nebo úplnou aktualizaci. Volitelně můžete pomocí dialogového okna Vybrat tabulky pro aktualizaci vyloučit další tabulky při spuštění aktualizace pro neúspěšné tabulky.

Mám použít úplnou aktualizaci?

Databricks doporučuje spustit úplné aktualizace jenom v případě potřeby. Úplná aktualizace vždy znovu zpracuje všechny záznamy ze zadaných zdrojů dat prostřednictvím logiky, která definuje datovou sadu. Doba a prostředky k dokončení úplné aktualizace odpovídají velikosti zdrojových dat.

Materializovaná zobrazení vrací stejné výsledky bez ohledu na to, jestli se používá výchozí nebo úplná aktualizace. Použití úplné aktualizace se streamovanými tabulkami resetuje veškeré informace o zpracování stavu a kontrolních bodů a může vést k vyřazení záznamů, pokud už nejsou vstupní data k dispozici.

Databricks doporučuje úplnou aktualizaci pouze v případě, že vstupní zdroje dat obsahují data potřebná k opětovnému vytvoření požadovaného stavu tabulky nebo zobrazení. Představte si následující scénáře, kdy už nejsou k dispozici vstupní zdrojová data a výsledek spuštění úplné aktualizace:

Zdroj dat Důvod chybějících vstupních dat Výsledek úplné aktualizace
Kafka Prahová hodnota krátkého uchovávání Záznamy, které se už nenachází ve zdroji Kafka, se z cílové tabulky zahodí.
Soubory v úložišti objektů Zásady životního cyklu Datové soubory, které již nejsou ve zdrojovém adresáři, se z cílové tabulky zahodí.
Záznamy v tabulce Odstraněno kvůli dodržování předpisů Zpracovávají se jenom záznamy, které jsou ve zdrojové tabulce.

Chcete-li zabránit spuštění úplných aktualizací v tabulce nebo zobrazení, nastavte vlastnost tabulky pipelines.reset.allowed na false. Viz vlastnosti tabulky Delta Live Tables. Můžete také použít tok připojení k připojení dat k existující streamované tabulce bez nutnosti úplné aktualizace.

Zahájit aktualizaci pipeline pro vybrané tabulky

Volitelně můžete znovu zpracovat data pouze pro vybrané tabulky v datovém toku. Například během vývoje změníte pouze jednu tabulku a chcete zkrátit dobu testování, nebo dojde k selhání aktualizace pipeline a chcete obnovit pouze tabulky, které selhaly.

Poznámka:

Selektivní aktualizaci můžete použít pouze s aktivovanými kanály.

Chcete-li spustit aktualizaci, která obnovuje pouze vybrané tabulky, na stránce Podrobnosti kanálu :

  1. Klikněte na Vyberte tabulky k aktualizaci. Zobrazí se dialogové okno Výběr tabulek pro aktualizaci.

    Pokud tlačítko Vybrat tabulky pro aktualizaci nevidíte, zkontrolujte, že se na stránce s podrobnostmi kanálu zobrazí nejnovější aktualizace a že je aktualizace dokončená. Pokud DAG není zobrazen pro nejnovější aktualizaci, například proto, že aktualizace selhala, tlačítko Vybrat tabulky pro aktualizaci se nezobrazí.

  2. Pokud chcete vybrat tabulky, které se mají aktualizovat, klikněte na každou tabulku. Vybrané tabulky jsou zvýrazněné a označené. Pokud chcete tabulku z aktualizace odebrat, klikněte znovu na tabulku.

  3. Klikněte na Aktualizovat výběr.

    Poznámka:

    Tlačítko Aktualizovat výběr zobrazí počet vybraných tabulek v závorkách.

Chcete-li znovu zpracovat data již ingestovaná pro vybrané tabulky, klikněte na Blue Down Caret vedle tlačítka Aktualizovat výběr a klikněte na Úplná aktualizace výběru.

Spuštění aktualizace datového proudu pro selhalé tabulky

Pokud aktualizace kanálu selže kvůli chybám v jedné nebo více tabulkách v grafu kanálu, můžete spustit aktualizaci pouze neúspěšných tabulek a všech podřízených závislostí.

Poznámka:

Vyloučené tabulky se neaktualizují, i když závisí na selhalé tabulce.

Pokud chcete aktualizovat neúspěšné tabulky, klikněte na stránce podrobností kanálu na Aktualizovat neúspěšné tabulky.

Aktualizace pouze vybraných neúspěšných tabulek:

  1. Klikněte na tlačítko Dolů vedle tlačítka Obnovit neúspěšné tabulky a poté klikněte na Vybrat tabulky pro obnovení. Zobrazí se dialogové okno Výběr tabulek pro aktualizaci.

  2. Pokud chcete vybrat tabulky, které se mají aktualizovat, klikněte na každou tabulku. Vybrané tabulky jsou zvýrazněné a označené. Pokud chcete tabulku z aktualizace odebrat, klikněte znovu na tabulku.

  3. Klikněte na Aktualizovat výběr.

    Poznámka:

    Tlačítko Aktualizovat výběr zobrazí počet vybraných tabulek v závorkách.

Chcete-li znovu zpracovat data již ingestovaná pro vybrané tabulky, klikněte na Blue Down Caret vedle tlačítka Aktualizovat výběr a klikněte na Úplná aktualizace výběru.

Zkontrolujte chyby v datovém toku bez čekání na aktualizaci tabulek

Důležité

Funkce Validate aktualizace Delta Live Tables je ve verzi veřejná testovací verze.

Pokud chcete zkontrolovat, jestli je zdrojový kód pipeline platný, použijte Ověřitbez spuštění úplné aktualizace. Aktualizace Validate řeší definice datových sad a toků definovaných v potrubí, ale nematerializuje ani nepublikuje žádné datové sady. Chyby zjištěné během ověřování, například nesprávné názvy tabulek nebo sloupců, jsou hlášeny v uživatelském rozhraní.

Chcete-li spustit aktualizaci Validate, klikněte na Blue Down Caret na stránce podrobností kanálu vedle Start a klikněte na Ověřit.

Po dokončení aktualizace Validate protokol událostí zobrazuje události související pouze s aktualizací Validate a v DAG se nezobrazují žádné metriky. Pokud jsou nalezeny chyby, podrobnosti jsou k dispozici v protokolu událostí.

Zobrazí se výsledky pouze pro nejnovější aktualizaci Validate. Pokud byla aktualizace naposledy spuštěnou aktualizací, můžete výsledky zobrazit tak, že ji vyberete v historii aktualizací. Pokud se po aktualizaci Validate spustí jiná aktualizace, výsledky už nebudou v uživatelském rozhraní dostupné.

Vývojové a produkční režimy

Spuštění pipeline můžete optimalizovat přepnutím mezi režimy vývoje a produkce. Mezi těmito dvěma režimy můžete přepínat pomocí ikon Delta Live Tables Environment Toggle v uživatelském rozhraní Pipelines. Ve výchozím nastavení se kanály spouštějí v režimu vývoje.

Při spuštění potrubí v režimu vývoje provede systém Delta Live Tables následující:

  • Znovu použije cluster, aby se zabránilo režii restartování. Clustery ve výchozím nastavení běží po dobu dvou hodin, když je povolený režim vývoje. Můžete to změnit nastavením pipelines.clusterShutdown.delay v Konfigurovat výpočetní prostředky pro potrubí Delta Live Tables.
  • Zakáže opakování kanálu, abyste mohli okamžitě zjišťovat a opravovat chyby.

V produkčním režimu systém Delta Live Tables provede následující:

  • Restartuje cluster pro konkrétní obnovitelné chyby, včetně úniků paměti a zastaralých přihlašovacích údajů.
  • Opakuje provádění v případě konkrétních chyb, jako je například selhání spuštění clusteru.

Poznámka:

Přepínání mezi režimy vývoje a produkce řídí pouze chování clusteru a spouštění kanálů. Umístění úložiště a cílová schémata v katalogu pro zveřejňování tabulek musí být nakonfigurována jako součást nastavení kanálu a nejsou ovlivněna při přepínání mezi režimy.