Použití přírůstkové aktualizace s toky dat
S toky dat můžete přenést velké objemy dat do Power BI nebo do poskytovaného úložiště vaší organizace. V některých případech ale není praktické aktualizovat úplnou kopii zdrojových dat v každé aktualizaci. Dobrou alternativou je přírůstková aktualizace, která poskytuje následující výhody pro toky dat:
- Aktualizace probíhá rychleji: Je potřeba aktualizovat pouze data, která se změnila. Například aktualizujte pouze posledních pět dnů toku dat 10 let.
- Aktualizace je spolehlivější: Například není nutné udržovat dlouhotrvající připojení k nestálým zdrojovým systémům.
- Snižuje se spotřeba prostředků: Méně dat pro aktualizaci snižuje celkovou spotřebu paměti a dalších prostředků.
Přírůstková aktualizace je dostupná v tocích dat vytvořených v Power BI a tocích dat vytvořených v Power Apps. Tento článek ukazuje obrazovky z Power BI, ale tyto pokyny platí pro toky dat vytvořené v Power BI nebo v Power Apps.
Poznámka:
Když se schéma tabulky v analytickém toku dat změní, provede se úplná aktualizace, aby se zajistilo, že všechna výsledná data odpovídají novému schématu. V důsledku toho se všechna data uložená přírůstkově aktualizují a v některých případech se ztratí, pokud zdrojový systém neuchovává historická data.
Použití přírůstkové aktualizace v tocích dat vytvořených v Power BI vyžaduje, aby se tok dat nachází v pracovním prostoru v kapacitě Premium. Přírůstková aktualizace v Power Apps vyžaduje Power Apps pro jednotlivé aplikace nebo plány pro uživatele a je dostupná jenom pro toky dat s Azure Data Lake Storage jako cílem.
V Power BI nebo Power Apps vyžaduje použití přírůstkové aktualizace, aby zdrojová data přijatá do toku dat měla pole DateTime, na kterém může přírůstková aktualizace filtrovat.
Konfigurace přírůstkové aktualizace pro toky dat
Tok dat může obsahovat mnoho tabulek. Přírůstková aktualizace je nastavená na úrovni tabulky, což umožňuje jednomu toku dat uchovávat plně aktualizované tabulky i přírůstkové aktualizace tabulek.
Pokud chcete nastavit přírůstkovou aktualizaci tabulky, začněte tím, že tabulku nakonfigurujete stejně jako jakoukoli jinou tabulku.
Po vytvoření a uložení toku dat vyberte v zobrazení tabulky přírůstkovou aktualizaci, jak je znázorněno na následujícím obrázku.
Když vyberete ikonu, zobrazí se okno Nastavení přírůstkové aktualizace. Zapněte přírůstkovou aktualizaci.
Následující seznam vysvětluje nastavení v okně Nastavení přírůstkové aktualizace.
Přepínač zapnutí/vypnutí přírůstkové aktualizace: Zapne nebo vypne zásadu přírůstkové aktualizace pro tabulku.
Rozevírací seznam pole filtru: Vybere pole dotazu, na kterém má být tabulka filtrována pro přírůstky. Toto pole obsahuje pouze pole DateTime. Přírůstkovou aktualizaci nemůžete použít, pokud tabulka neobsahuje pole DateTime.
Důležité
Zvolte neměnné pole data pro filtr přírůstkové aktualizace. Pokud se hodnota pole změní (například s polem změněným datem), může to vést k selhání aktualizace kvůli duplicitním hodnotám v datech.
Uložit nebo aktualizovat řádky z minulosti: Příklad na předchozím obrázku znázorňuje následující několik dalších nastavení.
V tomto příkladu definujeme zásadu aktualizace, která ukládá pět let dat celkem a přírůstkově aktualizuje data po dobu 10 dnů. Za předpokladu, že se tabulka aktualizuje každý den, pro každou operaci aktualizace se provádějí následující akce:
Přidejte nový den dat.
Aktualizujte 10 dní až do aktuálního data.
Odeberte kalendářní roky starší než pět let před aktuálním datem. Pokud je například aktuální datum 1. ledna 2019, odebere se rok 2013.
První aktualizace toku dat může chvíli trvat, než se importuje všech pět let, ale následné aktualizace se pravděpodobně dokončí mnohem rychleji.
Detekce změn dat: Přírůstková aktualizace 10 dnů je mnohem efektivnější než úplná aktualizace pěti let, ale možná budete moct udělat ještě lépe. Když zaškrtnete políčko Zjistit změny dat, můžete vybrat sloupec datum a čas a identifikovat a aktualizovat pouze dny, ve kterých se data změnila. Předpokládá se, že takový sloupec existuje ve zdrojovém systému, což je obvykle pro účely auditování. Maximální hodnota tohoto sloupce se vyhodnotí pro každé období v přírůstkovém rozsahu. Pokud se tato data od poslední aktualizace nezměnila, není potřeba období aktualizovat. V tomto příkladu to může dále snížit počet dnů přírůstkových aktualizací z 10 na 2.
Tip
Aktuální návrh vyžaduje, aby sloupec použitý k detekci změn dat zůstal zachován a uložen v mezipaměti do paměti. Možná budete chtít zvážit jednu z následujících technik pro snížení kardinality a spotřeby paměti:
- Zachovat pouze maximální hodnotu tohoto sloupce v době aktualizace, třeba pomocí funkce Power Query.
- Snižte přesnost na úroveň, která je přijatelná vzhledem k vašim požadavkům na frekvenci aktualizace.
Pouze úplná období aktualizace: Představte si, že je naplánované spuštění aktualizace každý den v 4:00. Pokud se data zobrazí ve zdrojovém systému během těchto prvních čtyř hodin tohoto dne, možná nebudete chtít data zohlednit. Některé obchodní metriky, jako jsou barel za den v ropy a plynárenský průmysl, nejsou praktické nebo rozumné zohlednit na základě částečných dnů.
Dalším příkladem, kdy je vhodné aktualizovat pouze úplná období, je aktualizace dat z finančního systému. Představte si finanční systém, ve kterém jsou data za předchozí měsíc schválena 12. kalendářním dnem v měsíci. Přírůstkový rozsah můžete nastavit na jeden měsíc a naplánovat spuštění aktualizace na 12. den v měsíci. Pokud je tato možnost vybraná, systém aktualizuje lednová data (poslední dokončené měsíční období) 12. února.
Poznámka:
Přírůstková aktualizace toku dat určuje data podle následující logiky: pokud je naplánovaná aktualizace, přírůstková aktualizace toků dat používá časové pásmo definované v zásadách aktualizace. Pokud neexistuje žádný plán aktualizace, přírůstková aktualizace používá čas z počítače, na kterém je aktualizace spuštěna.
Po nakonfigurování přírůstkové aktualizace tok dat automaticky změní váš dotaz tak, aby zahrnoval filtrování podle data. Pokud byl tok dat vytvořený v Power BI, můžete automaticky vygenerovaný dotaz upravit také pomocí rozšířeného editoru v Power Query a doladit nebo přizpůsobit aktualizaci. Další informace o přírůstkové aktualizaci a o tom, jak funguje, najdete v následujících částech.
Poznámka:
Když tok dat upravíte, editor Power Query se připojí ke zdroji dat přímo a po zpracování zásadami přírůstkové aktualizace nezobrazí data uložená v mezipaměti nebo filtrované v toku dat. Pokud chcete zkontrolovat data uložená v mezipaměti toku dat, připojte se z Power BI Desktopu k toku dat po konfiguraci zásad přírůstkové aktualizace a aktualizaci toku dat.
Přírůstková aktualizace a propojené tabulky vs. počítané tabulky
U propojených tabulek přírůstková aktualizace aktualizuje zdrojovou tabulku. Vzhledem k tomu, že propojené tabulky jsou jednoduše ukazatelem na původní tabulku, přírůstková aktualizace nemá na propojenou tabulku žádný vliv. Při aktualizaci zdrojové tabulky podle definovaných zásad aktualizace by každá propojená tabulka měla předpokládat, že se data ve zdroji aktualizují.
Počítané tabulky jsou založené na dotazech spuštěných v úložišti dat, což může být jiný tok dat. Počítané tabulky se chovají stejně jako propojené tabulky.
Vzhledem k tomu, že se počítané tabulky a propojené tabulky chovají podobně, požadavky a kroky konfigurace jsou pro oba stejné. Jedním z rozdílů je, že u počítaných tabulek v určitých konfiguracích nejde přírůstková aktualizace běžet optimalizovaným způsobem, protože se vytvářejí oddíly.
Změna mezi přírůstkovou a úplnou aktualizací
Toky dat podporují změnu zásad aktualizace mezi přírůstkovou a úplnou aktualizací. Pokud dojde ke změně v libovolném směru (úplné na přírůstkové nebo přírůstkové až úplné), změna ovlivní tok dat po příští aktualizaci.
Při přesunu toku dat z úplné aktualizace na přírůstkové aktualizace aktualizuje nová logika aktualizace tok dat tím, že se připojí k okně aktualizace a zvýší se podle definice v nastavení přírůstkové aktualizace.
Při přesouvání toku dat z přírůstkové na úplnou aktualizaci se všechna data shromážděná v přírůstkové aktualizaci přepíší zásadami definovanými v úplné aktualizaci. Tuto akci musíte schválit.
Podpora časového pásma v přírůstkové aktualizaci
Přírůstková aktualizace toku dat závisí na době, kdy se spouští. Filtrování dotazu závisí na dni, kdy se spouští.
Aby bylo možné tyto závislosti přizpůsobit a zajistit konzistenci dat, přírůstková aktualizace toků dat teď implementuje následující heuristické scénáře aktualizace :
V případě, že je v systému definovaná plánovaná aktualizace, používá přírůstková aktualizace nastavení časového pásma z oddílu plánované aktualizace. Tím zajistíte, že jakékoli časové pásmo, ve které je daný uživatel aktualizovat tok dat, bude vždy konzistentní s definicí systému.
Pokud není definovaná žádná plánovaná aktualizace, toky dat používají časové pásmo z počítače uživatele, který aktualizaci provádí.
Přírůstkovou aktualizaci je možné vyvolat také pomocí rozhraní API. V tomto případě může volání rozhraní API obsahovat nastavení časového pásma, které se používá v aktualizaci. Použití rozhraní API může být užitečné pro účely testování a ověřování.
Podrobnosti implementace přírůstkové aktualizace
Toky dat používají dělení pro přírůstkovou aktualizaci. Přírůstková aktualizace v tocích dat uchovává minimální počet oddílů, aby splňoval požadavky zásad aktualizace. Staré oddíly, které vyjdou z rozsahu, se zahodí, což udržuje posuvné okno. Oddíly se oportunisticky sloučí a snižují celkový počet požadovaných oddílů. To zlepšuje kompresi a v některých případech může zlepšit výkon dotazů.
Příklady v této části sdílejí následující zásady aktualizace:
- Uložení řádků za posledních 1 čtvrtletí
- Aktualizace řádků za posledních 10 dnů
- Detekce změn dat = Nepravda
- Pouze aktualizace dokončených dnů = Pravda
Sloučení oddílů
V tomto příkladu se oddíly dnů automaticky sloučí na úrovni měsíce po přechodu mimo přírůstkový rozsah. Oddíly v přírůstkovém rozsahu je potřeba udržovat v denní členitosti, aby bylo možné aktualizovat pouze tyto dny. Operace aktualizace s datem spuštění 12. 11. 2016 slučuje dny v listopadu, protože spadají mimo přírůstkový rozsah.
Vyřazení starých oddílů
Staré oddíly, které spadají mimo celkový rozsah, se odeberou. Operace aktualizace s datem spuštění 1. 2. 2017 zahodí oddíl pro 3. čtvrtletí 2016, protože spadá mimo celkový rozsah.
Obnovení z dlouhodobého selhání
Tento příklad simuluje, jak se systém elegantně obnoví z dlouhodobého selhání. Řekněme, že aktualizace se nespustí úspěšně, protože vypršela platnost přihlašovacích údajů ke zdroji dat a vyřešení problému trvá 13 dnů. Přírůstkový rozsah je pouze 10 dnů.
Další úspěšná operace aktualizace s datem spuštění 15. 15. 2017 musí chybějící 13 dnů obnovit a aktualizovat je. Je také potřeba aktualizovat předchozí devět dnů, protože se neaktualizuje v normálním plánu. Jinými slovy, přírůstkový rozsah se zvyšuje z 10 na 22 dnů.
Další operace aktualizace s datem spuštění 16. 16. 2017 umožňuje sloučit dny v prosinci a měsíce ve 4. čtvrtletí 2016.
Přírůstková aktualizace toku dat a sady dat
Přírůstková aktualizace toku dat a přírůstková aktualizace sady dat jsou navržené tak, aby fungovaly společně. Je přijatelné a podporované mít přírůstkovou aktualizaci tabulky v toku dat, plně načtené do datové sady nebo plně načtenou tabulku v toku dat přírůstkově načtenou do datové sady.
Oba přístupy fungují podle zadaných definic v nastavení aktualizace. Další informace: Přírůstková aktualizace v Power BI Premium
Viz také
Tento článek popisuje přírůstkovou aktualizaci toků dat. Tady je několik dalších článků, které můžou být užitečné:
- Samoobslužná příprava dat v Power BI
- Vytváření počítaných tabulek v tocích dat
- Připojení ke zdrojům dat pro toky dat
- Propojení tabulek mezi toky dat
- Vytváření a používání toků dat v Power BI
- Použití toků dat s místními zdroji dat
- Materiály pro vývojáře pro toky dat Power BI
Další informace o dotazu Power Query a plánovaném obnovování naleznete v těchto článcích:
Další informace o modelu Common Data Model najdete v článku s přehledem: