Rozšířené možnosti konfigurace v Azure Synapse Link
Azure Synapse Link nabízí několik způsobů, jak zapisovat a číst vaše data, aby se vešly do různých analytických scénářů. V závislosti na vašem analytickém scénáři můžete vybrat konkrétní konfiguraci z níže uvedených možností.
Scénář | Platí pro | Dostupné možnosti konfigurace |
---|---|---|
Operační výkaznictví | Tabulky Dataverse, finanční a provozní tabulky a entity | Synapse Analytics s možností Delta Lake poskytuje lepší dobu odezvy dotazů, která je zvláště použitelná pro dotazování velkých objemů dat. Další informace: Synapse Link s možností Delta Lake |
Operační výkaznictví | Pouze tabulky Dataverse | Synapse Link s možností konfigurace "Místní aktualizace" poskytuje soubory CSV v datovém jezeře, které se aktualizují téměř v reálném čase Toto je starší možnost, která je k dispozici pro tabulky Dataverse. Tato možnost není podporována pro tabulky z finančních a provozních aplikací |
Integrace dat | Tabulky Dataverse a finanční a provozní tabulky a entity | Možnost Připojit pouze poskytuje soubory CSV, které obsahují přírůstková data. Můžete vytvářet kanály, které spotřebovávají přírůstková data a naplňují podřízené systémy Funkce Oddíl dat zadaných uživatelem umožňuje zvolit vlastní strategii dělení dat speciálně pro tabulky Dataverse. Data tabulek Finance a Operations jsou systémem rozdělena na oddíly na základě vhodné strategie oddílů. Tato možnost není k dispozici pro tabulky z finančních a provozních aplikací |
Poznámka:
Azure Synapse Link for Dataverse byl dříve známý jako export do služby Data Lake Služba byla s účinností od května 2021 přejmenována a bude i nadále exportovat data do Azure Data Lake Storage a také do Azure Synapse Analytics. Od září 2023 Azure Synapse Link také umožňuje vybírat data z finančních a provozních aplikací Dynamics 365. Ne všechny vzory integrace jsou podporovány finančními a provozními aplikacemi. Pokyny k přechodu z funkce Export do služby Data Lake ve finančních a provozních aplikacích na Synapse Link najdete v Průvodci přechodem.
Tento článek popisuje pokročilá nastavení konfigurace, která jsou k dispozici pro tabulky Dataverse. Tyto možnosti nejsou k dispozici pro tabulky z finančních a provozních aplikací.
- Místní aktualizace vs. zápisy pouze pro přidání.
- Uživatelsky určené rozdělení dat.
Místní aktualizace vs. zápisy pouze pro přidání
Během psaní dat tabulky Dataverse do datového jezera Azure na základě hodnoty createdOn
, což je datum a čas, kdy byl záznam vytvořen, si můžete vybrat ze dvou různých nastavení. Jsou to Aktualizace na místě a Pouze připojit.
Výchozí nastavení (pro tabulky, kde je createdOn
) je provést místní aktualizaci nebo upsert (aktualizaci nebo vložení) přírůstkových dat v cíli. Pokud je změna nová a odpovídající řádek v jezeře neexistuje, v případě vytvoření jsou cílové soubory zkontrolovány a změny jsou vloženy do odpovídajícího oddílu souboru v jezeře. Pokud je změnou aktualizace a v jezeře existuje řádek, je odpovídající soubor v jezeře aktualizován, nikoli vložen, s přírůstkovými daty. Jinými slovy, výchozí nastavení pro všechny změny CUD (vytvoření, aktualizace, odstranění) v tabulce Dataverse, kde je k dispozici createdOn
, je provést aktualizaci na místě v cíli, tedy v datovém jezeru Azure.
Výchozí chování místní aktualizace můžete přepnout pomocí volitelného nastavení s názvem Pouze připojit. Místo Aktualizace na místě v režimu Pouze připojit jsou přírůstková data z tabulky Dataverse připojena k odpovídajícímu oddílu souborů v jezeře. Toto je nastavení podle tabulky a je k dispozici jako zaškrtávací políčko pod Pokročilé>Zobrazit pokročilé nastavení konfigurace. Pro tabulky Dataverse se zapnutým Pouze připojit, jsou všechny změny CUD postupně připojeny k odpovídajícím cílovým souborům v jezeře. Když zvolíte tuto možnost, použije se výchozí strategie rozdělení disku Rok, a když jsou data zapsána do datového jezera, jsou rozdělena na roční bázi. Pouze připojit je také výchozí nastavení pro tabulky Dataverse, které nemají hodnotu createdOn
.
Tato tabulka popisuje, jak jsou řádky zpracovávány v jezeře proti událostem CUD pro každou z možností zápisu dat.
Událost | Aktualizace na místě | Jen připojit |
---|---|---|
Vytvoření | Řádek je vložen do souboru oddílu a je založen na hodnotě createdOn na řádku. |
Řádek je přidán na konec souboru oddílu a je založen na hodnotě createdOn záznamu. |
Aktualizovat | Pokud řádek existuje v souboru oddílu, je nahrazen nebo aktualizován aktualizovanými daty. Pokud neexistuje, vloží se do souboru. | Řádek je spolu s aktualizovanou verzí přidán na konec souboru oddílu. |
Odstranění | Pokud řádek v souboru oddílu existuje, je ze souboru odstraněn. | Řádek je s IsDelete column = True přidán na konec souboru oddílu. |
Poznámka:
Pro tabulky Dataverse, kde je povoleno Pouze připojit, smazání řádku ve zdroji nesmaže ani neodstraní řádek v jezeře. Místo toho se odstraněný řádek připojí jako nový řádek v jezeře a sloupec isDeleted
se nastaví na True.
Nečisté čtení (ALLOW_INCONSISTENT_READS) pro bezserverovou možnost je zapnuto pro režim pouze připojení. ALLOW_INCONSISTENT_READS znamená, že uživatel může číst soubory, které lze neustále upravovat, zatímco je spuštěn dotaz SELECT
. Výsledky budou konzistentní a ekvivalentní čtení snímku souboru. (Není to ekvivalentní izolaci snímku databáze kvůli odlišné době generování snímku.)
Ne všechny změny CUD budou zachyceny ve vlastnosti pouze připojit: Synapse Link zpracovává změny v datech ve skupinách nebo „dávkách“ před jejich publikováním do datového jezera. V důsledku toho, pokud uživatel provede změny v krátkém časovém intervalu, ne všechny změny CUD budou zachyceny v datovém jezeře.
Zde je několik podrobností o tom, kdy použít jednu z možností.
- Zavedená aktualizace: Tato možnost je výchozí nastavení a doporučuje se pouze v případě, že se chcete připojit přímo k datům v jezeře a potřebujete aktuální stav (nikoli historii nebo postupné změny). Soubor obsahuje celou datovou sadu a lze jej použít prostřednictvím Power BI nebo zkopírováním celého souboru dat pro potrubí ETL (Extract, Transfer, Load).
- Pouze připojit: Tuto možnost vyberte, pokud se nepřipojujete přímo k datům v jezeře a chcete přírůstkově kopírovat data do jiného cíle pomocí kanálů ETL. Tato možnost poskytuje historii změn umožňujících scénáře AI a ML.
Přepnutím možnosti Zobrazit pokročilé nastavení konfigurace v části Upřesnit v Azure Synapse Link for Dataverse můžete přizpůsobit strategii datových oddílů a vybrat možnosti zápisu do datového jezera Azure.
Rozdělení dat
Když zapisujete data tabulky Dataverse do Azure Data Lake Storage pomocí Azure Synapse Link, tabulky jsou rozděleny (místo jednoho souboru) v jezeře na základě hodnoty createdOn
každého řádku ve zdroji. Výchozí strategie dělení je podle měsíce a data se v Azure Data Lake rozdělují na základě měsíců.
Na základě objemu tabulky Dataverse a distribuci dat si můžete vybrat rozdělení dat podle roku. U této možnosti platí , že když jsou data tabulky Dataverse zapsána do Azure Data Lake, budou rozdělena podle roků na základě hodnoty createdOn
na každém řádku ve zdroji. U tabulek bez sloupce createdOn
jsou řádky dat rozděleny do souborů po 5 000 000 záznamů. Toto je nastavení podle tabulky a je k dispozici jako zaškrtávací políčko pod Rozšířená>Zobrazit rozšířená nastavení konfigurace.
Další podrobnosti s příklady, jak se s daty nakládá v jezeře s roční nebo měsíční strategií rozdělení: