Rozšířené možnosti konfigurace v Azure Synapse Link

Článek
11/06/2024

Azure Synapse Link nabízí několik způsobů, jak zapisovat a číst vaše data, aby se vešly do různých analytických scénářů. V závislosti na vašem analytickém scénáři můžete vybrat konkrétní konfiguraci z níže uvedených možností.

Scénář	Platí pro	Dostupné možnosti konfigurace
Operační výkaznictví	Tabulky Dataverse, finanční a provozní tabulky a entity	Synapse Analytics s možností Delta Lake poskytuje lepší dobu odezvy dotazů, která je zvláště použitelná pro dotazování velkých objemů dat. Další informace: Synapse Link s možností Delta Lake
Operační výkaznictví	Pouze tabulky Dataverse	Synapse Link s možností konfigurace "Místní aktualizace" poskytuje soubory CSV v datovém jezeře, které se aktualizují téměř v reálném čase Toto je starší možnost, která je k dispozici pro tabulky Dataverse. Tato možnost není podporována pro tabulky z finančních a provozních aplikací
Integrace dat	Tabulky Dataverse a finanční a provozní tabulky a entity	Možnost Připojit pouze poskytuje soubory CSV, které obsahují přírůstková data. Můžete vytvářet kanály, které spotřebovávají přírůstková data a naplňují podřízené systémy Funkce Oddíl dat zadaných uživatelem umožňuje zvolit vlastní strategii dělení dat speciálně pro tabulky Dataverse. Data tabulek Finance a Operations jsou systémem rozdělena na oddíly na základě vhodné strategie oddílů. Tato možnost není k dispozici pro tabulky z finančních a provozních aplikací

Poznámka:

Azure Synapse Link for Dataverse byl dříve známý jako export do služby Data Lake Služba byla s účinností od května 2021 přejmenována a bude i nadále exportovat data do Azure Data Lake Storage a také do Azure Synapse Analytics. Od září 2023 Azure Synapse Link také umožňuje vybírat data z finančních a provozních aplikací Dynamics 365. Ne všechny vzory integrace jsou podporovány finančními a provozními aplikacemi. Pokyny k přechodu z funkce Export do služby Data Lake ve finančních a provozních aplikacích na Synapse Link najdete v Průvodci přechodem.

Tento článek popisuje pokročilá nastavení konfigurace, která jsou k dispozici pro tabulky Dataverse. Tyto možnosti nejsou k dispozici pro tabulky z finančních a provozních aplikací.

Místní aktualizace vs. zápisy pouze pro přidání.
Uživatelsky určené rozdělení dat.

Místní aktualizace vs. zápisy pouze pro přidání

Během psaní dat tabulky Dataverse do datového jezera Azure na základě hodnoty createdOn, což je datum a čas, kdy byl záznam vytvořen, si můžete vybrat ze dvou různých nastavení. Jsou to Aktualizace na místě a Pouze připojit.

Výchozí nastavení (pro tabulky, kde je createdOn) je provést místní aktualizaci nebo upsert (aktualizaci nebo vložení) přírůstkových dat v cíli. Pokud je změna nová a odpovídající řádek v jezeře neexistuje, v případě vytvoření jsou cílové soubory zkontrolovány a změny jsou vloženy do odpovídajícího oddílu souboru v jezeře. Pokud je změnou aktualizace a v jezeře existuje řádek, je odpovídající soubor v jezeře aktualizován, nikoli vložen, s přírůstkovými daty. Jinými slovy, výchozí nastavení pro všechny změny CUD (vytvoření, aktualizace, odstranění) v tabulce Dataverse, kde je k dispozici createdOn, je provést aktualizaci na místě v cíli, tedy v datovém jezeru Azure.

Výchozí chování místní aktualizace můžete přepnout pomocí volitelného nastavení s názvem Pouze připojit. Místo Aktualizace na místě v režimu Pouze připojit jsou přírůstková data z tabulky Dataverse připojena k odpovídajícímu oddílu souborů v jezeře. Toto je nastavení podle tabulky a je k dispozici jako zaškrtávací políčko pod Pokročilé>Zobrazit pokročilé nastavení konfigurace. Pro tabulky Dataverse se zapnutým Pouze připojit, jsou všechny změny CUD postupně připojeny k odpovídajícím cílovým souborům v jezeře. Když zvolíte tuto možnost, použije se výchozí strategie rozdělení disku Rok, a když jsou data zapsána do datového jezera, jsou rozdělena na roční bázi. Pouze připojit je také výchozí nastavení pro tabulky Dataverse, které nemají hodnotu createdOn.

Tato tabulka popisuje, jak jsou řádky zpracovávány v jezeře proti událostem CUD pro každou z možností zápisu dat.

Událost	Aktualizace na místě	Jen připojit
Vytvoření	Řádek je vložen do souboru oddílu a je založen na hodnotě `createdOn` na řádku.	Řádek je přidán na konec souboru oddílu a je založen na hodnotě `createdOn` záznamu.
Aktualizovat	Pokud řádek existuje v souboru oddílu, je nahrazen nebo aktualizován aktualizovanými daty. Pokud neexistuje, vloží se do souboru.	Řádek je spolu s aktualizovanou verzí přidán na konec souboru oddílu.
Odstranění	Pokud řádek v souboru oddílu existuje, je ze souboru odstraněn.	Řádek je s `IsDelete column = True` přidán na konec souboru oddílu.

Poznámka:

Pro tabulky Dataverse, kde je povoleno Pouze připojit, smazání řádku ve zdroji nesmaže ani neodstraní řádek v jezeře. Místo toho se odstraněný řádek připojí jako nový řádek v jezeře a sloupec isDeleted se nastaví na True.

Nečisté čtení (ALLOW_INCONSISTENT_READS) pro bezserverovou možnost je zapnuto pro režim pouze připojení. ALLOW_INCONSISTENT_READS znamená, že uživatel může číst soubory, které lze neustále upravovat, zatímco je spuštěn dotaz SELECT. Výsledky budou konzistentní a ekvivalentní čtení snímku souboru. (Není to ekvivalentní izolaci snímku databáze kvůli odlišné době generování snímku.)

Ne všechny změny CUD budou zachyceny ve vlastnosti pouze připojit: Synapse Link zpracovává změny v datech ve skupinách nebo „dávkách“ před jejich publikováním do datového jezera. V důsledku toho, pokud uživatel provede změny v krátkém časovém intervalu, ne všechny změny CUD budou zachyceny v datovém jezeře.

Zde je několik podrobností o tom, kdy použít jednu z možností.

Zavedená aktualizace: Tato možnost je výchozí nastavení a doporučuje se pouze v případě, že se chcete připojit přímo k datům v jezeře a potřebujete aktuální stav (nikoli historii nebo postupné změny). Soubor obsahuje celou datovou sadu a lze jej použít prostřednictvím Power BI nebo zkopírováním celého souboru dat pro potrubí ETL (Extract, Transfer, Load).
Pouze připojit: Tuto možnost vyberte, pokud se nepřipojujete přímo k datům v jezeře a chcete přírůstkově kopírovat data do jiného cíle pomocí kanálů ETL. Tato možnost poskytuje historii změn umožňujících scénáře AI a ML.

Přepnutím možnosti Zobrazit pokročilé nastavení konfigurace v části Upřesnit v Azure Synapse Link for Dataverse můžete přizpůsobit strategii datových oddílů a vybrat možnosti zápisu do datového jezera Azure.

Zobrazení upřesněné konfigurace.

Rozdělení dat

Když zapisujete data tabulky Dataverse do Azure Data Lake Storage pomocí Azure Synapse Link, tabulky jsou rozděleny (místo jednoho souboru) v jezeře na základě hodnoty createdOn každého řádku ve zdroji. Výchozí strategie dělení je podle měsíce a data se v Azure Data Lake rozdělují na základě měsíců.

Na základě objemu tabulky Dataverse a distribuci dat si můžete vybrat rozdělení dat podle roku. U této možnosti platí , že když jsou data tabulky Dataverse zapsána do Azure Data Lake, budou rozdělena podle roků na základě hodnoty createdOn na každém řádku ve zdroji. U tabulek bez sloupce createdOn jsou řádky dat rozděleny do souborů po 5 000 000 záznamů. Toto je nastavení podle tabulky a je k dispozici jako zaškrtávací políčko pod Rozšířená>Zobrazit rozšířená nastavení konfigurace.

Další podrobnosti s příklady, jak se s daty nakládá v jezeře s roční nebo měsíční strategií rozdělení:

Strategie dělení na oddíly.

Viz také

Azure Synapse Link for Dataverse

Sdílet prostřednictvím

Rozšířené možnosti konfigurace v Azure Synapse Link

Místní aktualizace vs. zápisy pouze pro přidání

Rozdělení dat

Viz také

Váš názor

Další materiály