Aktualizace zdroje dat Common Data Model pro používání rozdílových tabulek
Aktualizujte existující datové připojení pomocí tabulek Common Data Model a přesuňte se na tabulky ve formátu Delta, aniž byste museli odstraňovat a znovu vytvářet existující konfiguraci, která závisí na datovém připojení.
Hlavní důvody pro připojení k datům uloženým ve formátu Delta:
- Přímý import dat ve formátu Delta šetří čas a námahu.
- Eliminujte výpočetní a úložné náklady spojené s transformací a ukládáním kopie vašich dat lakehouse.
- Automaticky zlepšete spolehlivost příjmu dat na Customer Insights - Data poskytované správou verzí Delta.
Delta je termín zavedený s Delta Lake a jedná se o základ pro ukládání dat a tabulek v Databricks Lakehouse Platform. Delta Lake je vrstva úložiště s otevřeným zdrojovým kódem, která přenáší transakce ACID (atomicita, konzistence, izolace a trvanlivost) do úloh s velkým objemem dat. Další informace najdete na stránce s dokumentací k Delta Lake.
Předpoklady
Azure Data Lake Storage musí být ve stejném tenantovi a oblasti Azure jako Customer Insights - Data.
Chcete-li se připojit k úložišti chráněnému branami firewall, Nastavte privátní propojení Azure.
Instanční objekt Customer Insights - Data musí mít oprávnění Přispěvatel dat objektů blob úložiště, aby měl přístup k účtu úložiště. Více informací viz Udělení oprávnění instančnímu objektu služby pro přístup k účtu úložiště.
Uživatel, který nastavuje nebo aktualizuje zdroj dat, potřebuje k účtu Azure Data Lake Storage alespoň oprávnění Čtenář dat objektů blob úložiště.
Data uložená ve službách online mohou být uložena v jiném umístění, než kde jsou zpracovávána nebo uložena. Importem nebo připojením k datům uloženým v online službách souhlasíte s tím, že data lze přenášet. Další informace naleznete v centru zabezpečení Microsoft.
Customer Insights - Data podporuje verzi čtenáře Databricks 2. Delta tabulky používající funkce, které vyžadují verzi čtenáře Databricks 3 nebo vyšší, nejsou podporovány. Další informace: Podporované funkce Databricks.
Tabulky Delta musí být ve složce v kontejneru úložiště a nemohou být v kořenovém adresáři kontejneru. Příklad:
storageaccountcontainer/ DeltaDataRoot/ ADeltaTable/ _delta_log/ 0000.json 0001.json part-0001-snappy.parquet part-0002-snappy.parquet
Tabulky Delta a jejich schéma se musí shodovat s tabulkami ve stávajícím zdrojem dat Common Data Model a musí být ve stejném kontejneru úložiště. Tabulky v nové složce dat se musí přesně shodovat s vybranými tabulkami ve zdroji dat Common Data Model. Názvy tabulek a jejich schémata se musí přesně shodovat. V Delta jsou názvy tabulek stejné jako název složky, kde jsou data uložena. Názvy složek se proto musí přesně shodovat s vybranými tabulkami ve zdroji dat Common Data Model. V opačném případě se aktualizace nezdaří.
Pokud jsou například vybrané tabulky zdroje dat Common Data Model Table1 a Table2, pak složka, kterou vyberete pro aktualizaci, musí v hierarchii zobrazovat Table1 a Table2.
storageaccountroot/ DeltaDataRoot/ Table1/ Table2/
Aktualizace datových tabulek Common Data Model na rozdílové tabulky
Přejděte na Data>Zdroje dat.
Vyberte zdroj dat Common Data Model Azure Data Lake a pak vyberte Aktualizace tabulek Delta. Nebo vyberte Zahájit aktualizaci ze stránky Přidat tabulky, pokud upravujete zdroj dat Common Data Model.
Vyberte Procházet a přejděte do složky obsahující data ve formátu Delta, která přesně odpovídá vybrané tabulce zdroje dat Azure Data Lake. Vyberte ji a poté vyberte Aktualizovat zdroj dat.
Otevře se stránka Zdroje dat s novým zdrojem dat se stavem Aktualizace.
Důležité
Nezastavujte proces obnovování, protože by to mohlo negativně ovlivnit aktualizaci zdroje dat.
Tip
Úkoly a procesy mají své stavy. Většina procesů závisí na jiných upstreamových procesech, jako jsou aktualizace zdrojů dat a profilování dat.
Výběrem stavu otevřete podokno Podrobnosti o průběhu a zobrazíte průběh úloh. Chcete-li úlohu zrušit, vyberte Zrušit úlohu ve spodní části panelu.
U každé úlohy můžete výběrem možnosti Zobrazit podrobnosti zobrazit další informace o průběhu, jako je čas zpracování, datum posledního zpracování a případné chyby a varování související s úlohou nebo procesem. Vyberte Zobrazit stav systému ve spodní části panelu k zobrazení dalších procesů v systému.
Doporučujeme, abyste pokračovali ve streamování dat do úložiště Data Lake Storage prostřednictvím stávajícího kanálu a udržovali manifesty a schémata, dokud nezjistíte, že aktualizace byla úspěšná a vše funguje podle očekávání.
Vrácení převodu z tabulek Common Data Model na tabulky Delta
Pokud jste se pokusili aktualizovat zdroj dat Common Data Model Azure Data Lake na tabulky Delta a proces selže, proveďte následující kroky.
Předpoklady
- Vaše organizace pokračovala ve streamování dat Data Lake Storage prostřednictvím vašeho kanálu.
- Vaše organizace udržovala manifesty a schémata Data Lake Storage.
Vrácení zpět na zdroj dat Common Data Model Azure Data Lake
Přejděte na Data>Zdroje dat.
Vyberte zdroj dat Common Data Model Azure Data Lake a pak vyberte Vrátit na tabulky Common Data Model.
Potvrďte, že chcete zdroj dat vrátit. Otevře se stránka Zdroje dat s novým zdrojem dat se stavem Aktualizace.
Důležité
Nezastavujte proces obnovování, protože by to mohlo negativně ovlivnit vrácení zdroje dat.