Sdílet prostřednictvím


Aktualizace zdroje dat Common Data Model pro používání rozdílových tabulek

Aktualizujte existující datové připojení pomocí tabulek Common Data Model a přesuňte se na tabulky ve formátu Delta, aniž byste museli odstraňovat a znovu vytvářet existující konfiguraci, která závisí na datovém připojení.

Hlavní důvody pro připojení k datům uloženým ve formátu Delta:

  • Přímý import dat ve formátu Delta šetří čas a námahu.
  • Eliminujte výpočetní a úložné náklady spojené s transformací a ukládáním kopie vašich dat lakehouse.
  • Automaticky zlepšete spolehlivost příjmu dat na Customer Insights - Data poskytované správou verzí Delta.

Delta je termín zavedený s Delta Lake a jedná se o základ pro ukládání dat a tabulek v Databricks Lakehouse Platform. Delta Lake je vrstva úložiště s otevřeným zdrojovým kódem, která přenáší transakce ACID (atomicita, konzistence, izolace a trvanlivost) do úloh s velkým objemem dat. Další informace najdete na stránce s dokumentací k Delta Lake.

Předpoklady

  • Azure Data Lake Storage musí být ve stejném tenantovi a oblasti Azure jako Customer Insights - Data.

  • Chcete-li se připojit k úložišti chráněnému branami firewall, Nastavte privátní propojení Azure.

  • Instanční objekt Customer Insights - Data musí mít oprávnění Přispěvatel dat objektů blob úložiště, aby měl přístup k účtu úložiště. Více informací viz Udělení oprávnění instančnímu objektu služby pro přístup k účtu úložiště.

  • Uživatel, který nastavuje nebo aktualizuje zdroj dat, potřebuje k účtu Azure Data Lake Storage alespoň oprávnění Čtenář dat objektů blob úložiště.

  • Data uložená ve službách online mohou být uložena v jiném umístění, než kde jsou zpracovávána nebo uložena. Importem nebo připojením k datům uloženým v online službách souhlasíte s tím, že data lze přenášet. Další informace naleznete v centru zabezpečení Microsoft.

  • Customer Insights - Data podporuje verzi čtenáře Databricks 2. Delta tabulky používající funkce, které vyžadují verzi čtenáře Databricks 3 nebo vyšší, nejsou podporovány. Další informace: Podporované funkce Databricks.

  • Tabulky Delta musí být ve složce v kontejneru úložiště a nemohou být v kořenovém adresáři kontejneru. Příklad:

    storageaccountcontainer/
        DeltaDataRoot/
           ADeltaTable/
                 _delta_log/
                     0000.json
                     0001.json
                 part-0001-snappy.parquet
                 part-0002-snappy.parquet
    
  • Tabulky Delta a jejich schéma se musí shodovat s tabulkami ve stávajícím zdrojem dat Common Data Model a musí být ve stejném kontejneru úložiště. Tabulky v nové složce dat se musí přesně shodovat s vybranými tabulkami ve zdroji dat Common Data Model. Názvy tabulek a jejich schémata se musí přesně shodovat. V Delta jsou názvy tabulek stejné jako název složky, kde jsou data uložena. Názvy složek se proto musí přesně shodovat s vybranými tabulkami ve zdroji dat Common Data Model. V opačném případě se aktualizace nezdaří.

    Pokud jsou například vybrané tabulky zdroje dat Common Data Model Table1 a Table2, pak složka, kterou vyberete pro aktualizaci, musí v hierarchii zobrazovat Table1 a Table2.

    storageaccountroot/
    DeltaDataRoot/
        Table1/
        Table2/
    

Aktualizace datových tabulek Common Data Model na rozdílové tabulky

  1. Přejděte na Data>Zdroje dat.

  2. Vyberte zdroj dat Common Data Model Azure Data Lake a pak vyberte Aktualizace tabulek Delta. Nebo vyberte Zahájit aktualizaci ze stránky Přidat tabulky, pokud upravujete zdroj dat Common Data Model.

    Stránka zdrojů dat zobrazující zdroj dat Common Data Model se zvýrazněnými tabulkami Aktualizovat do Delta.

  3. Vyberte Procházet a přejděte do složky obsahující data ve formátu Delta, která přesně odpovídá vybrané tabulce zdroje dat Azure Data Lake. Vyberte ji a poté vyberte Aktualizovat zdroj dat.

    Otevře se stránka Zdroje dat s novým zdrojem dat se stavem Aktualizace.

    Důležité

    Nezastavujte proces obnovování, protože by to mohlo negativně ovlivnit aktualizaci zdroje dat.

    Tip

    Úkoly a procesy mají své stavy. Většina procesů závisí na jiných upstreamových procesech, jako jsou aktualizace zdrojů dat a profilování dat.

    Výběrem stavu otevřete podokno Podrobnosti o průběhu a zobrazíte průběh úloh. Chcete-li úlohu zrušit, vyberte Zrušit úlohu ve spodní části panelu.

    U každé úlohy můžete výběrem možnosti Zobrazit podrobnosti zobrazit další informace o průběhu, jako je čas zpracování, datum posledního zpracování a případné chyby a varování související s úlohou nebo procesem. Vyberte Zobrazit stav systému ve spodní části panelu k zobrazení dalších procesů v systému.

Doporučujeme, abyste pokračovali ve streamování dat do úložiště Data Lake Storage prostřednictvím stávajícího kanálu a udržovali manifesty a schémata, dokud nezjistíte, že aktualizace byla úspěšná a vše funguje podle očekávání.

Vrácení převodu z tabulek Common Data Model na tabulky Delta

Pokud jste se pokusili aktualizovat zdroj dat Common Data Model Azure Data Lake na tabulky Delta a proces selže, proveďte následující kroky.

Předpoklady

  • Vaše organizace pokračovala ve streamování dat Data Lake Storage prostřednictvím vašeho kanálu.
  • Vaše organizace udržovala manifesty a schémata Data Lake Storage.

Vrácení zpět na zdroj dat Common Data Model Azure Data Lake

  1. Přejděte na Data>Zdroje dat.

  2. Vyberte zdroj dat Common Data Model Azure Data Lake a pak vyberte Vrátit na tabulky Common Data Model.

  3. Potvrďte, že chcete zdroj dat vrátit. Otevře se stránka Zdroje dat s novým zdrojem dat se stavem Aktualizace.

    Důležité

    Nezastavujte proces obnovování, protože by to mohlo negativně ovlivnit vrácení zdroje dat.