Sdílet prostřednictvím


Jak ingestovat historická data do Azure Data Exploreru

Běžným scénářem při onboardingu do Azure Data Exploreru je ingestování historických dat, někdy označovaných jako backfill. Proces zahrnuje ingestování dat z existujícího systému úložiště do tabulky, což je kolekce rozsahů.

Doporučujeme ingestovat historická data pomocí vlastnosti pro příjem dat creationTime k nastavení doby vytváření rozsahů na čas vytvoření dat. Když použijete čas vytvoření jako kritérium dělení na příjem dat, můžete data v souladu se zásadami mezipaměti a uchovávání informací osvědčovat a zefektivnit časové filtry.

Ve výchozím nastavení je doba vytváření rozsahů nastavená na čas, kdy se data ingestují, což nemusí způsobit očekávané chování. Předpokládejme například, že máte tabulku, která má období mezipaměti 30 dnů a dobu uchovávání dvou let. V normálním toku se data ingestovaná při jejich vytvoření ukládají do mezipaměti po dobu 30 dnů a pak se přesunou do studeného úložiště. Po dvou letech se na základě času vytvoření odeberou starší data jeden den po druhém. Pokud ale ingestujete dva roky historických dat, ve výchozím nastavení se data označí časem vytvoření v době, kdy se data ingestují. To nemusí vést k požadovanému výsledku, protože:

  • Všechna data jsou v mezipaměti a zůstávají tam po dobu 30 dnů a využívají více mezipaměti, než jste očekávali.
  • Starší data se neodeberou jeden den najednou; proto se data uchovávají v clusteru déle, než je nutné, a po dvou letech se všechna odeberou najednou.
  • Data, která byla dříve seskupována podle data ve zdrojovém systému, se teď můžou seskupit dohromady ve stejném rozsahu, což vede k neefektivním dotazům.

Diagram znázorňující očekávaný a skutečný výsledek příjmu historických dat pomocí výchozího času vytvoření

V tomto článku se dozvíte, jak rozdělit historická data:

  • Použití vlastnosti příjmu dat během příjmu creationTime dat (doporučeno)

    Pokud je to možné, ingestujte historická data pomocí vlastnosti příjmu creationTime dat, která vám umožní nastavit čas vytvoření rozsahů tím, že je extrahujete ze souboru nebo cesty k objektu blob. Pokud struktura složek nepoužívá vzor data vytvoření, doporučujeme změnit strukturu souboru nebo cesty k objektu blob tak, aby odrážela čas vytvoření. Pomocí této metody se data ingestují do tabulky se správným časem vytvoření a správně se použijí doby ukládání do mezipaměti a uchovávání.

    Poznámka:

    Ve výchozím nastavení se rozsahy rozdělují podle času vytvoření (příjmu dat) a ve většině případů není nutné nastavovat zásady dělení dat.

  • Použití zásad dělení po příjmu dat

    Pokud nemůžete použít vlastnost příjmu creationTime dat, například pokud ingestujete data pomocí konektoru Azure Cosmos DB, kde nemůžete řídit čas vytvoření nebo pokud nemůžete strukturu složek změnit, můžete změnit rozdělení tabulky po příjmu dat, abyste dosáhli stejného efektu pomocí zásad dělení. Tato metoda však může vyžadovat určitou zkušební verzi a chybu k optimalizaci vlastností zásad a je méně efektivní než použití creationTime vlastnosti ingestování. Tuto metodu jsme doporučili jenom v případě, že použití vlastnosti příjmu creationTime dat není možné.

Požadavky

  • Účet Microsoft nebo identita uživatele Microsoft Entra. Předplatné Azure není povinné.
  • Cluster a databáze Azure Data Exploreru. Vytvořte cluster a databázi.
  • Účet úložiště.
  • Pro doporučenou metodu použití vlastnosti příjmu dat během příjmu creationTime dat nainstalujte LightIngest.

Ingestování historických dat

Důrazně doporučujeme rozdělit historická data pomocí vlastnosti příjmu dat během příjmu creationTime dat. Pokud ale tuto metodu nemůžete použít, můžete změnit rozdělení tabulky po příjmu dat pomocí zásad dělení.

LightIngest může být užitečné k načtení historických dat z existujícího systému úložiště do Azure Data Exploreru. I když můžete vytvořit vlastní příkaz pomocí seznamu argumentů příkazového řádku, v tomto článku se dozvíte, jak tento příkaz automaticky vygenerovat prostřednictvím průvodce příjmem dat. Kromě vytvoření příkazu můžete pomocí tohoto procesu vytvořit novou tabulku a vytvořit mapování schématu. Tento nástroj odvodí mapování schématu z datové sady.

Cíl

  1. Ve webovém uživatelském rozhraní Azure Data Exploreru v nabídce vlevo vyberte Dotaz.

  2. Klikněte pravým tlačítkem myši na databázi, ve které chcete ingestovat data, a pak vyberte LightIngest.

    Snímek obrazovky s webovým uživatelským rozhraním Azure Data Exploreru zobrazující nabídku další databáze

    Otevře se okno Ingestování dat s vybranou kartou Cíl . Pole Cluster a Databáze se vyplní automaticky.

  3. Vyberte cílovou tabulku. Pokud chcete ingestovat data do nové tabulky, vyberte Nová tabulka a zadejte název tabulky.

    Poznámka:

    Názvy tabulek můžou mít maximálně 1024 znaků včetně mezer, alfanumerických znaků, pomlček a podtržítka. Speciální znaky nejsou podporované.

    Snímek obrazovky s cílovou kartou zobrazující cílovou databázi a tabulku

  4. Vyberte Další: Zdroj.

Zdroj

  1. V části Vybrat zdroj vyberte buď Přidat adresu URL , nebo Vyberte kontejner.

    • Při přidávání adresy URL v části Odkaz na zdroj zadejte klíč účtu nebo adresu URL SAS kontejneru. Adresu URL SAS můžete vytvořit ručně nebo automaticky.

    • Při výběru kontejneru z účtu úložiště vyberte v rozevíracích nabídkách předplatné úložiště, účet úložiště a kontejner .

      Snímek obrazovky s dialogovým oknem pro výběr kontejneru z předplatného úložiště a účtu

    Poznámka:

    Příjem dat podporuje maximální velikost souboru 6 GB. Doporučujeme ingestovat soubory mezi 100 MB a 1 GB.

  2. Výběrem možnosti Upřesnit nastavení definujte další nastavení pro proces příjmu dat pomocí funkce LightIngest.

    Snímek obrazovky s výběrem upřesňujícího nastavení pro zpracování příjmu dat zahrnujícího nástroj LightIngest

  3. V podokně Rozšířené konfigurace definujte nastavení LightIngest podle následující tabulky.

    Snímek obrazovky s podoknem rozšířené konfigurace zobrazující další nastavení pro zpracování příjmu dat zahrnujícího lightingest nástroje

    Vlastnost Popis
    Vzor času vytvoření Určete, že chcete přepsat vlastnost doby příjmu vytvořeného rozsahu vzorem, například pro použití data na základě struktury složek kontejneru. Viz také Vzor času vytvoření.
    Vzor názvu objektu blob Zadejte vzor použitý k identifikaci souborů, které se mají ingestovat. Ingestujte všechny soubory, které odpovídají vzoru názvu objektu blob v daném kontejneru. Podporuje zástupné kóty. Doporučujeme uzavřít do dvojitých uvozovek.
    Tag Značka přiřazená přijatým datům. Značka může být libovolný řetězec.
    Omezení počtu souborů Zadejte počet souborů, které lze ingestovat. Ingestuje první n soubory, které odpovídají vzoru názvu objektu blob, až do zadaného čísla.
    Nečekejte na dokončení příjmu dat Pokud je nastavená, zařadí objekty blob do fronty pro příjem dat bez monitorování procesu příjmu dat. Pokud není nastavená, LightIngest bude dál dotazovat stav příjmu dat, dokud se příjem dat nedokončí.
    Zobrazit pouze vybrané položky Vypište soubory v kontejneru, ale neingestuje je.
  4. Výběrem možnosti Hotovo se vrátíte na kartu Zdroj .

    1. Volitelně můžete vybrat Filtry souborů a filtrovat data tak, aby se ingestovat jenom soubory v určité cestě ke složce nebo s konkrétní příponou souboru.

      Snímek obrazovky s filtrováním dat na kartě zdroj na obrazovce Ingestování nových dat

      Ve výchozím nastavení je jeden ze souborů v kontejneru náhodně vybrán a používá se k vygenerování schématu tabulky.

    2. Volitelně můžete v části Soubor definující schéma určit soubor, který se má použít.

  5. Vyberte Další: Schéma pro zobrazení a úpravu konfigurace sloupce tabulky.

Schéma

Karta Schémata poskytuje náhled dat.

Pokud chcete vygenerovat příkaz LightIngest, vyberte Další: Zahájit příjem dat.

Nepovinná možnost:

  • Automaticky odvozený formát dat můžete změnit tak, že v rozevírací nabídce vyberete požadovaný formát.
  • Změňte automaticky odvozený název mapování. Můžete použít alfanumerické znaky a podtržítka. Mezery, speciální znaky a pomlčky se nepodporují.
  • Pokud používáte existující tabulku, můžete zachovat schéma aktuální tabulky, pokud schéma tabulky odpovídá vybranému formátu.
  • Výběrem prohlížeče příkazů zobrazíte a zkopírujete automatické příkazy vygenerované z vašich vstupů.
  • Upravte sloupce. V části Náhled částečných dat vyberte rozevírací nabídky sloupců a upravte různé aspekty tabulky.

Změny, které můžete provést v tabulce, závisí na následujících parametrech:

  • Typ tabulky je nový nebo existující
  • Typ mapování je nový nebo existující
Typ tabulky Typ mapování Dostupné úpravy
Nová tabulka Nové mapování Změna datového typu, Přejmenování sloupce, Nový sloupec, Odstranit sloupec, Aktualizovat sloupec, Seřadit vzestupně, Seřadit sestupně
Existující tabulka Nové mapování Nový sloupec (na kterém pak můžete změnit datový typ, přejmenovat a aktualizovat),
Aktualizovat sloupec, Seřadit vzestupně, Seřadit sestupně
Existující mapování Seřadit vzestupně, seřadit sestupně

Poznámka:

Při přidávání nového sloupce nebo aktualizaci sloupce můžete změnit transformace mapování. Další informace najdete v tématu Mapování transformací.

Ingestování

  1. Jakmile se tabulka, mapování a lightingest označí zelenými značkami zaškrtnutí, vyberte ikonu kopírování v pravém horním rohu pole Vygenerovaný příkaz a zkopírujte vygenerovaný příkaz LightIngest.

    Snímek obrazovky s kartou Souhrn a vygenerovaným příkazem Příkaz můžete zkopírovat pomocí ikony kopírování nad polem vygenerovaného příkazu.

    Poznámka:

    V případě potřeby si můžete stáhnout nástroj LightIngest výběrem možnosti Download LightIngest.

  2. K dokončení procesu příjmu dat je nutné spustit LightIngest pomocí zkopírovaného příkazu.