Jak ingestovat historická data do Azure Data Exploreru
Běžným scénářem při onboardingu do Azure Data Exploreru je ingestování historických dat, někdy označovaných jako backfill. Proces zahrnuje ingestování dat z existujícího systému úložiště do tabulky, což je kolekce rozsahů.
Doporučujeme ingestovat historická data pomocí vlastnosti pro příjem dat creationTime k nastavení doby vytváření rozsahů na čas vytvoření dat. Když použijete čas vytvoření jako kritérium dělení na příjem dat, můžete data v souladu se zásadami mezipaměti a uchovávání informací osvědčovat a zefektivnit časové filtry.
Ve výchozím nastavení je doba vytváření rozsahů nastavená na čas, kdy se data ingestují, což nemusí způsobit očekávané chování. Předpokládejme například, že máte tabulku, která má období mezipaměti 30 dnů a dobu uchovávání dvou let. V normálním toku se data ingestovaná při jejich vytvoření ukládají do mezipaměti po dobu 30 dnů a pak se přesunou do studeného úložiště. Po dvou letech se na základě času vytvoření odeberou starší data jeden den po druhém. Pokud ale ingestujete dva roky historických dat, ve výchozím nastavení se data označí časem vytvoření v době, kdy se data ingestují. To nemusí vést k požadovanému výsledku, protože:
- Všechna data jsou v mezipaměti a zůstávají tam po dobu 30 dnů a využívají více mezipaměti, než jste očekávali.
- Starší data se neodeberou jeden den najednou; proto se data uchovávají v clusteru déle, než je nutné, a po dvou letech se všechna odeberou najednou.
- Data, která byla dříve seskupována podle data ve zdrojovém systému, se teď můžou seskupit dohromady ve stejném rozsahu, což vede k neefektivním dotazům.
V tomto článku se dozvíte, jak rozdělit historická data:
Použití vlastnosti příjmu dat během příjmu
creationTime
dat (doporučeno)Pokud je to možné, ingestujte historická data pomocí vlastnosti příjmu
creationTime
dat, která vám umožní nastavit čas vytvoření rozsahů tím, že je extrahujete ze souboru nebo cesty k objektu blob. Pokud struktura složek nepoužívá vzor data vytvoření, doporučujeme změnit strukturu souboru nebo cesty k objektu blob tak, aby odrážela čas vytvoření. Pomocí této metody se data ingestují do tabulky se správným časem vytvoření a správně se použijí doby ukládání do mezipaměti a uchovávání.Poznámka:
Ve výchozím nastavení se rozsahy rozdělují podle času vytvoření (příjmu dat) a ve většině případů není nutné nastavovat zásady dělení dat.
Použití zásad dělení po příjmu dat
Pokud nemůžete použít vlastnost příjmu
creationTime
dat, například pokud ingestujete data pomocí konektoru Azure Cosmos DB, kde nemůžete řídit čas vytvoření nebo pokud nemůžete strukturu složek změnit, můžete změnit rozdělení tabulky po příjmu dat, abyste dosáhli stejného efektu pomocí zásad dělení. Tato metoda však může vyžadovat určitou zkušební verzi a chybu k optimalizaci vlastností zásad a je méně efektivní než použitícreationTime
vlastnosti ingestování. Tuto metodu jsme doporučili jenom v případě, že použití vlastnosti příjmucreationTime
dat není možné.
Požadavky
- Účet Microsoft nebo identita uživatele Microsoft Entra. Předplatné Azure není povinné.
- Cluster a databáze Azure Data Exploreru. Vytvořte cluster a databázi.
- Účet úložiště.
- Pro doporučenou metodu použití vlastnosti příjmu dat během příjmu
creationTime
dat nainstalujte LightIngest.
Ingestování historických dat
Důrazně doporučujeme rozdělit historická data pomocí vlastnosti příjmu dat během příjmu creationTime
dat. Pokud ale tuto metodu nemůžete použít, můžete změnit rozdělení tabulky po příjmu dat pomocí zásad dělení.
LightIngest může být užitečné k načtení historických dat z existujícího systému úložiště do Azure Data Exploreru. I když můžete vytvořit vlastní příkaz pomocí seznamu argumentů příkazového řádku, v tomto článku se dozvíte, jak tento příkaz automaticky vygenerovat prostřednictvím průvodce příjmem dat. Kromě vytvoření příkazu můžete pomocí tohoto procesu vytvořit novou tabulku a vytvořit mapování schématu. Tento nástroj odvodí mapování schématu z datové sady.
Cíl
Ve webovém uživatelském rozhraní Azure Data Exploreru v nabídce vlevo vyberte Dotaz.
Klikněte pravým tlačítkem myši na databázi, ve které chcete ingestovat data, a pak vyberte LightIngest.
Otevře se okno Ingestování dat s vybranou kartou Cíl . Pole Cluster a Databáze se vyplní automaticky.
Vyberte cílovou tabulku. Pokud chcete ingestovat data do nové tabulky, vyberte Nová tabulka a zadejte název tabulky.
Poznámka:
Názvy tabulek můžou mít maximálně 1024 znaků včetně mezer, alfanumerických znaků, pomlček a podtržítka. Speciální znaky nejsou podporované.
Vyberte Další: Zdroj.
Zdroj
V části Vybrat zdroj vyberte buď Přidat adresu URL , nebo Vyberte kontejner.
Při přidávání adresy URL v části Odkaz na zdroj zadejte klíč účtu nebo adresu URL SAS kontejneru. Adresu URL SAS můžete vytvořit ručně nebo automaticky.
Při výběru kontejneru z účtu úložiště vyberte v rozevíracích nabídkách předplatné úložiště, účet úložiště a kontejner .
Poznámka:
Příjem dat podporuje maximální velikost souboru 6 GB. Doporučujeme ingestovat soubory mezi 100 MB a 1 GB.
Výběrem možnosti Upřesnit nastavení definujte další nastavení pro proces příjmu dat pomocí funkce LightIngest.
V podokně Rozšířené konfigurace definujte nastavení LightIngest podle následující tabulky.
Vlastnost Popis Vzor času vytvoření Určete, že chcete přepsat vlastnost doby příjmu vytvořeného rozsahu vzorem, například pro použití data na základě struktury složek kontejneru. Viz také Vzor času vytvoření. Vzor názvu objektu blob Zadejte vzor použitý k identifikaci souborů, které se mají ingestovat. Ingestujte všechny soubory, které odpovídají vzoru názvu objektu blob v daném kontejneru. Podporuje zástupné kóty. Doporučujeme uzavřít do dvojitých uvozovek. Tag Značka přiřazená přijatým datům. Značka může být libovolný řetězec. Omezení počtu souborů Zadejte počet souborů, které lze ingestovat. Ingestuje první n
soubory, které odpovídají vzoru názvu objektu blob, až do zadaného čísla.Nečekejte na dokončení příjmu dat Pokud je nastavená, zařadí objekty blob do fronty pro příjem dat bez monitorování procesu příjmu dat. Pokud není nastavená, LightIngest bude dál dotazovat stav příjmu dat, dokud se příjem dat nedokončí. Zobrazit pouze vybrané položky Vypište soubory v kontejneru, ale neingestuje je. Výběrem možnosti Hotovo se vrátíte na kartu Zdroj .
Volitelně můžete vybrat Filtry souborů a filtrovat data tak, aby se ingestovat jenom soubory v určité cestě ke složce nebo s konkrétní příponou souboru.
Ve výchozím nastavení je jeden ze souborů v kontejneru náhodně vybrán a používá se k vygenerování schématu tabulky.
Volitelně můžete v části Soubor definující schéma určit soubor, který se má použít.
Vyberte Další: Schéma pro zobrazení a úpravu konfigurace sloupce tabulky.
Schéma
Karta Schémata poskytuje náhled dat.
Pokud chcete vygenerovat příkaz LightIngest, vyberte Další: Zahájit příjem dat.
Nepovinná možnost:
- Automaticky odvozený formát dat můžete změnit tak, že v rozevírací nabídce vyberete požadovaný formát.
- Změňte automaticky odvozený název mapování. Můžete použít alfanumerické znaky a podtržítka. Mezery, speciální znaky a pomlčky se nepodporují.
- Pokud používáte existující tabulku, můžete zachovat schéma aktuální tabulky, pokud schéma tabulky odpovídá vybranému formátu.
- Výběrem prohlížeče příkazů zobrazíte a zkopírujete automatické příkazy vygenerované z vašich vstupů.
- Upravte sloupce. V části Náhled částečných dat vyberte rozevírací nabídky sloupců a upravte různé aspekty tabulky.
Změny, které můžete provést v tabulce, závisí na následujících parametrech:
- Typ tabulky je nový nebo existující
- Typ mapování je nový nebo existující
Typ tabulky | Typ mapování | Dostupné úpravy |
---|---|---|
Nová tabulka | Nové mapování | Změna datového typu, Přejmenování sloupce, Nový sloupec, Odstranit sloupec, Aktualizovat sloupec, Seřadit vzestupně, Seřadit sestupně |
Existující tabulka | Nové mapování | Nový sloupec (na kterém pak můžete změnit datový typ, přejmenovat a aktualizovat), Aktualizovat sloupec, Seřadit vzestupně, Seřadit sestupně |
Existující mapování | Seřadit vzestupně, seřadit sestupně |
Poznámka:
Při přidávání nového sloupce nebo aktualizaci sloupce můžete změnit transformace mapování. Další informace najdete v tématu Mapování transformací.
Ingestování
Jakmile se tabulka, mapování a lightingest označí zelenými značkami zaškrtnutí, vyberte ikonu kopírování v pravém horním rohu pole Vygenerovaný příkaz a zkopírujte vygenerovaný příkaz LightIngest.
Poznámka:
V případě potřeby si můžete stáhnout nástroj LightIngest výběrem možnosti Download LightIngest.
K dokončení procesu příjmu dat je nutné spustit LightIngest pomocí zkopírovaného příkazu.