Jak ingestovat historická data do Azure Data Exploreru

Článek
11/23/2024

Běžným scénářem při onboardingu do Azure Data Exploreru je ingestování historických dat, někdy označovaných jako backfill. Proces zahrnuje ingestování dat z existujícího systému úložiště do tabulky, což je kolekce rozsahů.

Doporučujeme ingestovat historická data pomocí vlastnosti pro příjem dat creationTime k nastavení doby vytváření rozsahů na čas vytvoření dat. Když použijete čas vytvoření jako kritérium dělení na příjem dat, můžete data v souladu se zásadami mezipaměti a uchovávání informací osvědčovat a zefektivnit časové filtry.

Ve výchozím nastavení je doba vytváření rozsahů nastavená na čas, kdy se data ingestují, což nemusí způsobit očekávané chování. Předpokládejme například, že máte tabulku, která má období mezipaměti 30 dnů a dobu uchovávání dvou let. V normálním toku se data ingestovaná při jejich vytvoření ukládají do mezipaměti po dobu 30 dnů a pak se přesunou do studeného úložiště. Po dvou letech se na základě času vytvoření odeberou starší data jeden den po druhém. Pokud ale ingestujete dva roky historických dat, ve výchozím nastavení se data označí časem vytvoření v době, kdy se data ingestují. To nemusí vést k požadovanému výsledku, protože:

Všechna data jsou v mezipaměti a zůstávají tam po dobu 30 dnů a využívají více mezipaměti, než jste očekávali.
Starší data se neodeberou jeden den najednou; proto se data uchovávají v clusteru déle, než je nutné, a po dvou letech se všechna odeberou najednou.
Data, která byla dříve seskupována podle data ve zdrojovém systému, se teď můžou seskupit dohromady ve stejném rozsahu, což vede k neefektivním dotazům.

Diagram znázorňující očekávaný a skutečný výsledek příjmu historických dat pomocí výchozího času vytvoření

V tomto článku se dozvíte, jak rozdělit historická data:

Použití vlastnosti příjmu dat během příjmu creationTime dat (doporučeno)

Pokud je to možné, ingestujte historická data pomocí vlastnosti příjmu creationTime dat, která vám umožní nastavit čas vytvoření rozsahů tím, že je extrahujete ze souboru nebo cesty k objektu blob. Pokud struktura složek nepoužívá vzor data vytvoření, doporučujeme změnit strukturu souboru nebo cesty k objektu blob tak, aby odrážela čas vytvoření. Pomocí této metody se data ingestují do tabulky se správným časem vytvoření a správně se použijí doby ukládání do mezipaměti a uchovávání.

Poznámka:

Ve výchozím nastavení se rozsahy rozdělují podle času vytvoření (příjmu dat) a ve většině případů není nutné nastavovat zásady dělení dat.
Použití zásad dělení po příjmu dat

Pokud nemůžete použít vlastnost příjmu creationTime dat, například pokud ingestujete data pomocí konektoru Azure Cosmos DB, kde nemůžete řídit čas vytvoření nebo pokud nemůžete strukturu složek změnit, můžete změnit rozdělení tabulky po příjmu dat, abyste dosáhli stejného efektu pomocí zásad dělení. Tato metoda však může vyžadovat určitou zkušební verzi a chybu k optimalizaci vlastností zásad a je méně efektivní než použití creationTime vlastnosti ingestování. Tuto metodu jsme doporučili jenom v případě, že použití vlastnosti příjmu creationTime dat není možné.

Požadavky

Účet Microsoft nebo identita uživatele Microsoft Entra. Předplatné Azure není povinné.
Cluster a databáze Azure Data Exploreru. Vytvořte cluster a databázi.
Účet úložiště.
Pro doporučenou metodu použití vlastnosti příjmu dat během příjmu creationTime dat nainstalujte LightIngest.

Ingestování historických dat

Důrazně doporučujeme rozdělit historická data pomocí vlastnosti příjmu dat během příjmu creationTime dat. Pokud ale tuto metodu nemůžete použít, můžete změnit rozdělení tabulky po příjmu dat pomocí zásad dělení.

Během příjmu dat (doporučeno)
Příjem dat po příjmu dat

LightIngest může být užitečné k načtení historických dat z existujícího systému úložiště do Azure Data Exploreru. I když můžete vytvořit vlastní příkaz pomocí seznamu argumentů příkazového řádku, v tomto článku se dozvíte, jak tento příkaz automaticky vygenerovat prostřednictvím průvodce příjmem dat. Kromě vytvoření příkazu můžete pomocí tohoto procesu vytvořit novou tabulku a vytvořit mapování schématu. Tento nástroj odvodí mapování schématu z datové sady.

Cíl

Ve webovém uživatelském rozhraní Azure Data Exploreru v nabídce vlevo vyberte Dotaz.
Klikněte pravým tlačítkem myši na databázi, ve které chcete ingestovat data, a pak vyberte LightIngest.

Otevře se okno Ingestování dat s vybranou kartou Cíl . Pole Cluster a Databáze se vyplní automaticky.
Vyberte cílovou tabulku. Pokud chcete ingestovat data do nové tabulky, vyberte Nová tabulka a zadejte název tabulky.

Poznámka:

Názvy tabulek můžou mít maximálně 1024 znaků včetně mezer, alfanumerických znaků, pomlček a podtržítka. Speciální znaky nejsou podporované.
Vyberte Další: Zdroj.

Zdroj

V části Vybrat zdroj vyberte buď Přidat adresu URL , nebo Vyberte kontejner.
- Při přidávání adresy URL v části Odkaz na zdroj zadejte klíč účtu nebo adresu URL SAS kontejneru. Adresu URL SAS můžete vytvořit ručně nebo automaticky.
- Při výběru kontejneru z účtu úložiště vyberte v rozevíracích nabídkách předplatné úložiště, účet úložiště a kontejner .
Poznámka:

Příjem dat podporuje maximální velikost souboru 6 GB. Doporučujeme ingestovat soubory mezi 100 MB a 1 GB.
Výběrem možnosti Upřesnit nastavení definujte další nastavení pro proces příjmu dat pomocí funkce LightIngest.

V podokně Rozšířené konfigurace definujte nastavení LightIngest podle následující tabulky.

Snímek obrazovky s podoknem rozšířené konfigurace zobrazující další nastavení pro zpracování příjmu dat zahrnujícího lightingest nástroje

Vlastnost	Popis
Vzor času vytvoření	Určete, že chcete přepsat vlastnost doby příjmu vytvořeného rozsahu vzorem, například pro použití data na základě struktury složek kontejneru. Viz také Vzor času vytvoření.
Vzor názvu objektu blob	Zadejte vzor použitý k identifikaci souborů, které se mají ingestovat. Ingestujte všechny soubory, které odpovídají vzoru názvu objektu blob v daném kontejneru. Podporuje zástupné kóty. Doporučujeme uzavřít do dvojitých uvozovek.
Tag	Značka přiřazená přijatým datům. Značka může být libovolný řetězec.
Omezení počtu souborů	Zadejte počet souborů, které lze ingestovat. Ingestuje první `n` soubory, které odpovídají vzoru názvu objektu blob, až do zadaného čísla.
Nečekejte na dokončení příjmu dat	Pokud je nastavená, zařadí objekty blob do fronty pro příjem dat bez monitorování procesu příjmu dat. Pokud není nastavená, LightIngest bude dál dotazovat stav příjmu dat, dokud se příjem dat nedokončí.
Zobrazit pouze vybrané položky	Vypište soubory v kontejneru, ale neingestuje je.

Výběrem možnosti Hotovo se vrátíte na kartu Zdroj .
1. Volitelně můžete vybrat Filtry souborů a filtrovat data tak, aby se ingestovat jenom soubory v určité cestě ke složce nebo s konkrétní příponou souboru.
  
  Ve výchozím nastavení je jeden ze souborů v kontejneru náhodně vybrán a používá se k vygenerování schématu tabulky.
2. Volitelně můžete v části Soubor definující schéma určit soubor, který se má použít.
Vyberte Další: Schéma pro zobrazení a úpravu konfigurace sloupce tabulky.

Schéma

Karta Schémata poskytuje náhled dat.

Pokud chcete vygenerovat příkaz LightIngest, vyberte Další: Zahájit příjem dat.

Nepovinná možnost:

Automaticky odvozený formát dat můžete změnit tak, že v rozevírací nabídce vyberete požadovaný formát.
Změňte automaticky odvozený název mapování. Můžete použít alfanumerické znaky a podtržítka. Mezery, speciální znaky a pomlčky se nepodporují.
Pokud používáte existující tabulku, můžete zachovat schéma aktuální tabulky, pokud schéma tabulky odpovídá vybranému formátu.
Výběrem prohlížeče příkazů zobrazíte a zkopírujete automatické příkazy vygenerované z vašich vstupů.
Upravte sloupce. V části Náhled částečných dat vyberte rozevírací nabídky sloupců a upravte různé aspekty tabulky.

Změny, které můžete provést v tabulce, závisí na následujících parametrech:

Typ tabulky je nový nebo existující
Typ mapování je nový nebo existující

Typ tabulky	Typ mapování	Dostupné úpravy
Nová tabulka	Nové mapování	Změna datového typu, Přejmenování sloupce, Nový sloupec, Odstranit sloupec, Aktualizovat sloupec, Seřadit vzestupně, Seřadit sestupně
Existující tabulka	Nové mapování	Nový sloupec (na kterém pak můžete změnit datový typ, přejmenovat a aktualizovat), Aktualizovat sloupec, Seřadit vzestupně, Seřadit sestupně
	Existující mapování	Seřadit vzestupně, seřadit sestupně

Poznámka:

Při přidávání nového sloupce nebo aktualizaci sloupce můžete změnit transformace mapování. Další informace najdete v tématu Mapování transformací.

Ingestování

Jakmile se tabulka, mapování a lightingest označí zelenými značkami zaškrtnutí, vyberte ikonu kopírování v pravém horním rohu pole Vygenerovaný příkaz a zkopírujte vygenerovaný příkaz LightIngest.

Poznámka:

V případě potřeby si můžete stáhnout nástroj LightIngest výběrem možnosti Download LightIngest.
K dokončení procesu příjmu dat je nutné spustit LightIngest pomocí zkopírovaného příkazu.

Krok 1: Příprava na opětovné rozdělení

Upravte zásady uchovávání informací tak, aby umožňovaly stará data. V následujícím příkladu nastavíte zásady uchovávání informací pro tabulku MyTable na 10 let.
```
.alter-merge table MyTable policy retention softdelete = 3650d recoverability = enabled
```
Upravte zásady ukládání do mezipaměti tak, aby všechna data byla v horké mezipaměti pro opětovné rozdělení, protože po příjmu dat je možné předělovat pouze horká data. V následujícím příkladu nastavíte ukládání do mezipaměti pro tabulku MyTable na 10 let.
```
.alter table MyTable policy caching hot = 3650d
```
Důležité

Zvýšení zásad ukládání do mezipaměti může využívat výrazně více horké mezipaměti než v normálních operacích a může vést ke zvýšení nákladů.

Krok 2: Zahájení opětovného dělení

Vytvořte zásadu dělení, která rozdělí data podle sloupce s názvem Timestamp. V následujícím příkladu nastavíte zásady dělení tabulky MyTable na oddíl podle sloupce s názvem Timestamp.
```
.alter table MyTable policy partitioning
```
{
  "EffectiveDateTime" : "1970-01-01T00:00:00",
  "PartitionKeys": [
    {
      "ColumnName": "Timestamp",
      "Kind": "UniformRange",
      "Properties": {
        "Reference": "1970-01-01T00:00:00",
        "RangeSize": "1.00:00:00",
        "OverrideCreationTime": true
      }
    }
  ]
}
```
```
Informace o vlastnostech zásad dělení naleznete v tématu vlastnosti oddílu. Při historickém příjmu dat je důležité nastavit následující vlastnosti:
- Vlastnost EffectiveDateTime musí být nastavena na datum dřívější než začátek příjmu dat, aby se aktivovalo opětovné rozdělení.
- RozsahSize je nastavený na jeden den, aby se data znovu rozdělila do kbelíků jednoho dne. Tuto hodnotu byste ale měli nastavit tak, aby odpovídala vašim datům. Pokud máte například méně než několik GB dat za den, zvažte nastavení větší hodnoty.
- OverrideCreationTime musí být nastaven na hodnotu true, aby po opětovném rozdělení dat do denních intervalů byly rozsahy označené daným dnem jako čas vytvoření.
Nastavte zásadu sloučení tak, aby umožňovala sloučení všech rozsahů, včetně rozsahů starších než 14 dnů. Nastavení této zásady je důležité, protože proces dělení vytváří rozsahy starší než 14 dnů, které jsou ve výchozím nastavení vyloučeny procesem sloučení.
```
.alter table MyTable policy merge
```
{
  "Lookback": {
    "Kind": "HotCache"
  }
}
```
```
Pomocí příkazu .show database extents partitioning statistics monitorujte průběh dělení na oddíly. Ve vrácených výsledcích vyhledejte tabulku, kterou znovu rozdělujete, a monitorujte sloupec PartitionedRowPercentage . Pokud je 100hodnota sloupce PartitionedRowPercentage , je repartitioning dokončen.

Krok 3: Vyčištění po opětovném rozdělení

Po dokončení dělení můžete vyčistit zásady, které jste nastavili v předchozích krocích.

Odeberte zásady dělení.

.delete table MyTable policy partitioning

Odeberte zásadu sloučení.
```
.delete table MyTable policy merge
```

Odeberte nebo nastavte zásady ukládání do mezipaměti.

// Remove the caching policy
.delete table MyTable policy caching
// OR set the caching policy to your desired value
.alter table MyTable policy caching hot = 90d

Odeberte nebo nastavte zásady uchovávání informací.

// Remove the retention policy
.delete table MyTable policy retention
// OR set the retention policy to your desired value
.alter-merge table MyTable policy retention softdelete = 30d recoverability = enabled

Dotazování na data s využitím Azure Data Exploreru

Sdílet prostřednictvím