Sdílet prostřednictvím


Jak Azure Data Explorer funguje

Azure Data Explorer poskytuje jedinečný výkon pro příjem a dotazování telemetrie, protokolů, událostí, trasování a dat časových řad. Nabízí optimalizované formáty úložiště, indexy a používá pokročilé statistiky dat pro efektivní plánování dotazů a spouštění dotazů za běhu.

Úložiště vs. výpočetní prostředky

Azure Data Explorer odděluje úložiště a výpočetní prostředky. Trvalá data se nacházejí ve službě Azure Blob Storage, zatímco výpočetní prostředky můžou ukládat dočasná data nebo fungovat jako mezipaměť pro trvalé úložiště.

Toto oddělení poskytuje následující výhody:

  • Nezávislé škálování na více instancí z úložiště a výpočetních prostředků
  • Přístupnost identických dat napříč několika výpočetními clustery Další informace najdete v tématu Sdílení dat.
  • Optimalizace skladové položky. Další informace najdete v tématu Výběr skladové položky clusteru.

Úložiště dat

Azure Data Explorer rozděluje všechna přijatá data do rozsahů nebo horizontálních oddílů dat, což jsou vodorovné řezy cílové tabulky. Rozsah může začínat tak malý jako jeden záznam. Když se data v tabulce hromadí, Azure Data Explorer automaticky sloučí rozsahy, dokud se nezvětšují tak, aby zahrnovaly miliony záznamů. Každý rozsah je kódován a indexován nezávisle na ostatních rozsahech. Tato funkce přispívá k lineárnímu škálování propustnosti příjmu dat.

Rozsahy jsou rovnoměrně rozložené mezi uzly clusteru, kde se ukládají do mezipaměti jak na místním disku SSD, tak v paměti. Tato distribuce vylepšuje kapacitu pro přípravu a spouštění vysoce distribuovaných a paralelních dotazů.

Další informace o úložišti dat najdete v tématu Přehled rozsahů.

Poznámka:

Azure Data Explorer také uchovává základní metadata, jako jsou schémata tabulek a objekty zásad. Seznam zásad najdete v tématu Přehled zásad.

Mezipaměť dat

Azure Data Explorer má systém mezipaměti dat s více hierarchií, který zajistí, aby se co nejrelevavantnější data co nejblíže ukážely procesoru. Systém mezipaměti závisí na neměnnosti rozsahů a funguje zcela s komprimovanými daty. Kvůli zlepšení výkonu dotazů zůstávají data komprimovaná i v paměti RAM a v případě potřeby se dekomprimují pouze v případě potřeby dotazu.

Další informace o ukládání do mezipaměti najdete v tématu Zásady mezipaměti.

Indexování textu

Azure Data Explorer je navržený tak, aby efektivně indexovat bezplatné textové sloupce (řetězec) a sloupce podobné formátu JSON (dynamické) při ingestování dat. Indexy udržují úroveň členitosti, která umožňuje vyhodnocení částí dotazu na základě indexu bez kontroly dat.

Průběžná optimalizace rozsahů na pozadí prostřednictvím sloučení zlepšuje kompresi a indexování a zajišťuje efektivní ukládání a nízkou latenci dotazů. Jakmile rozsahy dosáhnou určité velikosti, sloučí se pouze indexy, aby se zvýšil výkon dotazů bez ohrožení efektivity.

Další informace o slučování rozsahu a indexu najdete v tématu Zásady sloučení.

Úložiště řádků

Azure Data Explorer nabízí přechodné řešení úložiště označované jako úložiště řádků. Úložiště řádků umožňuje efektivní příjem malých částí dat a zajišťuje, aby tato data byla okamžitě dostupná pro dotazy. Když povolíte příjem dat streamování v clusteru, data se zpočátku ingestují do úložiště řádků a pak se přesunou do rozsahů úložiště sloupců.

Další informace najdete v tématu Dávkování vs. příjem dat streamování.

Komprese sloupců

Azure Data Explorer udržuje data v komprimovaném stavu a snižuje množství paměti potřebné k ukládání a zpracování dat. Výsledkem tohoto chování je rychlejší výkon dotazů a efektivnější využití systémových prostředků.

Azure Data Explorer se vyhne vertikální kompresi, která zahrnuje řazení dat, aby se zlepšila komprese, a to kvůli vysokým nákladům na procesor ve scénářích s volným textem nebo částečně strukturovanými daty. Místo toho můžete určit upřednostňované pořadí řazení dat pro scénáře s dominantními vzory dotazů. Tento kompromis určuje prioritu rychlé dostupnosti dat pro dotazy.

Další informace o zadání pořadí řazení dat najdete v tématu Zásady pořadí řádků.

Dotaz na distribuovaná data

Azure Data Explorer používá technologii distribuovaných dotazů na data určenou pro rychlou ad hoc analýzu velkých nestrukturovaných datových sad. Mezi klíčové funkce této technologie patří:

  • Dočasná data generovaná dotazem se ukládají v agregované paměti RAM.
  • Relevantní rozsahy jsou označené v plánu dotazů a poskytují izolaci snímků.
  • Rychlé a efektivní dotazy mají prioritu s krátkými výchozími časovými limity.
  • Nativní podpora dotazů napříč clustery, které minimalizují výměnu dat mezi clustery
  • Dotazy se kompilují za běhu do vysoce efektivního strojového kódu pomocí statistik dat ze všech rozsahů a přizpůsobených specifikám kódování sloupců.

Poznámka:

Azure Data Explorer je navržený tak, aby fungoval s dotazovací jazyk Kusto (KQL) vytvořenými pro Azure Data Explorer. Kromě toho se podporuje T-SQL .