Hierarchický obor názvů služby Azure Data Lake Storage
Klíčovým mechanismem, který umožňuje službě Azure Data Lake Storage poskytovat výkon systému souborů při škálování úložiště objektů a cenách, je přidání hierarchického oboru názvů. To umožňuje uspořádat kolekci objektů a souborů v rámci účtu do hierarchie adresářů a vnořených podadresářů stejným způsobem jako systém souborů v počítači. S povoleným hierarchickým oborem názvů se účet úložiště stává schopný poskytovat škálovatelnost a nákladovou efektivitu úložiště objektů pomocí sémantiky systému souborů, které jsou známé analytickým modulům a architekturám.
Výhody hierarchického oboru názvů
Následující výhody jsou přidružené k systémům souborů, které implementují hierarchický obor názvů nad daty objektů blob:
Manipulace s atomárním adresářem: Objekt ukládá přibližnou hierarchii adresáře tak, že přijme konvenci vkládání lomítek (/) do názvu objektu, aby označovala segmenty cesty. I když tato konvence funguje pro uspořádání objektů, tato konvence neposkytuje žádnou pomoc pro akce, jako je přesunutí, přejmenování nebo odstranění adresářů. Bez skutečných adresářů musí aplikace zpracovávat potenciálně miliony jednotlivých objektů blob, aby bylo možné dosáhnout úkolů na úrovni adresáře. Naproti tomu hierarchický obor názvů zpracovává tyto úlohy aktualizací jedné položky (nadřazeného adresáře).
Tato dramatická optimalizace je obzvláště důležitá pro mnoho architektur pro analýzu velkých objemů dat. Nástroje, jako je Hive, Spark atd. často zapisuje výstup do dočasných umístění a pak umístění přejmenuje na závěr úlohy. Bez hierarchického oboru názvů může toto přejmenování často trvat déle než samotný analytický proces. Nižší latence úlohy se rovná nižším celkovým nákladům na vlastnictví (TCO) pro analytické úlohy.
Známý styl rozhraní: Systémy souborů jsou dobře srozumitelné vývojářům a uživatelům. Při přechodu do cloudu není potřeba se učit nové paradigma úložiště, protože rozhraní systému souborů vystavené službou Data Lake Storage je stejné paradigma, které používají počítače, velké a malé.
Jedním z důvodů, proč úložiště objektů historicky nepodporuje hierarchický obor názvů, je, že hierarchický obor názvů omezuje škálování. Hierarchický obor názvů Data Lake Storage se ale škáluje lineárně a nezhoršuje ani kapacitu dat nebo výkon.
Rozhodnutí o povolení hierarchického oboru názvů
Jakmile ve svém účtu povolíte hierarchický obor názvů, nemůžete ho vrátit zpět na plochý obor názvů. Proto zvažte, jestli dává smysl povolit hierarchický obor názvů na základě povahy úloh úložiště objektů. Pokud chcete vyhodnotit dopad povolení hierarchického oboru názvů na úlohy, aplikace, náklady, integrace služeb, nástroje, funkce a dokumentaci, přečtěte si téma Upgrade služby Azure Blob Storage s využitím funkcí Azure Data Lake Storage.
Některé úlohy nemusí získat žádnou výhodu povolením hierarchického oboru názvů. Mezi příklady patří zálohy, úložiště imagí a další aplikace, ve kterých je organizace objektů uložená odděleně od samotných objektů (například v samostatné databázi).
I když podpora funkcí úložiště objektů blob a ekosystému služeb Azure stále roste, stále existují některé funkce a služby Azure, které ještě nejsou podporovány v účtech, které mají hierarchický obor názvů. Viz známé problémy.
Obecně doporučujeme zapnout hierarchický obor názvů pro úlohy úložiště určené pro systémy souborů, které manipulují s adresáři. To zahrnuje všechny úlohy, které jsou primárně určené pro zpracování analýz. Datové sady, které vyžadují vysoký stupeň organizace, budou také těžit z povolení hierarchického oboru názvů.
Důvody povolení hierarchického oboru názvů jsou určeny analýzou celkových nákladů na vlastnictví. Obecně řečeno, vylepšení latence úloh kvůli zrychlení úložiště budou vyžadovat výpočetní prostředky po kratší dobu. Latence pro mnoho úloh může být vylepšena kvůli manipulaci s atomickými adresáři, která je povolena hierarchickým oborem názvů. V mnoha úlohách představuje > výpočetní prostředek 85 % celkových nákladů, takže i skromné snížení latence úloh odpovídá značnému množství úspor celkových nákladů na vlastnictví. I v případech, kdy povolení hierarchického oboru názvů zvyšuje náklady na úložiště, je celkových nákladů na vlastnictví stále nižší kvůli nižším nákladům na výpočetní prostředky.
Pokud chcete analyzovat rozdíly v cenách úložiště dat, cenách transakcí a cenách rezervací kapacity úložiště mezi účty s plochým hierarchickým oborem názvů a hierarchickým oborem názvů, podívejte se na ceny služby Azure Data Lake Storage.
Další kroky
- Při vytváření nového účtu úložiště povolte hierarchický obor názvů. Viz Vytvoření účtu úložiště pro použití se službou Azure Data Lake Storage.
- Povolte hierarchický obor názvů u existujícího účtu úložiště. Viz Upgrade služby Azure Blob Storage s využitím funkcí Služby Azure Data Lake Storage.