Sdílet prostřednictvím


Úvod do služby Azure Data Lake Storage

Azure Data Lake Storage je sada funkcí vyhrazených pro analýzy velkých objemů dat, která je založená na azure Blob Storage.

Azure Data Lake Storage konverguje možnosti Azure Data Lake Storage Gen1 se službou Azure Blob Storage. Data Lake Storage například poskytuje sémantiku systému souborů, zabezpečení na úrovni souborů a škálování. Vzhledem k tomu, že tyto funkce jsou založené na úložišti objektů blob, získáte také nízkonákladové vrstvené úložiště s možnostmi vysoké dostupnosti nebo zotavení po havárii.

Data Lake Storage je základem pro vytváření podnikových datových jezer v Azure. Data Lake Storage umožňuje snadnou správu obrovských objemů dat od začátku po obsluhu několika petabajtů informací a současně udržovat stovky gigabitů propustnosti.

Co je Data Lake?

Datové jezero je jediné centralizované úložiště, ve kterém můžete ukládat všechna data, strukturovaná i nestrukturovaná. Datové jezero umožňuje vaší organizaci rychle a snadněji ukládat, přistupovat k datům a analyzovat širokou škálu dat v jednom umístění. U datového jezera nemusíte odpovídat datům, aby vyhovovala existující struktuře. Místo toho můžete data ukládat v nezpracovaný nebo nativní formát, obvykle jako soubory nebo jako binární velké objekty (objekty blob).

Azure Data Lake Storage je cloudové podnikové řešení Data Lake. Je navržen tak, aby ukládal obrovské objemy dat v libovolném formátu a usnadnil analytické úlohy s velkými objemy dat. Používáte ho k zachytávání dat libovolného typu a rychlosti příjmu dat v jednom umístění pro snadný přístup a analýzu pomocí různých architektur.

Data Lake Storage

Azure Data Lake Storage není vyhrazená služba ani typ účtu. Místo toho se implementuje jako sada funkcí, které používáte se službou Blob Storage vašeho účtu Azure Storage. Tyto funkce můžete odemknout povolením nastavení hierarchického oboru názvů.

Data Lake Storage zahrnuje následující funkce.

– Přístup kompatibilní s Hadoopem

– Hierarchická adresářová struktura

• Optimalizované náklady a výkon

– Jemně odstupňovaný model zabezpečení

– Obrovská škálovatelnost

Přístup kompatibilní s Hadoopem

Azure Data Lake Storage je primárně navržený tak, aby fungoval s Hadoopem a všemi architekturami, které jako vrstvu přístupu k datům používají Systém souborů HDFS (Apache Hadoop Distributed File System). Distribuce systému Hadoop zahrnují ovladač systému souborů Azure Blob (ABFS), který umožňuje přímý přístup k datům Azure Blob Storage mnoha aplikacím a architekturám. Ovladač ABFS je optimalizovaný speciálně pro analýzy velkých objemů dat. Odpovídající rozhraní REST API se zobrazují prostřednictvím koncového bodu dfs.core.windows.net.

Architektury pro analýzu dat, které jako vrstvu přístupu k datům používají HDFS, můžou přímo přistupovat k datům Azure Data Lake Storage prostřednictvím ABFS. Příkladem takových architektur je analytický modul Apache Spark a dotazovací modul Presto SQL.

Další informace o podporovaných službách a platformách najdete v tématu Služby Azure, které podporují Azure Data Lake Storage a open source platformy, které podporují Azure Data Lake Storage.

Hierarchická adresářová struktura

Hierarchický obor názvů je klíčovou funkcí, která umožňuje službě Azure Data Lake Storage poskytovat vysoce výkonný přístup k datům při škálování a ceně úložiště objektů. Pomocí této funkce můžete uspořádat všechny objekty a soubory v rámci účtu úložiště do hierarchie adresářů a vnořených podadresářů. Jinými slovy, data Azure Data Lake Storage jsou uspořádaná podobně jako soubory uspořádané na vašem počítači.

Operace, jako je přejmenování nebo odstranění adresáře, se stanou jedinými operacemi atomických metadat v adresáři. Není nutné vytvářet výčet a zpracovávat všechny objekty, které sdílejí předponu názvu adresáře.

Optimalizované náklady a výkon

Služba Azure Data Lake Storage je cenná na úrovních služby Azure Blob Storage. Vychází z možností služby Azure Blob Storage, jako je automatizovaná správa zásad životního cyklu a vrstvení na úrovni objektů, které spravují náklady na úložiště velkých objemů dat.

Výkon je optimalizovaný, protože nemusíte kopírovat ani transformovat data jako předpoklad analýzy. Funkce hierarchického oboru názvů služby Azure Data Lake Storage umožňuje efektivní přístup a navigaci. Tato architektura znamená, že zpracování dat vyžaduje méně výpočetních prostředků, což snižuje rychlost i náklady na přístup k datům.

Jemně odstupňovaný model zabezpečení

Model řízení přístupu ke službě Azure Data Lake Storage podporuje jak řízení přístupu na základě role (Azure RBAC), tak seznamy řízení přístupu (ACL) v Azure Data Lake Storage i portable Operating System Interface for UNIX (POSIX). Existuje také několik dalších nastavení zabezpečení, která jsou specifická pro Azure Data Lake Storage. Oprávnění můžete nastavit na úrovni adresáře nebo na úrovni souboru. Všechna uložená data se šifrují v klidovém stavu pomocí šifrovacích klíčů spravovaných Microsoftem nebo spravovaných zákazníkem.

Masivní škálovatelnost

Azure Data Lake Storage nabízí obrovské úložiště a přijímá mnoho datových typů pro analýzy. Neuplatní žádné limity pro velikosti účtů, velikosti souborů ani množství dat, která je možné uložit v datovém jezeře. Jednotlivé soubory můžou mít velikosti od několika kilobajtů (KB) až po několik petabajtů (GB). Zpracování se provádí s téměř konstantní latencí požadavků, které se měří na úrovni služby, účtu a souboru.

Tento návrh znamená, že Azure Data Lake Storage dokáže snadno a rychle vertikálně navýšit kapacitu, aby splňovala nejnáročnější úlohy. Může se také stejně snadno škálovat zpět, když poptávka klesne.

Postaveno na službě Azure Blob Storage

Data, která ingestujete, se uchovávají jako objekty blob v účtu úložiště. Služba, která spravuje objekty blob, je služba Azure Blob Storage. Data Lake Storage popisuje možnosti nebo vylepšení této služby, které vyhovují požadavkům analytických úloh pro velké objemy dat.

Vzhledem k tomu, že tyto funkce jsou založené na službě Blob Storage, jsou pro váš účet k dispozici funkce, jako je protokolování diagnostiky, úrovně přístupu a zásady správy životního cyklu. Většina funkcí Blob Storage je plně podporovaná, ale některé funkce můžou být podporované jenom na úrovni Preview a některé z nich ještě nejsou podporované. Úplný seznam příkazů podpory najdete v tématu Podpora funkcí služby Blob Storage v účtech Azure Storage. Stav každé uvedené funkce se v průběhu času změní, protože podpora bude pokračovat v rozšiřování.

Dokumentace a terminologie

Obsah služby Azure Blob Storage obsahuje dvě části obsahu. Část obsahu Data Lake Storage obsahuje osvědčené postupy a pokyny pro používání funkcí Data Lake Storage. Část obsahu služby Blob Storage obsahuje pokyny pro funkce účtu, které nejsou specifické pro Data Lake Storage.

Při procházení mezi oddíly si můžete všimnout drobných rozdílů v terminologii. Například obsah doporučený v dokumentaci ke službě Blob Storage bude místo souboru používat objekt blob termínu. Technicky vzato se soubory, které ingestujete do účtu úložiště, stanou objekty blob ve vašem účtu. Proto je termín správný. Objekt blob termínu ale může způsobit nejasnost, pokud jste zvyklí na soubor termínů. Uvidíte také kontejner termínů, který se používá pro odkaz na systém souborů. Zvažte tyto termíny jako synonymum.

Viz také