Jak azure HDInsight funguje

6 min

Tady se dozvíte, jak Azure HDInsight funguje. Dozvíte se o následujících komponentách a o tom, jak se hodí k zajištění řízení a správy dat:

Apache Hadoop
Úložiště HDInsight
Zpracování HDInsight

Co je Apache Hadoop?

Apache Hadoop je cloudově distribuovaný systém pro zpracování dat v jádru SLUŽBY HDInsight. Má tři komponenty, které jsou popsané v následující tabulce:

Komponenta Apache Hadoop	Popis
HDFS	Systém souborů HDFS (Apache Hadoop Distributed File System) poskytuje úložiště pro systém Hadoop.
PŘÍZE	Komponenta Apache Hadoop Ještě další komponenta YARN (Resource Negotiator) poskytuje zpracování systému.
MapReduce	MapReduce je programovací model, který umožňuje zpracovávat a analyzovat data.

Jak interagují komponenty?

Následující diagram znázorňuje komponenty pro ukládání a zpracování, které komunikují v typickém clusteru HDInsight Hadoop. Znázorňuje následující komponenty:

Hlavní uzel a pracovní uzly, které provádějí zpracování.
Několik úložných center Windows Azure Storage Blob (WASB) v rámci uzlů. HDFS s těmito kontejnery komunikuje.
Několik výchozích úložných kontejnerů, propojených a nepropojených. Ty jsou k dispozici pro dva uzly.

diagram, který znázorňuje hlavní a pracovní uzly v Hadoopu, pak několik kontejnerů úložiště dostupných pro uzly.

Pojďme se teď podívat, jak funguje úložiště a zpracování.

Jak funguje úložiště?

Komponenta úložiště clusteru se při zřizování clusteru HDInsight nevytvořila automaticky. Místo toho ji poskytuje systém kompatibilní s HDFS, jako je Azure Storage nebo Azure Data Lake.

Při oddělení součásti úložiště clusteru od součásti pro zpracování existují výhody. Můžete například bezpečně odstranit všechny clustery HDInsight používané pouze pro výpočty, aniž byste se museli starat o ztrátu dat. Když přidáváte cluster HDInsight, musíte definovat výchozí systém souborů.

Důležitý

Pro Azure Storage musíte jako výchozí systém souborů zadat kontejner objektů blob.

Poskytnutí výchozího systému souborů zajišťuje, že HDInsight dokáže při hledání souborů vyřešit relativní odkazy na soubory.

Rada

Pokud chcete zvýšit dostupné úložiště, můžete podle potřeby propojit a zrušit propojení dalších systémů souborů.

diagram znázorňující prvek úložiště z předchozího diagramu

Jak funguje zpracování?

Při zpracování dat se výpočetní komponenta clusteru Hadoop v HDInsight rozdělí do dvou logických oblastí. Následující tabulka popisuje tyto dvě oblasti:

Komponenta	Popis
Hlavní uzel	Hlavní uzel přijímá a spravuje požadavky klientů a předává je do pracovních uzlů.
Pracovní uzel	Pracovní uzly zpracovávají data.

Poznámka

Hlavní uzel se někdy označuje jako řídicí uzel.

Většina clusterů obsahuje dva hlavní uzly, mezi které patří:

Aktivní hlavní uzel, který spravuje připojení klientů.
Pasivní hlavní uzel, který zajišťuje odolnost v případě, že aktivní uzel přejde do režimu offline.

diagram znázorňující prvek zpracování v typickém clusteru Hadoop

Hlavní i pracovní uzly se můžou připojit přímo k místně připojenému HDFS nebo přistupovat k datům uloženým v Azure Blob nebo Azure Data Lake. Jaká data se spravují, závisí na dvou faktorech:

Jak programovací model MapReduce definoval způsob práce s daty
Jak hlavní uzel přiděluje práci

Co dělá YARN?

YARN provádí správu prostředků v rámci clusteru HDInsight. Při zpracování dat tato služba spravuje prostředky a plánování úloh.