Jak azure HDInsight funguje

Dokončeno

Tady se dozvíte, jak Azure HDInsight funguje. Dozvíte se o následujících komponentách a o tom, jak se hodí k zajištění řízení a správy dat:

  • Apache Hadoop
  • Úložiště HDInsight
  • Zpracování HDInsight

Co je to Apache Hadoop?

Apache Hadoop je cloudově distribuovaný systém pro zpracování dat v jádru SLUŽBY HDInsight. Má tři komponenty, které jsou popsané v následující tabulce:

Komponenta Apache Hadoop Popis
HDFS Systém souborů HDFS (Apache Hadoop Distributed File System) poskytuje úložiště pro systém Hadoop.
YARN Komponenta Apache Hadoop Ještě další komponenta YARN (Resource Negotiator) poskytuje zpracování systému.
MapReduce MapReduce je programovací model, který umožňuje zpracovávat a analyzovat data.

Jak interagují komponenty?

Následující diagram znázorňuje komponenty pro ukládání a zpracování, které komunikují v typickém clusteru HDInsight Hadoop. Znázorňuje následující komponenty:

  • Hlavní uzel a pracovní uzly, které zpracovávají.
  • Několik center úložiště WINDOWS Azure Storage Blob (WASB) v uzlech HDFS s těmito kontejnery komunikuje.
  • Několik výchozích, propojených a nepřipojených kontejnerů úložiště Ty jsou k dispozici pro dva uzly.

A diagram that depicts the head and worker nodes in Hadoop, then the multiple storage containers accessible to the nodes.

Pojďme se teď podívat, jak funguje úložiště a zpracování.

Jak funguje úložiště?

Komponenta úložiště clusteru se při zřizování clusteru HDInsight nevytvořila automaticky. Místo toho ji poskytuje systém kompatibilní s HDFS, jako je Azure Storage nebo Azure Data Lake.

Při oddělení součásti úložiště clusteru od součásti pro zpracování existují výhody. Můžete například bezpečně odstranit všechny clustery HDInsight používané pouze pro výpočty, aniž byste se museli starat o ztrátu dat. Když přidáváte cluster HDInsight, musíte definovat výchozí systém souborů.

Důležité

Pro Azure Storage musíte jako výchozí systém souborů zadat kontejner objektů blob.

Poskytnutí výchozího systému souborů zajišťuje, že HDInsight dokáže při hledání souborů přeložit relativní odkazy na soubory.

Tip

Pokud chcete zvýšit dostupné úložiště, můžete podle potřeby propojit a zrušit propojení dalších systémů souborů.

A diagram depicting the storage element from the previous diagram.

Jak funguje zpracování?

Při zpracování dat se výpočetní komponenta clusteru Hadoop v HDInsight rozdělí do dvou logických oblastí. Následující tabulka popisuje tyto dvě oblasti:

Komponenta Popis
Hlavní uzel Hlavní uzel přijímá a spravuje požadavky klientů a předává je do pracovních uzlů.
Pracovní uzel Pracovní uzly zpracovávají data.

Poznámka:

Hlavní uzel se někdy označuje jako hlavní uzel.

Většina clusterů obsahuje dva hlavní uzly, mezi které patří:

  • Aktivní hlavní uzel, který spravuje připojení klientů.
  • Pasivní hlavní uzel, který zajišťuje odolnost, by měl aktivní uzel přejít do režimu offline.

A diagram depicting the processing element in a typical Hadoop cluster.

Hlavní i pracovní uzly se můžou připojit přímo k místně připojenému HDFS nebo přistupovat k datům uloženým v Azure Blob nebo Azure Data Lake. Jaká data se spravují, závisí na dvou faktorech:

  • Jak programovací model MapReduce definoval způsob práce s daty
  • Jak hlavní uzel přiděluje práci

Co dělá YARN?

YARN provádí správu prostředků v rámci clusteru HDInsight. Při zpracování dat tato služba spravuje prostředky a plánování úloh.

YARN se nachází mezi HDFS a výpočetním systémem clusteru HDInsight. Funguje s hlavním uzlem a pomáhá distribuovat úlohu mezi pracovní uzly clusteru. To pomáhá zajistit, aby úlohy zpracování dat probíhaly paralelně.