Jak działa usługa Azure HDInsight

6 min

Tutaj dowiesz się, jak działa usługa Azure HDInsight. Dowiesz się więcej o następujących składnikach i sposobie ich dopasowania w celu zapewnienia kontroli danych i zarządzania nimi:

Apache Hadoop
Magazyn usługi HDInsight
Przetwarzanie usługi HDInsight

Co to jest apache Hadoop?

Apache Hadoop to rozproszony w chmurze system przetwarzania danych w rdzeniu usługi HDInsight. Zawiera trzy składniki, które opisano w poniższej tabeli:

Składnik Apache Hadoop	Opis
System plików HDFS	Rozproszony system plików Apache Hadoop (HDFS) udostępnia magazyn dla systemu Hadoop.
PRZĘDZA	Składnik YARN (Apache Hadoop Yet Another Resource Negotiator) zapewnia przetwarzanie systemu.
MapReduce	MapReduce to model programowania, który umożliwia przetwarzanie i analizowanie danych.

W jaki sposób składniki współdziałają?

Na poniższym diagramie przedstawiono składniki magazynu i przetwarzania wchodzące w interakcje w typowym klastrze hadoop usługi HDInsight. Ilustruje on następujące składniki:

Węzeł główny i węzły robocze, które wykonują przetwarzanie.
Wiele centrów magazynów danych obiektowych (WASB) usługi Microsoft Azure Storage, znajdujących się w obrębie węzłów. System plików HDFS współdziała z tymi kontenerami.
Wiele domyślnych, połączonych i niepołączonych kontenerów. Są one dostępne dla dwóch węzłów.

Diagram przedstawiający węzły główne i robocze w Hadoop, a następnie wiele kontenerów pamięci masowej dostępnych dla węzłów.

Teraz sprawdźmy, jak działa magazyn i przetwarzanie.

Jak działa magazyn?

Składnik magazynu klastra nie jest tworzony automatycznie podczas tworzenia klastra usługi HDInsight. Zamiast tego jest dostarczany przez system zgodny z systemem plików HDFS, taki jak Azure Storage lub Azure Data Lake.

Istnieją korzyści wynikające z oddzielenia składnika magazynu klastra od składnika przetwarzania. Można na przykład bezpiecznie usunąć wszystkie klastry usługi HDInsight używane tylko do obliczeń bez obaw o utratę danych. Podczas dodawania klastra usługi HDInsight należy zdefiniować domyślny system plików.

Ważny

W przypadku usługi Azure Storage należy określić kontener obiektów blob jako domyślny system plików.

Zapewnienie domyślnego systemu plików gwarantuje, że usługa HDInsight może rozpoznać względne odwołania do plików podczas wyszukiwania plików.

Napiwek

Jeśli chcesz zwiększyć dostępny magazyn, możesz połączyć i odłączyć dodatkowe systemy plików zgodnie z potrzebami.

Diagram przedstawiający element przechowywania z poprzedniego diagramu.

Jak działa przetwarzanie?

Podczas przetwarzania danych składnik obliczeniowy klastra Hadoop w usłudze HDInsight dzieli się na dwa obszary logiczne. W poniższej tabeli opisano te dwa obszary:

Składnik	Opis
Węzeł główny	Węzeł główny akceptuje żądania klientów, zarządza nimi i przekazuje je do węzłów roboczych.
Węzeł roboczy	Węzły robocze przetwarzają dane.

Notatka

Węzeł główny jest czasami nazywany węzłem nadrzędnym.

Większość klastrów zawiera dwa węzły główne, w tym:

Aktywny węzeł główny, który zarządza połączeniami klientów.
Pasywny węzeł główny, który zapewnia odporność, jeśli aktywny węzeł przejdzie w tryb offline.

Diagram przedstawiający element przetwarzania w typowym klastrze hadoop.

Węzły główne i robocze mogą łączyć się bezpośrednio z lokalnie dołączonym systemem plików HDFS lub uzyskiwać dostęp do danych przechowywanych w usłudze Azure Blob lub Azure Data Lake. To, jakie dane są zarządzane, zależy od dwóch czynników:

Jak model programowania MapReduce zdefiniował sposób pracy z danymi
Jak węzeł główny przydziela pracę

Co robi usługa YARN?

YARN wykonuje zarządzanie zasobami w klastrze HDInsight. Podczas przetwarzania danych ta usługa zarządza zasobami i planowaniem zadań.

Usługa YARN znajduje się między systemem plików HDFS a systemem obliczeniowym klastra usługi HDInsight. Współdziała on z węzłem głównym, aby ułatwić dystrybucję zadania między węzłami roboczymi klastra. Pomaga to zapewnić równoległe działanie zadań przetwarzania danych.