Jak działa usługa Azure HDInsight

Ukończone

Tutaj dowiesz się, jak działa usługa Azure HDInsight. Dowiesz się więcej o następujących składnikach i sposobie ich dopasowania w celu zapewnienia kontroli danych i zarządzania nimi:

  • Apache Hadoop
  • Magazyn usługi HDInsight
  • Przetwarzanie usługi HDInsight

Co to jest usługa Apache Hadoop?

Apache Hadoop to rozproszony w chmurze system przetwarzania danych w rdzeniu usługi HDInsight. Zawiera trzy składniki, które opisano w poniższej tabeli:

Składnik Apache Hadoop opis
SYSTEM PLIKÓW HDFS Rozproszony system plików Apache Hadoop (HDFS) udostępnia magazyn dla systemu Hadoop.
YARN Składnik YARN (Apache Hadoop Yet Another Resource Negotiator) zapewnia przetwarzanie systemu.
MapReduce MapReduce to model programowania, który umożliwia przetwarzanie i analizowanie danych.

W jaki sposób składniki współdziałają?

Na poniższym diagramie przedstawiono składniki magazynu i przetwarzania wchodzące w interakcje w typowym klastrze hadoop usługi HDInsight. Ilustruje on następujące składniki:

  • Węzeł główny i węzły robocze, które wykonują przetwarzanie.
  • Wiele centrów magazynu obiektów blob (WASB) usługi Windows Azure Storage w węzłach. System plików HDFS współdziała z tymi kontenerami.
  • Wiele domyślnych, połączonych i odłączonych kontenerów magazynu. Są one dostępne dla dwóch węzłów.

A diagram that depicts the head and worker nodes in Hadoop, then the multiple storage containers accessible to the nodes.

Teraz sprawdźmy, jak działa magazyn i przetwarzanie.

Jak działa magazyn?

Składnik magazynu klastra nie jest tworzony automatycznie podczas aprowizowania klastra usługi HDInsight. Zamiast tego jest dostarczany przez system zgodny z systemem plików HDFS, taki jak Azure Storage lub Azure Data Lake.

Istnieją korzyści wynikające z oddzielenia składnika magazynu klastra od składnika przetwarzania. Można na przykład bezpiecznie usunąć wszystkie klastry usługi HDInsight używane tylko do obliczeń bez obaw o utratę danych. Podczas dodawania klastra usługi HDInsight należy zdefiniować domyślny system plików.

Ważne

W przypadku usługi Azure Storage należy określić kontener obiektów blob jako domyślny system plików.

Zapewnienie domyślnego systemu plików gwarantuje, że usługa HDInsight może rozpoznać względne odwołania do plików podczas wyszukiwania plików.

Napiwek

Jeśli chcesz zwiększyć dostępny magazyn, możesz połączyć i odłączyć dodatkowe systemy plików zgodnie z potrzebami.

A diagram depicting the storage element from the previous diagram.

Jak działa przetwarzanie?

Podczas przetwarzania danych składnik obliczeniowy klastra Hadoop w usłudze HDInsight dzieli się na dwa obszary logiczne. W poniższej tabeli opisano te dwa obszary:

Składnik opis
Węzeł główny Węzeł główny akceptuje żądania klientów i zarządza nimi oraz przekazuje żądania do węzłów procesu roboczego.
Węzeł procesu roboczego Węzły procesu roboczego przetwarzają dane.

Uwaga

Węzeł główny jest czasami nazywany węzłem głównym.

Większość klastrów zawiera dwa węzły główne, w tym:

  • Aktywny węzeł główny, który zarządza połączeniami klientów.
  • Pasywny węzeł główny, który zapewnia odporność, jeśli aktywny węzeł przejdzie w tryb offline.

A diagram depicting the processing element in a typical Hadoop cluster.

Węzły główne i robocze mogą łączyć się bezpośrednio z lokalnie dołączonym systemem plików HDFS lub uzyskiwać dostęp do danych przechowywanych w usłudze Azure Blob lub Azure Data Lake. To, jakie dane są zarządzane, zależy od dwóch czynników:

  • Jak model programowania MapReduce zdefiniował sposób pracy z danymi
  • Jak węzeł główny przydziela pracę

Co robi usługa YARN?

Usługa YARN wykonuje zarządzanie zasobami w klastrze usługi HDInsight. Podczas przetwarzania danych ta usługa zarządza zasobami i planowaniem zadań.

Usługa YARN znajduje się między systemem plików HDFS a systemem obliczeniowym klastra usługi HDInsight. Współdziała on z węzłem głównym, aby ułatwić dystrybucję zadania między węzłami roboczymi klastra. Pomaga to zapewnić równoległe działanie zadań przetwarzania danych.