Как работает Azure HDInsight

Завершено

Здесь вы узнаете, как работает Azure HDInsight. Вы узнаете о следующих компонентах и их совместном использовании для обеспечения управления данными и управления ими:

  • Apache Hadoop
  • Хранилище HDInsight
  • Обработка HDInsight

Что такое Apache Hadoop?

Apache Hadoop — это облачная распределенная система обработки данных в основе HDInsight. Он содержит три компонента, которые описаны в следующей таблице:

Компонент Apache Hadoop Description
HDFS Распределенная файловая система Apache Hadoop (HDFS) предоставляет хранилище для системы Hadoop.
YARN Apache Hadoop Yet Another Resource Negotiator (YARN) обеспечивает обработку для системы.
MapReduce MapReduce — это модель программирования, которая позволяет обрабатывать и анализировать данные.

Как взаимодействуют компоненты?

На следующей схеме показаны компоненты хранения и обработки, взаимодействующие с типичным кластером HDInsight Hadoop. Схема содержит следующие компоненты:

  • Головной узел и рабочие узлы, которые выполняют обработку.
  • Несколько центров хранения Windows Azure Storage Blob (WASB) в узлах. HDFS взаимодействует с этими контейнерами.
  • Несколько контейнеров по умолчанию, а также связанных и несвязанных контейнеров хранилища. Они доступны для двух узлов.

A diagram that depicts the head and worker nodes in Hadoop, then the multiple storage containers accessible to the nodes.

Теперь рассмотрим работу хранилища и компонента обработки.

Как работает хранилище?

Компонент хранилища кластера не создается автоматически при подготовке кластера HDInsight. Вместо этого она предоставляется системой, совместимой с HDFS, например служба хранилища Azure или Azure Data Lake.

Существует ряд преимуществ при разделении компонента хранилища кластера и компонента обработки. Например, можно безопасно удалить любые кластеры HDInsight, используемые только для вычислений, не беспокоясь о потере данных. При добавлении кластера HDInsight необходимо определить файловую систему по умолчанию.

Важно!

Для службы хранилища Azure необходимо указать в качестве файловой системы по умолчанию контейнер больших двоичных объектов.

Предоставление файловой системы по умолчанию гарантирует, что HDInsight сможет разрешать относительные ссылки на файлы при поиске файлов.

Совет

Если требуется увеличить доступное хранилище, при необходимости можно выполнить связывание с дополнительными файловыми системами или отменить связь.

A diagram depicting the storage element from the previous diagram.

Как выполняется обработка?

При обработке данных вычислительный компонент кластера Hadoop в HDInsight разделяется на две логические области. В следующей таблице описаны две области:

Компонент Description
Головной узел Головной узел принимает запросы клиентов и управляет ими, а также передает запросы на рабочие узлы.
Рабочий узел Рабочие узлы обрабатывают данные.

Примечание.

Головной узел иногда называют главным узлом.

Большинство кластеров содержат два головных узла:

  • Активный головной узел, который управляет подключениями клиентов.
  • Пассивный головной узел, который обеспечивает устойчивость в случае, если активный узел переходит в автономный режим.

A diagram depicting the processing element in a typical Hadoop cluster.

Как головной, так и рабочие узлы могут подключаться непосредственно к локально подключенной файловой системе HDFS или обращаться к данным, хранящимся в BLOB-объекте Azure или Azure Data Lake. То, на какие данные распространяется управление, зависит от двух факторов:

  • Как модель программирования MapReduce определила, как работать с данными
  • Как головной узел выделяет работу

Что делает YARN?

YARN осуществляет управление ресурсами в кластере HDInsight. При обработке данных эта служба управляет ресурсами и планированием заданий.

YARN находится между HDFS и вычислительной системой кластера HDInsight. Она взаимодействует с головным узлом, помогая распространить задание по рабочим узлам кластера. Это помогает обеспечить параллельное выполнение заданий обработки данных.