Создание кластера HDInsight

10 мин

Создать кластер HDInsight можно несколькими способами. Это может быть как удобный пользовательский интерфейс на портале Azure, так и скрипт установки, автоматизирующий развертывание. В приведенной ниже таблице представлены различные способы настройки кластера HDInsight.

Метод создания кластеров	Веб-браузер	Командная строка	REST API	SDK
Портал Azure	✔
Azure Data Factory	✔	✔	✔	✔
Azure CLI		✔
Azure PowerShell		✔
cURL		✔	✔
Пакет SDK для .NET				✔
Шаблон Azure Resource Manager		✔

Для любого способа установки HDInsight требуются указанные ниже основные сведения.

Вкладка "Основные сведения"

Сведения о проекте

Подписка

Определяет подписку Azure для выставления счетов за использование HDInsight и управления.

Имя группы ресурсов

Группа ресурсов — это логический набор технологий и служб Azure, которые обычно относятся к одному приложению или жизненному циклу приложения. Объединение служб в группу ресурсов упрощает обслуживание.

Снимок экрана: вкладка

Сведения о кластере

Имя кластера

На имена кластеров HDInsight налагаются указанные ниже ограничения.

Допустимые символы: a–z, 0–9, A–Z
Максимальная длина: 59 символов
Зарезервированные имена: apps
Имена кластеров должны быть уникальными в рамках всех подписок Azure. То есть имя кластера должно быть уникальным по всему миру.
Первые шесть символов должны быть уникальными в пределах виртуальной сети.

Местонахождение

Указывает расположение, в котором хранится тип кластера. Если расположение не определено, то кластер размещается в том же расположении, что и хранилище по умолчанию. Для сокращения задержки расположение должно быть как можно ближе к пользователям.

Типы кластеров

Определяет стек технологий, подготавливаемый в кластере ресурсов. При выборе типа кластера руководствуйтесь типом данных и требуемыми способами их обработки. Доступные типы кластеров представлены в таблице ниже.  

Тип кластера	Описание
Apache Hadoop	Платформа, в которой используется HDFS и простая модель программирования MapReduce для обработки и анализа пакетных данных.
Apache Spark	Платформа параллельной обработки с открытым кодом, которая поддерживает обработку в памяти, чтобы повысить производительность приложений для анализа больших данных.
HBase	База данных NoSQL, созданная на основе Hadoop и обеспечивающая прямой доступ и строгую согласованность для больших объемов неструктурированных и частично структурированных данных (с потенциальным размером таблиц в миллиарды строк и миллионы столбцов).
Интерактивный запрос Apache	Кэширование в памяти для обеспечения интерактивных и ускоренных запросов Hive.
Apache Kafka	Платформа с открытым исходным кодом, которая используется для создания конвейеров и приложений потоковой передачи данных. Kafka также предоставляет функциональные возможности очереди сообщений, с помощью которых можно публиковать потоки данных и подписываться на них.

Версия

Определяет версию HDInsight для этого кластера. HDInsight 4.0 — это последняя версия, которая содержит новейшие платформы для кластеров.

Учетные данные кластера

Во время создания кластера HDInsight можно настроить две учетные записи пользователя.

Пароль для входа в кластер

Имя пользователя по умолчанию — администратор. Он использует базовую конфигурацию в портал Azure. Иногда его называют "пользователем кластера".

SSH username and password (Имя пользователя SSH и пароль)

это имя пользователя используется для подключения к кластеру через SSH.

Примечание.

Пакет безопасности предприятия позволяет интегрировать HDInsight с Active Directory и Apache Ranger. При помощи пакета безопасности корпоративного уровня можно создать нескольких пользователей.

Вкладка хранилища

В кластерах HDInsight могут использоваться следующие варианты хранилища:

Azure Data Lake Storage 2-го поколения
Хранилище Azure Data Lake Storage 1-го поколения
Служба хранилища Azure общего назначения версии 2
Служба хранилища Azure общего назначения версии 1
Служба хранилища Azure для блочных BLOB-объектов (поддерживается только в качестве дополнительного хранилища)

На экране хранилища можно определить основную учетную запись хранения и контейнер по умолчанию. Кроме того, с кластером можно связать дополнительную службу хранилища Azure. Параметры хранилища метаданных позволяют определить внешнюю базу данных SQL для хранения таблиц Hive после удаления кластера и повысить производительность Oozie за счет хранения метаданных во внешнем хранилище.

Снимок экрана: вкладка

Безопасность + сеть

Для кластеров типа Hadoop, Spark, HBase, Kafka и Interactive Query вы можете включить Корпоративный пакет безопасности. Этот пакет предоставляет возможность более безопасной настройки кластера с помощью Apache Ranger и интеграции с идентификатором Microsoft Entra.

Снимок экрана: вкладка

Кроме того, рекомендуется всегда развертывать кластеры HDInsight в виртуальной сети, которую можно определить и назначить на этом экране. Если для решения нужны технологии, распределенные по нескольким типам кластеров HDInsight, виртуальная сеть Azure может объединять необходимые типы кластеров. Благодаря такой конфигурации кластеры и любой развернутый в них код могут взаимодействовать друг с другом напрямую.

Конфигурация и цены

На этой странице можно настроить размер и производительность кластера, а затем просмотреть оценочные сведения о затратах. Вы также можете определить виртуальные машины, которые будут использоваться для головных (главных) и рабочих узлов.

Снимок экрана: вкладка

Создание кластера HDInsight

Вкладка "Основные сведения"

Сведения о проекте

Сведения о кластере

Учетные данные кластера

Вкладка хранилища

Безопасность + сеть

Конфигурация и цены

Обратная связь