Выбор подходящего размера виртуальной машины для кластера Azure HDInsight
В статье описано, как выбрать подходящий размер виртуальной машины для различных узлов в кластере HDInsight.
Начните с понимания того, как свойства виртуальной машины, такие как обработка ЦП, размер ОЗУ и задержка в сети, влияют на обработку рабочих нагрузок. Затем подумайте, насколько ваше приложение соответствует задачам, под которые оптимизированы разные семейства виртуальных машин. Убедитесь, что семейство виртуальных машин, которое вы хотите использовать, совместимо с типом кластера, который вы планируете развернуть. Список всех поддерживаемых и рекомендуемых размеров виртуальных машин для каждого типа кластера см. в статье Поддерживаемые Azure HDInsight конфигурации узлов. Наконец, проведите сравнительное тестирование производительности для некоторых образцов рабочих нагрузок и проверьте, какой номер SKU из семейства вам подходит.
Сведения об определении других характеристик кластера, например, о выборе его типа или размера, см. в статье Планирование ресурсов для кластеров HDInsight.
Свойства виртуальной машины и рабочие нагрузки для больших данных
Размер и тип виртуальной машины определяются мощностью обработки ЦП, размером ОЗУ и задержкой в сети:
ЦП: размер виртуальной машины определяет число ядер. Чем больше ядер, тем более высокой степени распараллеливания вычислений может достичь каждый узел. Кроме того, в некоторых типах виртуальных машин используются более быстрые ядра.
ОЗУ: размер виртуальной машины также определяет ее объем ОЗУ. В случае рабочих нагрузок, требующих хранения данных в памяти для обработки, а не их чтения с диска, следует убедиться, что на рабочих узлах достаточно памяти для размещения данных.
Сеть: для большинства типов кластеров обрабатываемые ими данные находятся не на локальном диске, а во внешней службе хранения, например в хранилище Data Lake Storage или службе хранилища Azure. Оцените пропускную способность сети и пропускную способность между виртуальной машиной узла и службой хранилища. Как правило, пропускная способность сети виртуальной машины большего размера также выше. Дополнительные сведения см. в разделе Размеры виртуальных машин Linux в Azure.
Что такое оптимизация виртуальных машин?
Семейства виртуальных машин в Azure оптимизированы под различные задачи. В следующей таблице можно найти некоторые из наиболее популярных вариантов использования и семейства виртуальных машин, которые соответствуют им.
Тип | Размеры | Description |
---|---|---|
Начальный уровень | Av2 |
Характеристики производительности процессора и конфигурации памяти лучше всего подходят для рабочих нагрузок начального уровня, например для разработки и тестирования. Они экономичны и предоставляют недорогий вариант для начала работы с Azure. |
Универсальные | D , , DSv2 Dv2 |
Сбалансированное соотношение ресурсов ЦП и памяти. Идеальное решение для тестирования и разработки, небольших и средних баз данных, а также веб-серверов с небольшим или средним объемом трафика. |
Оптимизированные для вычислений | F |
Высокое соотношение ресурсов ЦП и памяти. Подходят для веб-серверов со средним объемом трафика, сетевых устройств, пакетных процессов и серверов приложений. |
Оптимизированные для памяти | Esv3 , Ev3 |
Высокое соотношение ресурсов памяти и ЦП. Отлично подходят для серверов реляционной базы данных, кэша среднего и большого объема, а также выполняющейся в памяти аналитики. |
- Цены на доступные экземпляры виртуальных машин в регионах, поддерживаемых HDInsight, см. в разделе Цены на HDInsight.
Экономичные типы виртуальных машин для небольших рабочих нагрузок
При невысоких требованиях к производительности для начала работы с HDInsight отлично подойдет серия F. Предлагая более низкую ориентировочную стоимость часа, серия F обеспечивает наилучшее соотношение цены и производительности в портфеле Azure в единицах вычисления Azure (ACU) на виртуальный ЦП.
В таблице ниже описаны типы кластеров и узлов, которые можно создать с использованием виртуальных машин серии Fsv2.
Тип кластера | Версия | Рабочий узел | Головной узел | Узел Zookeeper |
---|---|---|---|---|
Spark | Все | F4 и выше | no | no |
Hadoop | Все | F4 и выше | no | no |
Kafka | Все | F4 и выше | no | no |
HBase | Все | F4 и выше | no | no |
LLAP | disabled (выключено) | no | no | no |
Спецификации по всем номерам SKU серии F см. в разделе Размеры виртуальных машин серии F.
Тестирование производительности
Тестирование — это процесс выполнения имитированных рабочих нагрузок на разных виртуальных машинах, чтобы оценить, насколько хорошо они выполняются для рабочих нагрузок.
Сведения о тестировании производительности для разных номеров SKU и размеров кластеров виртуальных машин см. в разделе Планирование ресурсов кластера в Azure HDInsight.