Критерии для выбора подходящего варианта конфигурации HDInsight.

Завершено

Существуют различные конфигурации службы HDInsight, которые можно использовать для различных аналитических сценариев. По сути, HDInsight содержит так много технологий OSS, что вы найдете подходящий вариант для любых задач. Все доступные типы кластеров могут соответствовать потребностям бизнес-сценариев, описанных ниже. С каждым типом кластера вы получаете полный контроль над управлением каждым из этих сценариев в HDInsight. 

Многие организации имеют аналогичные требования, когда речь идет о сценариях обработки и анализа данных для получения бизнес-ценности. Эти требования могут включать:

Пакетная обработка

HDInsight можно использовать для извлечения, преобразования и загрузки (ETL) или извлечения, загрузки и преобразования (ELT) как структурированных, так и неструктурированных данных с помощью Hadoop и Spark, а также платформ обработки данных, включая Hive и Sqoop.  

Хранение данных

Традиционно для этого используются локальные реляционные базы данных, такие как SQL Server, а в последнее время и хранилище данных SQL Azure для петабайтов структурированных данных. HDInsight поддерживает интерактивные запросы к петабайтам структурированных или неструктурированных данных во многих форматах. Эта возможность станет отличным вариантом, если вы управляете операциями с данными и требованиями к отчетам с помощью HDInsight Hadoop с Hive. 

Потоковая передача данных

Потоковая передача данных может приниматься из различных источников с помощью HDInsight через концентратор событий или центр Интернета вещей с помощью потоковой передачи Spark.  

Гибрид

В некоторых организациях уже существуют локальные инфраструктуры больших данных. Вы можете расширить возможности в облаке с помощью HDInsight.

Ключевой фактор выбора подходящего вариант конфигурации кластера HDInsight — рабочая нагрузка, которую будет обслуживать кластер HDInsight. Если ваша организация работает с несколькими рабочими нагрузками, вы можете переключаться между конфигурациями HDInsight в зависимости от текущих потребностей.

Тип рабочей нагрузки Тип кластера
Пакетное перемещение данных Apache Hadoop
Обработка и анализ данных — пакеты и потоковая передача Apache Spark
Транзакционные рабочие нагрузки HBase
Автоматизированная аналитика/хранение данных Apache Interactive Query
Анализ потоковых данных Apache Kafka

Внимание

Доступны различные типы кластеров HDInsight, каждый из которых предназначен для отдельной рабочей нагрузки или технологии. Создать кластер, в котором бы объединились несколько типов, например Hadoop и HBase, нельзя. Если для решения нужны технологии, распределенные по нескольким типам кластеров HDInsight, виртуальная сеть Azure может объединять необходимые типы кластеров.