Что такое Azure HDInsight?

Завершено

Рассмотрим возможности и варианты применения HDInsight. Этот обзор поможет оценить, соответствует ли HDInsight требованиям вашей организации.

Что такое большие данные?

Термин большие данные описывает большие объемы собираемых организациями структурированных и неструктурированных данных. Эти данные могут приносить компаниям значительную пользу. В частности, если организация способна анализировать данные и извлекать полезные сведения, она может принимать на их основе более эффективные решения, добиваясь таким образом большего успеха. Например, коммерческая организация может анализировать большие данные для выявления привычек клиентов и повышения объемов продаж.

Описание Azure HDInsight

Azure HDInsight — это полностью управляемая облачная служба аналитики с открытым кодом для предприятий. HDInsight помогает упорядочивать и контролировать ваши большие данные и имеет следующие особенности.

  • Решение представляет собой облачный дистрибутив компонентов Hadoop.

  • Оно упрощает, ускоряет и удешевляет обработку огромных объемов данных.

  • Обеспечивается поддержка следующих платформ с открытым кодом:

    • Hadoop
    • Apache Spark
    • Apache Hive
    • Apache Kafka

    Примечание.

    С помощью этих платформ можно реализовать различные сценарии, такие как извлечение, преобразование и загрузка, хранение данных, машинное обучение и Интернет вещей.

HDInsight дает организациям, работающим с большими данными, ряд преимуществ, в том числе:

  • Open-source: позволяет создавать оптимизированные кластеры для различных платформ с открытым кодом.

  • Надежная: предоставляет комплексное соглашение об уровне обслуживания для всех рабочих нагрузок.

  • Масштабируемость. Позволяет масштабировать рабочие нагрузки для реагирования на изменения спроса.

    Совет

    Вы можете сэкономить, создавая кластеры по запросу. и внося оплату только за используемые ресурсы.

  • Безопасный: позволяет защитить корпоративные ресурсы данных с помощью интеграции с:

    • Виртуальная сеть Azure
    • Технологии шифрования Azure. Защита персональных данных при передаче с помощью шифрования
    • Microsoft Entra ID
  • Соответствует требованиям: соответствует популярным отраслевым и государственным стандартам соответствия.

  • Отслеживаемое: интегрируется с журналами Azure Monitor для предоставления единого интерфейса. Используйте единый интерфейс для отслеживания всех своих кластеров.

Как HDInsight помогает работать с большими данными

HDInsight можно использовать для самых разных сценариев обработки больших данных. Поддерживаются данные двух видов:

  • Исторические данные: эти данные уже собираются и хранятся.
  • Данные в режиме реального времени: эти данные передаются непосредственно из источника.

Можно выделить следующие категории сценариев обработки этих данных:

  • Пакетная обработка
  • Хранение данных
  • IoT
  • Обработка и анализ данных
  • Гибридный трафик

Давайте рассмотрим эти категории более подробно.

Пакетная обработка

Организации используют задания пакетной обработки для подготовки больших данных к дальнейшему анализу. Как правило, этот процесс состоит из трех этапов:

  1. Чтение исходных файлов данных из разнородных источников данных.
  2. Обработка данных.
  3. Запись данных в масштабируемое хранилище.

Примечание.

Этот процесс часто называется извлечение, преобразование и загрузка.

Преобразованные данные могут помещаться в хранилище данных или использоваться для обработки и анализа и данных.

Совет

Существенным требованием для извлечения, преобразования и загрузки является горизонтальное увеличение масштаба вычислений. Это позволяет обрабатывать большие объемы данных.

Хранение данных

Хранилище данных предоставляет организации возможность хранить большие данные до их анализа. Хранение данных позволяет:

  • Хранение данных.
  • Подготовка данных для анализа.
  • Предоставление подготовленных данных в структурированном формате. Затем можно запрашивать данные с помощью средств аналитики.

На следующей схеме показано, как Apache Hadoop в HDInsight собирает и хранит данные из нескольких источников. Apache Spark и Apache Hive готовят и анализируют данные. Наконец, данные моделируются для использования с инструментами бизнес-аналитики (BI). Power BI используется для визуализации данных.

Схема, показывающая, как HDInsight помогает нескольким средствам собирать, хранить и подготавливать данные для анализа, а затем упрощает анализ данных другими средствами.

Компоненты этого сценария:

  • Apache Spark — это платформа параллельной обработки. Apache Spark поддерживает обработку в памяти, что повышает производительность приложений для анализа больших данных.
  • Apache Hive в HDInsight — это система хранилища данных для Apache Hadoop. Hive включает формирование сводных данных, запросы и анализ. При помощи этих компонентов вы можете запрашивать структурированные и неструктурированные данные в любом формате и объемом в несколько петабайт.

Совет

Запросы Hive создаются на языке запросов HiveQL, который похож на SQL.

Интернет вещей

Как показано на следующей схеме, HDInsight обрабатывает потоковые данные, полученные в режиме реального времени с различных устройств и датчиков. В этом примере несколько платформ с открытым кодом обеспечивают потоковую обработку, в том числе Apache Spark и Apache Kafka.

Службы шлюза Azure и центры Интернета вещей направляют данные из различных источников в эти платформы. Затем платформы обрабатывают данные, и они передаются в следующие ресурсы:

  • долговременное хранение;
  • Приложения в режиме реального времени.
  • Панель мониторинга в реальном времени.

Схема сценария Интернета вещей, который описывает предыдущий текст.

Обработка и анализ данных

HDInsight можно использовать для выполнения общих задач обработки и анализа данных, таких как:

  • Прием данных.
  • проектирование признаков;
  • Моделирование.
  • Оценка модели.

На следующей схеме показан сценарий обработки и анализа данных, в котором:

  1. данные собираются из локального источника данных с помощью Фабрики данных Azure;
  2. принятые данные затем хранятся в хранилище Azure (хранилище BLOB-объектов Azure или Data Lake Store).
  3. Azure Spark в HDInsight обрабатывает и готовит данные для Машинного обучения Azure. Для визуализации данных также используется Power BI.

Схема, отображающая сценарий обработки и анализа данных, описывающий предыдущий текст.

Гибридный трафик

Организации, имеющие локальную инфраструктуру больших данных, могут использовать HDInsight для расширения в Azure. Благодаря этому вы можете воспользоваться преимуществами функций расширенной аналитики в облаке Azure. На следующей схеме показан гибридный сценарий, в котором:

  • локальная инфраструктура больших данных состоит из хранилищ метаданных, а также дистрибутива Hadoop или Spark на локальных виртуальных машинах;
  • канал ExpressRoute Azure подключает локальную корпоративную сеть к виртуальным сетям Azure;
  • динамическое средство миграции данных для Azure реплицирует данные, полученные из локальной среды в HDInsight.

Схема гибридного сценария, в котором описывается предыдущий текст.