Поделиться через


Выбор технологии оркестрации конвейера данных в Azure

Большинство решений больших данных состоят из повторяющихся операций обработки данных, инкапсулированных в рабочих процессах. Оркестратор конвейера — это средство, которое помогает автоматизировать эти рабочие процессы. Оркестратор может планировать задания, выполнять рабочие процессы и координировать зависимости между задачами.

Каковы варианты оркестрации конвейера данных?

В Azure следующие службы и средства соответствуют основным требованиям для оркестрации конвейера, потока управления и перемещения данных:

Эти службы и средства можно использовать независимо друг от друга или совместно использовать для создания гибридного решения. Например, среда выполнения интеграции (IR) в Фабрике данных Azure версии 2 может выполнять пакеты служб SSIS в управляемой вычислительной среде Azure. Хотя между этими службами существует некоторое перекрытие функций, существует несколько ключевых различий.

Критерии выбора ключа

Чтобы сузить выбор, начните с ответов на следующие вопросы:

  • Требуются ли возможности больших данных для перемещения и преобразования данных? Обычно это означает от нескольких гигабайт до терабайт данных. Если да, то сузьте варианты до тех, которые лучше всего подходят для больших данных.

  • Требуется ли управляемая служба, которая может работать масштабируемо? Если да, выберите одну из облачных служб, которые не ограничены локальной вычислительной мощностью.

  • Находятся ли некоторые источники данных в локальной среде? Если да, найдите варианты, которые могут работать с облачными и локальными источниками данных или назначениями.

  • Хранятся ли исходные данные в хранилище Blob на файловой системе HDFS? Если да, выберите вариант, поддерживающий запросы Hive.

Матрица возможностей

В следующих таблицах приведены основные различия в возможностях.

Общие возможности

Способность Фабрика данных Azure SQL Server Integration Services (SSIS) Oozie в HDInsight
Управляемый Да Нет Да
Облачные Да Нет (локальный) Да
Предпосылка Подписка Azure SQL Server Подписка Azure, кластер HDInsight
Средства управления Портал Azure, PowerShell, CLI, пакет SDK для .NET SSMS, PowerShell Оболочка Bash, Oozie REST API, веб-интерфейс Oozie
Ценообразование Оплата за использование Лицензирование и оплата функций Дополнительная плата за запуск кластера HDInsight не взимается.

Возможности конвейера

Способность Фабрика данных Azure SQL Server Integration Services (SSIS) Oozie в HDInsight
Копирование данных Да Да Да
Пользовательские преобразования Да Да Да (задания MapReduce, Pig и Hive)
Скоринг в машинном обучении Azure Да Да (с скриптами) Нет
HDInsight по запросу Да Нет Нет
Пакетная служба Azure Да Нет Нет
Pig, Hive, MapReduce Да Нет Да
Искра Да Нет Нет
Выполнение пакета служб SSIS Да Да Нет
Поток управления Да Да Да
Доступ к локальным данным Да Да Нет

Возможности масштабируемости

Способность Фабрика данных Azure SQL Server Integration Services (SSIS) Oozie в HDInsight
Увеличение масштаба Да Нет Нет
Горизонтальное масштабирование Да Нет Да (путем добавления рабочих узлов в кластер)
Оптимизировано для больших данных Да Нет Да

Участники

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.

Основной автор:

Дальнейшие действия