Выбор технологии оркестрации конвейера данных в Azure
Большинство решений больших данных состоят из повторяющихся операций обработки данных, инкапсулированных в рабочих процессах. Оркестратор конвейера — это средство, которое помогает автоматизировать эти рабочие процессы. Оркестратор может планировать задания, выполнять рабочие процессы и координировать зависимости между задачами.
Каковы варианты оркестрации конвейера данных?
В Azure следующие службы и средства соответствуют основным требованиям для оркестрации конвейера, потока управления и перемещения данных:
Эти службы и средства можно использовать независимо друг от друга или совместно использовать для создания гибридного решения. Например, среда выполнения интеграции (IR) в Фабрике данных Azure версии 2 может выполнять пакеты служб SSIS в управляемой вычислительной среде Azure. Хотя между этими службами существует некоторое перекрытие функций, существует несколько ключевых различий.
Критерии выбора ключа
Чтобы сузить выбор, начните с ответов на следующие вопросы:
Требуются ли возможности больших данных для перемещения и преобразования данных? Обычно это означает от нескольких гигабайт до терабайт данных. Если да, то сузьте варианты до тех, которые лучше всего подходят для больших данных.
Требуется ли управляемая служба, которая может работать масштабируемо? Если да, выберите одну из облачных служб, которые не ограничены локальной вычислительной мощностью.
Находятся ли некоторые источники данных в локальной среде? Если да, найдите варианты, которые могут работать с облачными и локальными источниками данных или назначениями.
Хранятся ли исходные данные в хранилище Blob на файловой системе HDFS? Если да, выберите вариант, поддерживающий запросы Hive.
Матрица возможностей
В следующих таблицах приведены основные различия в возможностях.
Общие возможности
Способность | Фабрика данных Azure | SQL Server Integration Services (SSIS) | Oozie в HDInsight |
---|---|---|---|
Управляемый | Да | Нет | Да |
Облачные | Да | Нет (локальный) | Да |
Предпосылка | Подписка Azure | SQL Server | Подписка Azure, кластер HDInsight |
Средства управления | Портал Azure, PowerShell, CLI, пакет SDK для .NET | SSMS, PowerShell | Оболочка Bash, Oozie REST API, веб-интерфейс Oozie |
Ценообразование | Оплата за использование | Лицензирование и оплата функций | Дополнительная плата за запуск кластера HDInsight не взимается. |
Возможности конвейера
Способность | Фабрика данных Azure | SQL Server Integration Services (SSIS) | Oozie в HDInsight |
---|---|---|---|
Копирование данных | Да | Да | Да |
Пользовательские преобразования | Да | Да | Да (задания MapReduce, Pig и Hive) |
Скоринг в машинном обучении Azure | Да | Да (с скриптами) | Нет |
HDInsight по запросу | Да | Нет | Нет |
Пакетная служба Azure | Да | Нет | Нет |
Pig, Hive, MapReduce | Да | Нет | Да |
Искра | Да | Нет | Нет |
Выполнение пакета служб SSIS | Да | Да | Нет |
Поток управления | Да | Да | Да |
Доступ к локальным данным | Да | Да | Нет |
Возможности масштабируемости
Способность | Фабрика данных Azure | SQL Server Integration Services (SSIS) | Oozie в HDInsight |
---|---|---|---|
Увеличение масштаба | Да | Нет | Нет |
Горизонтальное масштабирование | Да | Нет | Да (путем добавления рабочих узлов в кластер) |
Оптимизировано для больших данных | Да | Нет | Да |
Участники
Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.
Основной автор:
- Зойнер Тейада | Генеральный директор и архитектор
Дальнейшие действия
- Конвейеры и действия в Фабрике данных Azure и Azure Synapse Analytics
- подготовка среды выполнения интеграции Azure-SSIS в фабрике данных Azure
- Oozie в HDInsight