Выбор технологии пакетной обработки в Azure
Решения больших данных часто состоят из дискретных задач пакетной обработки, которые способствуют общему решению обработки данных. Пакетную обработку можно использовать для рабочих нагрузок, которые не требуют немедленного доступа к аналитическим сведениям. Пакетная обработка может дополнять требования к обработке в режиме реального времени. Вы также можете использовать пакетную обработку для балансировки сложности и снижения затрат на общую реализацию.
Основным требованием подсистем пакетной обработки является горизонтальное масштабирование вычислений для обработки большого объема данных. В отличие от обработки в режиме реального времени, пакетная обработка имеет задержки или время между приемом данных и вычислением результата, в минутах или часах.
Выбор технологии для пакетной обработки
Корпорация Майкрософт предлагает несколько служб, которые можно использовать для пакетной обработки.
Microsoft Fabric
Microsoft Fabric — это единая аналитика и платформа данных для организаций. Это программное обеспечение как услуга, которое упрощает подготовку, управление и управление комплексным решением аналитики. Структура обрабатывает перемещение данных, обработку, прием, преобразование и отчеты. Функции Структуры, используемые для пакетной обработки, включают проектирование данных, хранилища данных, озера и обработку Apache Spark. Фабрика данных Azure в Fabric также поддерживает lakehouses. Чтобы упростить и ускорить разработку, можно включить copilot на основе искусственного интеллекта.
Языки: R, Python, Java, Scala и SQL
Безопасность: управляемая виртуальная сеть и управление доступом на основе ролей OneLake (RBAC)
Основное хранилище: OneLake с сочетаниями клавиш и параметрами зеркального отображения
Spark: предварительно подготовленный начальный пул и пользовательский пул Spark с предопределенными размерами узлов
Azure Synapse Analytics
Azure Synapse Analytics — это корпоративная служба аналитики, которая объединяет технологии SQL и Spark в рамках одной конструкции рабочей области. Azure Synapse Analytics упрощает безопасность, управление и управление. Каждая рабочая область содержит интегрированные конвейеры данных, которые можно использовать для создания комплексных рабочих процессов. Вы также можете подготовить выделенный пул SQL для крупномасштабной аналитики, бессерверную конечную точку SQL, которую можно использовать для прямого запроса к озеру, а также среду выполнения Spark для распределенной обработки данных.
Языки: Python, Java, Scala и SQL
Безопасность: управляемая виртуальная сеть, RBAC и управление доступом и списки управления доступом к хранилищу в Azure Data Lake Storage
Основное хранилище: Data Lake Storage, а также интегрируется с другими источниками
Spark: настраиваемая настройка конфигурации Spark с предопределенными размерами узлов
Azure Databricks
Azure Databricks — это платформа аналитики на основе Spark. Она предоставляет широкие возможности и функции Spark уровня "Премиум", созданные на основе Spark с открытым кодом. Azure Databricks — это служба Майкрософт, которая интегрируется с остальными службами Azure. Она содержит дополнительные конфигурации для развертываний кластера Spark. И каталог Unity помогает упростить управление объектами Azure Databricks Spark.
Языки: R, Python, Java, Scala и Spark SQL.
Безопасность: проверка подлинности пользователей с помощью идентификатора Microsoft Entra.
Основное хранилище: встроенная интеграция с Хранилище BLOB-объектов Azure, Data Lake Storage, Azure Synapse Analytics и другими службами. Дополнительные сведения см. в разделе "Источники данных".
Другие преимущества:
Записные книжки на основе веб-технологий для совместной работы и просмотра данных.
Время быстрого запуска кластера, автоматическое завершение и автомасштабирование.
Поддержка кластеров с поддержкой GPU.
Основные критерии выбора
Чтобы выбрать технологию пакетной обработки, рассмотрите следующие вопросы:
Хотите ли вы управлять управляемыми службами или управлять собственными серверами?
Какой подход будет использоваться для создания логики пакетной обработки: декларативный или императивный?
Выполняется ли пакетная обработка при всплесках? Если да, рассмотрите варианты, которые предоставляют возможность автоматического завершения кластера или с моделями ценообразования для каждого пакетного задания.
Нужно ли отправлять запросы к реляционным хранилищами данных во время пакетной обработки, например для поиска эталонных данных? Если да, рассмотрите варианты, которые предоставляют возможность запрашивать внешние реляционные хранилища.
Матрица возможностей
В следующих таблицах приведены основные различия в возможностях между службами.
Общие возможности
Возможность | Fabric | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Программное обеспечение как услуга | Да1 | No | No |
Управляемая служба | No | Да | Да |
Реляционное хранилище данных | Да | Да | Да |
Модель ценообразования | Единицы емкости | Час пула SQL или кластера | Единица 2 и час кластера Azure Databricks |
[1] Назначенная емкость Fabric.
[2] Единица Azure Databricks — это возможность обработки в час.
Другие возможности
Возможность | Fabric | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Автомасштабирование | No | No | Да |
Степень детализации при горизонтальном масштабировании | Номер SKU Для Структуры | Для каждого кластера или пула SQL | По кластерам |
Выполняющееся в памяти кэширование данных | No | Да | Да |
Отправка запросов из внешних реляционных хранилищ | Да | No | Да |
Проверка подлинности | Microsoft Entra ID | ИДЕНТИФИКАТОР SQL или Microsoft Entra | Microsoft Entra ID |
Аудит | Да | Да | Да |
Безопасность на уровне строк | Да | Да 1 | Да |
Поддержка брандмауэров | Да | Да | Да |
Динамическое маскирование данных | Да | Да | Да |
[1] Только предикаты фильтра. Дополнительные сведения см. в разделе "Безопасность на уровне строк".
Соавторы
Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.
Основные авторы:
- Зойнер Теджада | Генеральный директор и архитектор
- Пратима Валавала | Архитектор основных решений
Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.
Следующие шаги
- Что такое Fabric?
- Руководство по принятию решений Fabric
- Учебный курс. Введение в Azure Synapse Analytics
- Что такое Azure HDInsight?
- Что такое Azure Databricks?