Поделиться через


Ежечасное копирование и преобразование данных с помощью динамических параметров

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

В этом сценарии необходимо скопировать данные из AWS S3 в хранилище BLOB-объектов Azure и преобразовать их с помощью Azure Databricks (с динамическими параметрами в скрипте) в почасовом расписании в течение 8 часов каждый день в течение 30 дней.

Цены, используемые в этом примере ниже, являются гипотетическими и не предназначены для того, чтобы подразумевать точные фактические цены. Затраты на чтение и запись и мониторинг не отображаются, так как обычно они являются незначительными и не влияют на общие затраты. Запуски действий также округляются до ближайших 1000 в оценках калькулятора цен.

Ознакомьтесь с калькулятором цен Azure для более конкретных сценариев и оцените будущие затраты на использование службы.

Настройка

Для выполнения сценария необходимо создать конвейер со следующими элементами.

  • Одно действие копирования с набором входных данных для копирования из AWS S3 и набор выходных данных для данных хранилища Azure.
  • Один поиск действия для динамического преобразования параметров в сценарий.
  • Одно действие преобразования данных с помощью Azure Databricks.
  • Один триггер расписания для выполнения конвейера каждый час в течение 8 часов в день. Если вы хотите запустить конвейер, его можно активировать немедленно или запланировать. Помимо самого конвейера каждый экземпляр триггера считается одним выполнением действия.

На схеме показан конвейер с триггером расписания. В конвейере действие копирования выполняется в входной набор данных, выходной набор данных и действие подстановки, которое передается в действие DataBricks, которое выполняется в Azure Databricks. Входной набор данных передается связанной службе AWS S3. Выходной набор данных передается в связанную службу служба хранилища Azure.

Оценка затрат

Операции Типы и единицы измерения
Выполнение конвейера 4 Действия выполняются на выполнение (1 для запуска триггера, 3 для выполнения действия) = 960 операций, округляется, так как калькулятор позволяет увеличивать только 1000.
Предположение копирования данных: часы DIU на выполнение = 10 минут 10 мин \ 60 мин * 4 Среда выполнения интеграции Azure (параметр DIU по умолчанию = 4) Дополнительные сведения об единицах интеграции данных и оптимизации производительности копирования см . в этой статье.
Выполнение предположения действия подстановки: часы действия конвейера на выполнение = 1 мин 1 мин / 60 мин. Выполнение действия конвейера
Выполнение допущения действия Databricks: внешние часы выполнения на выполнение = 10 мин 10 мин / 60 мин. Выполнение внешнего действия конвейера

Пример ценообразования: пример калькулятора цен

Общая цена на сценарий за 30 дней: $41,03

Снимок экрана: калькулятор цен, настроенный для копирования данных и преобразования с динамическими параметрами.