Поделиться через


Сценарий ценообразования с помощью потока данных 2-го поколения для загрузки данных Parquet в таблицу Lakehouse

В этом сценарии поток данных 2-го поколения использовался для загрузки 2 ГБ данных Parquet, хранящихся в Azure Data Lake служба хранилища (ADLS) 2-го поколения в таблицу Lakehouse в Microsoft Fabric. Мы использовали примеры данных NYC Taxi-green для данных Parquet.

Цены, используемые в следующем примере, являются гипотетическими и не намерены подразумевать точные фактические цены. Это просто для демонстрации того, как можно оценить, спланировать и управлять затратами на проекты Фабрики данных в Microsoft Fabric. Кроме того, так как емкости Fabric имеют уникальную цену в разных регионах, мы используем цены на оплату по мере использования для емкости Fabric на западе США 2 (типичный регион Azure) на 0,18 долл. США в час. См. здесь сведения о ценах на Microsoft Fabric. Чтобы изучить другие варианты ценообразования емкости Fabric.

Настройка

Чтобы выполнить этот сценарий, необходимо создать поток данных, выполнив следующие действия.

  1. Инициализация потока данных: получение данных 2 ГБ Parquet из учетной записи хранения ADLS 2-го поколения.
  2. Настройка Power Query:
    1. Перейдите в Power Query.
    2. Убедитесь, что параметр промежуточного выполнения запроса включен.
    3. Перейдите к сочетанию файлов Parquet.
  3. Преобразование данных:
    1. Повышение уровня заголовков для ясности.
    2. Удалите ненужные столбцы.
    3. При необходимости настройте типы данных столбцов.
  4. Определение назначения выходных данных:
    1. Настройте Lakehouse в качестве назначения выходных данных.
    2. В этом примере был создан и использован Lakehouse в Fabric.

Оценка затрат с помощью приложения метрик Fabric

Screenshot showing the duration and CU consumption of the job in the Fabric Metrics App.

Screenshot showing details of Dataflow Gen2 Refresh duration and CU consumption.

Screenshot showing details of SQL Endpoint Query duration and CU consumption used in the run.

Screenshot showing details of Warehouse Query and OneLake Compute duration and CU consumption used in the run.

Screenshot showing details of Query and Dataset On-Demand Refresh duration and CU consumption and SQL Endpoint Query used in the run.

Screenshot showing details of a second Query and Dataset On-Demand Refresh duration and CU consumption used in the run.

Screenshot showing details of OneLake Compute and 2 High Scale Dataflow Compute duration and CU consumption used in the run.

Счетчик вычислений потока данных высокого масштаба записал незначительное действие. Стандартный счетчик вычислений для операций обновления Dataflow 2-го поколения использует 112 098,540 единиц вычислений (ЦС). Важно учитывать, что другие операции, включая хранилище запросов, запрос конечной точки SQL и обновление набора данных по запросу, представляют собой подробные аспекты реализации потока данных 2-го поколения, которые в настоящее время прозрачны и необходимы для их соответствующих операций. Однако эти операции будут скрыты в будущих обновлениях и должны игнорироваться при оценке затрат на поток данных 2-го поколения.

Примечание.

Несмотря на то, что эта метрика отображается как метрика, фактическое время выполнения не имеет значения при вычислении эффективных часов CU с приложением метрик Структуры, так как метрика метрики CU, которая также сообщает уже о учетных записях в течение его длительности.

Metric Среда выполнения приложений уровня "Стандартный" Высокомасштабируемые вычисления
Всего секунд cu 112 098,54 секунды CU 0 секунд cu
Счета за действующие часы cu-часов 112 098.54 / (60*60) = 31,14 часов CU 0 / (60*60) = 0 часов CU

Общая стоимость выполнения на $0,18/CU hour = (31,14 CU-hours ) * ($0,18/CU час) ~= $5,60