Udostępnij za pośrednictwem


Scenariusz cenowy użycia usługi Dataflow Gen2 do załadowania 2 GB danych Parquet do tabeli Lakehouse

W tym scenariuszu usługa Dataflow Gen2 została użyta do załadowania 2 GB danych Parquet przechowywanych w usłudze Azure Data Lake Storage (ADLS) Gen2 do tabeli lakehouse w usłudze Microsoft Fabric. Użyliśmy przykładowych danych NYC Taxi-green dla danych Parquet.

Ceny używane w poniższym przykładzie są hipotetyczne i nie zamierzają oznaczać dokładnych rzeczywistych cen. Wystarczy pokazać, jak oszacować, zaplanować i zarządzać kosztami projektów usługi Data Factory w usłudze Microsoft Fabric. Ponadto, ponieważ pojemności sieci szkieletowej są wyceniane unikatowo w różnych regionach, używamy cennika z płatnością zgodnie z rzeczywistym użyciem dla pojemności sieci szkieletowej w regionie Zachodnie stany USA 2 (typowy region świadczenia usługi Azure), przy wartości 0,18 USD za jednostkę CU za godzinę. Zapoznaj się tutaj z usługą Microsoft Fabric — cennik , aby zapoznać się z innymi opcjami cen pojemności sieci szkieletowej.

Konfigurowanie

Aby wykonać ten scenariusz, należy utworzyć przepływ danych, wykonując następujące czynności:

  1. Inicjowanie przepływu danych: pobieranie danych 2 GB plików Parquet z konta magazynu usługi ADLS Gen2.
  2. Konfigurowanie dodatku Power Query:
    1. Przejdź do dodatku Power Query.
    2. Upewnij się, że opcja przemieszczania zapytania jest włączona.
    3. Przejdź do łączenia plików Parquet.
  3. Przekształcanie danych:
    1. Podwyższanie poziomu nagłówków w celu uzyskania przejrzystości.
    2. Usuń niepotrzebne kolumny.
    3. Dostosuj typy danych kolumn zgodnie z potrzebami.
  4. Zdefiniuj miejsce docelowe danych wyjściowych:
    1. Skonfiguruj usługę Lakehouse jako miejsce docelowe danych wyjściowych.
    2. W tym przykładzie utworzono i wykorzystano usługę Lakehouse w usłudze Fabric.

Szacowanie kosztów przy użyciu aplikacji metryk sieci szkieletowej

Screenshot showing the duration and CU consumption of the job in the Fabric Metrics App.

Screenshot showing details of Dataflow Gen2 Refresh duration and CU consumption.

Screenshot showing details of SQL Endpoint Query duration and CU consumption used in the run.

Screenshot showing details of Warehouse Query and OneLake Compute duration and CU consumption used in the run.

Screenshot showing details of Query and Dataset On-Demand Refresh duration and CU consumption and SQL Endpoint Query used in the run.

Screenshot showing details of a second Query and Dataset On-Demand Refresh duration and CU consumption used in the run.

Screenshot showing details of OneLake Compute and 2 High Scale Dataflow Compute duration and CU consumption used in the run.

Miernik obliczeniowy przepływu danych o dużej skali odnotował niewielką aktywność. Standardowy miernik obliczeniowy dla operacji odświeżania przepływu danych Gen2 zużywa 112 098,540 jednostek obliczeniowych (CU). Należy wziąć pod uwagę, że inne operacje, w tym zapytanie magazynu, zapytanie punktu końcowego SQL i odświeżanie zestawu danych na żądanie, stanowią szczegółowe aspekty implementacji przepływu danych Gen2, które są obecnie przejrzyste i niezbędne dla odpowiednich operacji. Jednak te operacje zostaną ukryte w przyszłych aktualizacjach i powinny zostać zignorowane podczas szacowania kosztów przepływu danych Gen2.

Uwaga

Chociaż raportowany jako metryka, rzeczywisty czas trwania przebiegu nie jest istotny podczas obliczania obowiązujących godzin aktualizacji AKTUALIZACJi przy użyciu aplikacji metryk sieci szkieletowej, ponieważ metryka sekund aktualizacji cu również raportuje już czas trwania.

Metric Usługa Compute w warstwie Standardowa Obliczenia o dużej skali
Łączna liczba sekund aktualizacji cu 112 098,54 CU s 0 CU s
Rozliczane godziny obowiązywania aktualizacji CU 112 098,54 / (60*60) = 31,14 godziny aktualizacji CU 0 / (60*60) = 0 godz.

Całkowity koszt uruchomienia na 0,18 USD/godzinę CU = (31,14 CU-hours) * ($0.18/CU hour) ~= $5.60