Dela via


Prisscenario med Dataflow Gen2 för att läsa in 2 GB Parquet-data till en Lakehouse-tabell

I det här scenariot användes Dataflow Gen2 för att läsa in 2 GB Parquet-data som lagras i Azure Data Lake Storage (ADLS) Gen2 till en Lakehouse-tabell i Microsoft Fabric. Vi använde provdata från NYC Taxi-green för Parquet-data.

Priserna som används i följande exempel är hypotetiska och avser inte att innebära exakta faktiska priser. Dessa är bara för att visa hur du kan beräkna, planera och hantera kostnader för Data Factory-projekt i Microsoft Fabric. Dessutom, eftersom Fabric-kapaciteter är unikt prissatta mellan regioner, använder vi betala-efter-användning-prissättning för en Fabric-kapacitet i US West 2 (en typisk Azure-region) med en kostnad på 0,18 USD per CU per timme. Mer information finns i Microsoft Fabric – Prissättning för att utforska andra prissättningsalternativ för Fabric-kapacitet.

Konfiguration

För att åstadkomma det här scenariot måste du skapa ett dataflöde med följande steg:

  1. Initiera Dataflöde: Hämta 2 GB Parquet-filer från ADLS Gen2-lagringskonto.
  2. Konfigurera Power Query:
    1. Gå till Power Query.
    2. Kontrollera att alternativet för iscensättning av frågan är aktiverat.
    3. Fortsätt att kombinera Parquet-filerna.
  3. Datatransformering:
    1. Höj upp rubriker för tydlighetens skull.
    2. Ta bort onödiga kolumner.
    3. Justera kolumndatatyper efter behov.
  4. Definiera utdatamål:
    1. Konfigurera Lakehouse som datautdatamål.
    2. I det här exemplet skapades och användes ett Lakehouse i Fabric.

Kostnadsuppskattning med hjälp av fabric Metrics-appen

Skärmbild som visar varaktigheten och CU-förbrukningen för jobbet i Fabric Metrics-appen.

Skärmbild som visar information om varaktighet för uppdatering av Dataflöde Gen2 och CU-förbrukning.

Skärmbild som visar information om varaktighet för SQL Endpoint-fråga och CU-förbrukning som användes under körningen.

Skärmbild som visar information om lagerfråga, varaktighet för OneLake-beräkning och CU-förbrukning som användes i körningen.

Skärmbild som visar information om fråge- och datamängdens varaktighet för uppdatering på begäran och CU-förbrukning och SQL-slutpunktsfråga som används i körningen.

Skärmbild som visar information om en andra fråga och datauppsättning uppdatering på begäran, varaktighet och förbrukning av CU som användes i körningen.

Skärmbild som visar information om OneLake Compute och 2 högskaliga dataflödesberäkningars varaktighet och CU-förbrukning som används i körningen.

Dataflödesmätaren för hög skala registrerade försumbar aktivitet. Standardräknaren för beräkning vid uppdateringsoperationer för Dataflow Gen2 förbrukar 112,098.540 beräkningsenheter (CUs). Det är viktigt att tänka på att andra åtgärder, inklusive Warehouse Query, SQL Endpoint Query och Dataset On-Demand Refresh, utgör detaljerade aspekter av Dataflow Gen2-implementeringen som för närvarande är transparenta och nödvändiga för respektive åtgärder. Dessa åtgärder kommer dock att döljas i framtida uppdateringar och bör ignoreras när du beräknar kostnader för Dataflow Gen2.

Not

Även om den rapporteras som ett mått är den faktiska varaktigheten för körningen inte relevant när du beräknar de effektiva CU-timmarna med Fabric Metrics-appen eftersom CU-sekundersmåttet som det också rapporterar redan står för dess varaktighet.

Metrik Standardberäkning Beräkning i hög skala
Totalt antal CU-sekunder 112 098,54 CU-sekunder 0 CU sekunder
Fakturerade effektiva CU-timmar 112 098,54 / (60*60) = 31,14 CU timmar 0/ (60*60) = 0 CU-timmar

Total körningskostnad på $0.18/CU timme = (31.14 CU-timmar) * ($0.18/CU timme) ~= $5.60