Prisscenario med Dataflow Gen2 för att läsa in 2 GB Parquet-data till en Lakehouse-tabell
I det här scenariot användes Dataflow Gen2 för att läsa in 2 GB Parquet-data som lagras i Azure Data Lake Storage (ADLS) Gen2 till en Lakehouse-tabell i Microsoft Fabric. Vi använde NYC Taxi-green-exempeldata för Parquet-data.
Priserna som används i följande exempel är hypotetiska och avser inte att innebära exakta faktiska priser. Dessa är bara för att visa hur du kan beräkna, planera och hantera kostnader för Data Factory-projekt i Microsoft Fabric. Eftersom Infrastrukturkapaciteter är unikt prissatta mellan regioner använder vi prissättningen betala per användning för en Infrastrukturkapacitet i USA, västra 2 (en typisk Azure-region) till 0,18 USD per CU per timme. Se Microsoft Fabric – Priser för att utforska andra prisalternativ för Infrastrukturkapacitet.
Konfiguration
För att åstadkomma det här scenariot måste du skapa ett dataflöde med följande steg:
- Initiera Dataflöde: Hämta 2 GB Parquet-filer från ADLS Gen2-lagringskonto.
- Konfigurera Power Query:
- Gå till Power Query.
- Kontrollera att alternativet för mellanlagring av frågan är aktiverat.
- Fortsätt att kombinera Parquet-filerna.
- Datatransformering:
- Höj upp rubriker för tydlighetens skull.
- Ta bort onödiga kolumner.
- Justera kolumndatatyper efter behov.
- Definiera utdatamål:
- Konfigurera Lakehouse som datautdatamål.
- I det här exemplet skapades och användes ett Lakehouse i Fabric.
Kostnadsuppskattning med hjälp av fabric Metrics-appen
Dataflödesmätaren för hög skala registrerade försumbar aktivitet. Standard compute meter for Dataflow Gen2 refresh operations consumes 112,098.540 Compute Units (CUs). Det är viktigt att tänka på att andra åtgärder, inklusive Warehouse Query, SQL Endpoint Query och Dataset On-Demand Refresh, utgör detaljerade aspekter av Dataflow Gen2-implementeringen som för närvarande är transparenta och nödvändiga för respektive åtgärder. Dessa åtgärder kommer dock att döljas i framtida uppdateringar och bör ignoreras när du beräknar kostnader för Dataflow Gen2.
Kommentar
Även om den rapporteras som ett mått är den faktiska varaktigheten för körningen inte relevant när du beräknar de effektiva CU-timmarna med Fabric Metrics-appen eftersom CU-sekundersmåttet som det också rapporterar redan står för dess varaktighet.
Metric | Beräkning för Standard-nivån | Beräkning i hög skala |
---|---|---|
Totalt antal CU-sekunder | 112 098,54 CU-sekunder | 0 CU sekunder |
Effektiva CU-timmar faktureras | 112 098,54 / (60*60) = 31,14 CU timmar | 0/ (60*60) = 0 CU-timmar |
Total körningskostnad på $0.18/CU hour = (31.14 CU-hours) * ($0.18/CU hour) ~= $5.60