Prisfastsættelsesscenarie ved hjælp af Dataflow Gen2 til at indlæse 2 GB parquetdata i en Lakehouse-tabel

Artikel
11/16/2023

I dette scenarie blev Dataflow Gen2 brugt til at indlæse 2 GB parquetdata, der er gemt i Azure Data Lake Storage (ADLS) Gen2, i en Lakehouse-tabel i Microsoft Fabric. Vi brugte NYC Taxi-green-eksempeldataene til parquetdataene.

De priser, der bruges i følgende eksempel, er hypotetiske og har ikke til hensigt at indebære nøjagtige faktiske priser. Disse er blot for at vise, hvordan du kan estimere, planlægge og administrere omkostninger for Data Factory-projekter i Microsoft Fabric. Da Fabric-kapaciteter prissættes entydigt på tværs af områder, bruger vi også prissætningen efter forbrug for en Fabric-kapacitet i det vestlige USA 2 (et typisk Azure-område) til 0,18 USD pr. CU pr. time. Se Microsoft Fabric – Priser for at udforske andre muligheder for prisfastsættelse for Fabric-kapacitet her.

Konfiguration

Hvis du vil opnå dette scenarie, skal du oprette et dataflow ved hjælp af følgende trin:

Initialiser dataflow: Hent data om parquetfiler på 2 GB fra ADLS Gen2-lagerkontoen.
Konfigurer Power-forespørgsel:
1. Gå til Power Query.
2. Sørg for, at indstillingen for midlertidig lagring af forespørgslen er aktiveret.
3. Fortsæt med at kombinere Parquet-filerne.
Datatransformation:
1. Hæv overskrifter for at skabe klarhed.
2. Fjern unødvendige kolonner.
3. Juster kolonnedatatyper efter behov.
Definer destination for outputdata:
1. Konfigurer Lakehouse som destination for dataoutput.
2. I dette eksempel blev der oprettet og brugt et Lakehouse i Fabric.

Estimering af omkostninger ved hjælp af Appen Fabric Metrics

Screenshot showing the duration and CU consumption of the job in the Fabric Metrics App.

Screenshot showing details of Dataflow Gen2 Refresh duration and CU consumption.

Screenshot showing details of SQL Endpoint Query duration and CU consumption used in the run.

Screenshot showing details of Warehouse Query and OneLake Compute duration and CU consumption used in the run.

Screenshot showing details of Query and Dataset On-Demand Refresh duration and CU consumption and SQL Endpoint Query used in the run.

Screenshot showing details of a second Query and Dataset On-Demand Refresh duration and CU consumption used in the run.

Screenshot showing details of OneLake Compute and 2 High Scale Dataflow Compute duration and CU consumption used in the run.

Beregningsmåleren for dataflow i høj skala registrerede ubetydelig aktivitet. Standardberegningsmåleren for opdateringshandlinger for Dataflow Gen2 bruger 112.098.540 beregningsenheder (CU'er). Det er vigtigt at overveje, at andre handlinger, herunder Warehouse Query, SQL Endpoint Query og Dataset On-Demand Refresh, udgør detaljerede aspekter af implementeringen af Dataflow Gen2, der i øjeblikket er gennemsigtige og nødvendige for deres respektive handlinger. Disse handlinger skjules dog i fremtidige opdateringer og bør ignoreres ved vurdering af omkostningerne for Dataflow Gen2.

Bemærk

Selvom den er rapporteret som en metrikværdi, er den faktiske varighed af kørslen ikke relevant ved beregning af de effektive CU-timer med Fabric Metrics-appen, da den metrikværdi for CU-sekunder, den også rapporterer, allerede tegner sig for dens varighed.

Metric	Standard-niveauet for Compute	Beregning i høj skala
Samlet antal CU-sekunder	112.098,54 CU sekunder	0 CU sekunder
Faktureret for effektive CU-timer	112.098.54 / (60*60) = 31,14 CU timer	0/ (60*60) = 0 CU timer

Samlede kørselsomkostninger ved $0.18/CU time = (31,14 CU-timer) * ($0,18/CU time) ~= $5,60

Del via

Prisfastsættelsesscenarie ved hjælp af Dataflow Gen2 til at indlæse 2 GB parquetdata i en Lakehouse-tabel

Konfiguration

Estimering af omkostninger ved hjælp af Appen Fabric Metrics

Feedback

Yderligere ressourcer

Del via

Prisfastsættelsesscenarie ved hjælp af Dataflow Gen2 til at indlæse 2 GB parquetdata i en Lakehouse-tabel

Konfiguration

Estimering af omkostninger ved hjælp af Appen Fabric Metrics

Relateret indhold

Feedback

Yderligere ressourcer