Kopiera data och transformera med dynamiska parametrar varje timme
GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics
Dricks
Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!
I det här scenariot vill du kopiera data från AWS S3 till Azure Blob Storage och transformera med Azure Databricks (med dynamiska parametrar i skriptet) enligt ett schema per timme i 8 timmar varje dag under 30 dagar.
Priserna som används i det här exemplet nedan är hypotetiska och är inte avsedda att innebära exakta faktiska priser. Läs-/skriv- och övervakningskostnader visas inte eftersom de vanligtvis är försumbara och inte påverkar de totala kostnaderna avsevärt. Aktivitetskörningar avrundas också till de närmaste 1 000 i priskalkylatorns uppskattningar.
Se Priskalkylatorn för Azure för mer specifika scenarier och för att beräkna framtida kostnader för att använda tjänsten.
Konfiguration
För att åstadkomma scenariot måste du skapa en pipeline med följande objekt:
- En kopieringsaktivitet med en indatauppsättning för data som ska kopieras från AWS S3, en utdatauppsättning för data i Azure Storage.
- En sökningsaktivitet för att skicka parametrar dynamiskt till transformeringsskriptet.
- En Azure Databricks-aktivitet för datatransformeringen.
- En schemautlösare för att köra pipelinen varje timme i 8 timmar per dag. När du vill köra en pipeline kan du antingen utlösa den direkt eller schemalägga den. Förutom själva pipelinen räknas varje utlösarinstans som en enda aktivitetskörning.
Kostnadsuppskattning
Drift | Typer och enheter |
---|---|
Kör pipeline | 4 Aktivitetskörningar per körning (1 för utlösarkörning, 3 för aktivitetskörningar) = 960 aktivitetskörningar, avrundade eftersom kalkylatorn endast tillåter ökningar på 1 000. |
Kopiera dataantagande: DIU-timmar per körning = 10 min | 10 min \ 60 min * 4 Azure Integration Runtime (standardinställning för DIU = 4) Mer information om dataintegreringsenheter och optimering av kopieringsprestanda finns i den här artikeln |
Execute Lookup activity Assumption: pipeline activity hours per execution = 1 min | 1 min/60 min Körning av pipelineaktivitet |
Kör Databricks-aktivitetsantagande: externa körningstimmar per körning = 10 min | 10 min/60 min körning av extern pipelineaktivitet |
Prisexempel: Exempel på priskalkylator
Total prissättning för scenario i 30 dagar: 41,03 USD
Relaterat innehåll
- Prisexempel: Kopiera data från AWS S3 till Azure Blob Storage per timme i 30 dagar
- Prisexempel: Kopiera data och transformera med Azure Databricks per timme i 30 dagar
- Prisexempel: Köra SSIS-paket på Azure-SSIS Integration Runtime
- Prisexempel: Använda felsökning av dataflödesmappning för en normal arbetsdag
- Prisexempel: Transformera data i bloblager med mappning av dataflöden
- Prisexempel: Dataintegrering i Azure Data Factory Managed VNET
- Prisexempel: Hämta deltadata från SAP ECC via SAP CDC i mappning av dataflöden