Gegevens transformeren met Spark in Azure Synapse Analytics

Module
7 Eenheden

Gevorderd

Data Engineer

Azure Synapse Analytics

Data engineers moeten vaak grote hoeveelheden gegevens transformeren. Apache Spark-pools in Azure Synapse Analytics bieden een gedistribueerd verwerkingsplatform dat ze kunnen gebruiken om dit doel te bereiken.

Leerdoelen

In deze module leert u het volgende:

Apache Spark gebruiken om dataframes te wijzigen en op te slaan
Partitiegegevensbestanden voor verbeterde prestaties en schaalbaarheid.
Gegevens transformeren met SQL

Vereisten

Voordat u deze module gebruikt, moet u bekend zijn met Apache Spark-pools in Azure Synapse Analytics. Overweeg eerst de analysegegevens met Apache Spark in Azure Synapse Analytics-module te voltooien.

Inleiding min
Dataframes wijzigen en opslaan min
Gegevensbestanden partitioneren min
Gegevens transformeren met SQL min
Oefening: Gegevens transformeren met Spark in Azure Synapse Analytics min
Kenniscontrole min
Samenvatting min