Gegevens transformeren met Spark in Azure Synapse Analytics

Gevorderd
Data Engineer
Azure Synapse Analytics

Data engineers moeten vaak grote hoeveelheden gegevens transformeren. Apache Spark-pools in Azure Synapse Analytics bieden een gedistribueerd verwerkingsplatform dat ze kunnen gebruiken om dit doel te bereiken.

Leerdoelen

In deze module leert u het volgende:

  • Apache Spark gebruiken om dataframes te wijzigen en op te slaan
  • Partitiegegevensbestanden voor verbeterde prestaties en schaalbaarheid.
  • Gegevens transformeren met SQL

Vereisten

Voordat u deze module gebruikt, moet u bekend zijn met Apache Spark-pools in Azure Synapse Analytics. Overweeg eerst de analysegegevens met Apache Spark in Azure Synapse Analytics-module te voltooien.