Inleiding
Apache Spark biedt een krachtig platform voor het uitvoeren van gegevensopschonings- en transformatietaken op grote hoeveelheden gegevens. Met behulp van het Spark-dataframe-object kunt u eenvoudig gegevens laden uit bestanden in een data lake en complexe wijzigingen uitvoeren. Vervolgens kunt u de getransformeerde gegevens weer opslaan in de data lake voor downstreamverwerking of -opname in een datawarehouse.
Azure Synapse Analytics biedt Apache Spark-pools waarmee u Spark-workloads kunt uitvoeren om gegevens te transformeren als onderdeel van een gegevensopname- en voorbereidingsworkload. U kunt systeemeigen ondersteunde notebooks gebruiken om code te schrijven en uit te voeren in een Spark-pool om gegevens voor te bereiden op analyse. U kunt vervolgens andere mogelijkheden van Azure Synapse Analytics gebruiken, zoals SQL-pools, om te werken met de getransformeerde gegevens.