Einführung
Apache Spark bietet eine leistungsstarke Plattform zum Ausführen von Datenbereinigungs- und Transformationsaufgaben für große Datenmengen. Mithilfe des Spark-Dataframeobjekts können Sie Daten problemlos aus Dateien in einem Data Lake laden und komplexe Änderungen durchführen. Anschließend können Sie die transformierten Daten zur weiteren Verarbeitung oder Erfassung in einem Data Warehouse im Data Lake speichern.
Azure Synapse Analytics stellt Apache Spark-Pools bereit, mit denen Sie Spark-Workloads ausführen können, um Daten im Rahmen einer Datenerfassungs- und Aufbereitungsworkload zu transformieren. Sie können nativ unterstützte Notebooks verwenden, um Code in einem Spark-Pool zu schreiben und auszuführen und die Daten für die Analyse vorzubereiten. Anschließend können Sie andere Azure Synapse Analytics-Funktionen wie SQL-Pools verwenden, um mit den transformierten Daten zu arbeiten.