简介
Apache Spark 提供了一个功能强大的平台,用于对大量数据执行数据清理和转换任务。 通过使用 Spark dataframe 对象,可以轻松地从 Data Lake 中的文件加载数据并执行复杂的修改操作。 然后,可以将转换后的数据保存回 Data Lake,以供下游处理或引入到数据仓库中。
Azure Synapse Analytics 提供了 Apache Spark 池,你可使用该池来运行 Spark 工作负载,以将数据作为数据引入和准备工作负载的一部分进行转换。 你可使用本机支持的笔记本在 Spark 池上编写和运行代码,以便准备要分析的数据。 然后,可以使用其他 Azure Synapse Analytics 功能(例如 SQL 池)来处理转换后的数据。