使用 Azure Synapse Apache Spark 池执行数据工程

中级
数据工程师
Azure Synapse Analytics

Apache Spark 是一种高度可缩放的分布式处理解决方案,用于大数据分析和转换。 可以使用 Spark 池在 Azure Synapse Analytics 中利用其功能。

先决条件

在开始此学习路径之前,你应该已熟悉 Azure Synapse Analytics。 请考虑先完成 Azure Synapse Analytics 简介模块。

本学习路径中的模块

Apache Spark 是用于大规模数据分析的核心技术。 了解如何在 Azure Synapse Analytics 中使用 Spark 来分析和直观呈现数据湖中的数据。

数据工程师通常需要转换大量数据。 Azure Synapse Analytics 中的 Apache Spark 池提供可用于实现此目标的分布式处理平台。

Delta Lake 是 Spark 的一个开放源代码关系存储区域,可用于在 Azure Synapse Analytics 中实现 Data Lakehouse 体系结构。