介绍

已完成

Apache Spark 是用于大规模数据处理和分析的开源并行处理框架。 Spark 在“大数据”处理方案中非常受欢迎,可在多个平台实现中使用,包括 Azure HDInsight、Azure Databricks 和 Azure Synapse Analytics。

本模块介绍如何在 Azure Synapse Analytics 中使用 Spark 来引入、处理和分析数据湖中的数据。 虽然本模块中介绍的核心技术和代码适用于所有 Spark 实现,但集成工具以及在与其他 Synapse 分析运行时相同的环境中使用 Spark 的功能是特定于 Azure Synapse Analytics 的。

完成此模块后,你将能够:

  • 确定 Apache Spark 的核心特性和功能。
  • 在 Azure Synapse Analytics 中配置 Spark 池。
  • 运行代码,在 Spark 笔记本中加载、分析和直观呈现数据。