簡介

已完成

Azure Databricks 提供高度可調整的平台,以使用 Apache Spark 進行資料分析和處理。

Spark 是一個彈性平台,可支援許多不同的程式設計語言和 API。 藉由設定 Databricks 工作區和部署 Spark 叢集,使用者可以輕鬆地將數據從 Azure Data Lake 或 Cosmos DB 等各種來源擷取到 Spark DataFrame。 在互動式 Databricks 筆記本內,使用者可以使用 Spark 的 DataFrame API 來執行複雜的數據轉換,其中包括篩選、分組和匯總等作業。 大部分的資料處理和分析工作都可以使用 Dataframe API 來完成,我們將在本課程模組中專注於此 API。

在本課程模組中,您將了解如何:

  • 描述 Apache Spark 結構的重要元素。
  • 建立和設定 Spark 叢集。
  • 描述 Spark 的使用案例。
  • 使用 Spark 來處理和分析儲存在檔案中的資料。
  • 使用 Spark 將資料視覺化。