簡介
Azure Databricks 提供高度可調整的平台,以使用 Apache Spark 進行資料分析和處理。
Spark 是一個彈性平台,可支援許多不同的程式設計語言和 API。 藉由設定 Databricks 工作區和部署 Spark 叢集,使用者可以輕鬆地將數據從 Azure Data Lake 或 Cosmos DB 等各種來源擷取到 Spark DataFrame。 在互動式 Databricks 筆記本內,使用者可以使用 Spark 的 DataFrame API 來執行複雜的數據轉換,其中包括篩選、分組和匯總等作業。 大部分的資料處理和分析工作都可以使用 Dataframe API 來完成,我們將在本課程模組中專注於此 API。
在本課程模組中,您將了解如何:
- 描述 Apache Spark 結構的重要元素。
- 建立和設定 Spark 叢集。
- 描述 Spark 的使用案例。
- 使用 Spark 來處理和分析儲存在檔案中的資料。
- 使用 Spark 將資料視覺化。