Apache Spark APIs 參考
Azure Databricks 建置在 Apache Spark 之上,這是巨量數據和機器學習的整合分析引擎。 如需詳細資訊,請參閱 Azure Databricks 上的 Apache Spark。
Apache Spark 具有 DataFrame API,可用於在大型數據集上作業,其中包含超過 100 個運算符,且語言超過 100 個。
- 適用於 Python 開發人員的 PySpark API 。 請參閱 教學課程:使用 Apache Spark DataFrame 載入和轉換數據。 主要類別包括:
- SparkSession - 使用數據集和數據框架 API 進行 Spark 程式設計的進入點。
- DataFrame - 分組至具名數據行的分散式數據收集。 請參閱 DataFrames 和 DataFrame 型 MLlib。
- 適用於 R 開發人員的 SparkR API 。 主要類別包括:
- SparkSession - SparkSession 是 SparkR 的進入點。 請參閱 起點:SparkSession。
- SparkDataFrame - 分組至具名數據行的分散式數據收集。 請參閱數據集和數據框架、建立數據框架和建立 SparkDataFrame。
- Scala 開發人員的 Scala API 。 主要類別包括:
- SparkSession - 使用數據集和數據框架 API 進行 Spark 程式設計的進入點。 請參閱 起點:SparkSession。
- 數據集 - 強型別的網域特定物件集合,可使用功能或關係型作業以平行方式轉換。 每個
Dataset
檢視也有一個不具類型的檢視,稱為 DataFrame,也就是Dataset
Row 的 。 請參閱數據集和數據框架、建立數據集、建立數據框架和數據框架函式。
- 適用於Java開發人員的Java API 。 主要類別包括:
- SparkSession - 使用數據集和數據框架 API 進行 Spark 程式設計的進入點。 請參閱 起點:SparkSession。
- 數據集 - 強型別的網域特定物件集合,可使用功能或關係型作業以平行方式轉換。 每個
Dataset
檢視也有一個不具類型的檢視,稱為 DataFrame,也就是Dataset
Row 的 。 請參閱數據集和數據框架、建立數據集、建立數據框架和數據框架函式。
若要瞭解如何在 Azure Databricks 上使用 Apache Spark API,請參閱:
- 在 Azure Databricks 的 PySpark
- 適用於 R 開發人員的 Azure Databricks
- 適用於 Scala 開發人員的 Azure Databricks
- 針對 Java,您可以執行 Java 程式代碼作為 JAR 作業。