Apache Spark API のリファレンス
Azure Databricks は、ビッグ データと機械学習用の統合分析エンジンである Apache Spark 上に構築されています。 詳しくは、「Azure Databricks における Apache Spark」をご覧ください。
Apache Spark には、複数の言語の、100 を超える演算子を含む、大規模なデータセットを操作するための DataFrame API があります。
- Python 開発者向けの PySpark API。 「チュートリアル: Apache Spark DataFrames を使用してデータを読み込んで変換する」を参照してください。 主なクラスは次のとおりです。
- SparkSession - データセットとデータ フレーム API を使用して Spark をプログラミングするためのエントリ ポイントです。
- DataFrame - 名前付き columnsにグループ化されたデータの分散コレクション。 「DataFrames」と DataFrame ベースの MLlib に関するページをご覧ください。
- (非推奨) R 開発者向けの SparkR APIs。 主なクラスは次のとおりです。
- SparkSession - SparkSession は SparkR へのエントリ ポイントです。 「Starting Point: SparkSession (開始点: SparkSession)」を参照してください。
- SparkDataFrame - 名前付き columnsにグループ化されたデータの分散コレクション。 「Datasets and DataFrames (データセットとデータフレーム)」、「Creating DataFrames (データフレームの作成)」、および「Creating SparkDataFrames (SparkDataFrames の作成)」を参照してください。
- Scala 開発者向けの Scala API。 主なクラスは次のとおりです。
- SparkSession - データセットとデータ フレーム API を使用して Spark をプログラミングするためのエントリ ポイントです。 「Starting Point: SparkSession (開始点: SparkSession)」を参照してください。
- Dataset - 機能またはリレーショナル操作を使用して並列に変換できる、ドメイン固有のオブジェクトの厳密に型指定されたコレクションです。 各
Dataset
には、Dataset
の である、データ フレームと呼ばれる型指定されていないビューもあります。 「Datasets and DataFrames (データセットとデータ フレーム)」、「Creating Datasets (データセットの作成)」、「Creating DataFrames (データ フレームの作成)」、および「DataFrame Functions (データ フレーム関数)」を参照してください。
- Java 開発者向けの Java API。 主なクラスは次のとおりです。
- SparkSession - データセットとデータ フレーム API を使用して Spark をプログラミングするためのエントリ ポイントです。 「Starting Point: SparkSession (開始点: SparkSession)」を参照してください。
- Dataset - 機能またはリレーショナル操作を使用して並列に変換できる、ドメイン固有のオブジェクトの厳密に型指定されたコレクションです。 各
Dataset
には、Dataset
の である、データ フレームと呼ばれる型指定されていないビューもあります。 「Datasets and DataFrames (データセットとデータ フレーム)」、「Creating Datasets (データセットの作成)」、「Creating DataFrames (データ フレームの作成)」、および「DataFrame Functions (データ フレーム関数)」を参照してください。
Azure Databricks で Apache Spark API を使用する方法については、次を参照してください。
- Azure Databricks の PySpark
- R 開発者向けの Azure Databricks
- Scala 開発者向け Azure Databricks
- Java の場合は、JAVA コードを JAR ジョブとして実行できます。