Справочник по API Apache Spark
Решение Azure Databricks основано на Apache Spark, единой подсистеме аналитики для больших данных и машинного обучения. Дополнительные сведения см. в статье Apache Spark в Azure Databricks.
Apache Spark имеет API-интерфейсы DataFrame для работы с большими наборами данных, которые включают более 100 операторов на нескольких языках.
-
API PySpark для разработчиков Python. См . руководство. Загрузка и преобразование данных с помощью кадров данных Apache Spark. К ключевым классам относятся:
- SparkSession является точкой входа для программирования Spark через API наборов данных и кадров данных.
- Кадр данных — распределенная коллекция данных, сгруппированных в именованные columns. См. раздел "Кадры данных" и "MLlib на основе кадра данных".
- (Устаревший) API SparkR для разработчиков на R. К ключевым классам относятся:
- SparkSession — это точка входа в SparkR. См. сведения о SparkSession.
- SparkDataFrame — это распределенная коллекция данных, сгруппированных по именам columns. См. сведения о наборах данных и кадрах данных, создании кадров данных и создании кадров данных Spark.
-
API Scala для разработчиков Scala . К ключевым классам относятся:
- SparkSession является точкой входа для программирования Spark через API наборов данных и кадров данных. См. сведения о SparkSession.
-
Набор данных — это строго типизированная коллекция принадлежащих определенному домену объектов, которые можно параллельно преобразовать с помощью функциональных или реляционных операций. Каждый
Dataset
также имеет нетипизированное представление, называемое кадром данных, которое являетсяDataset
для записи. См. сведения о наборах и кадрах данных, создании наборов данных, создании кадров данных и функциях кадров данных.
-
API Java для разработчиков Java. К ключевым классам относятся:
- SparkSession является точкой входа для программирования Spark через API наборов данных и кадров данных. См. сведения о SparkSession.
-
Набор данных — это строго типизированная коллекция принадлежащих определенному домену объектов, которые можно параллельно преобразовать с помощью функциональных или реляционных операций. Каждый
Dataset
также имеет нетипизированное представление, называемое кадром данных, которое являетсяDataset
для записи. См. сведения о наборах и кадрах данных, создании наборов данных, создании кадров данных и функциях кадров данных.
Сведения об использовании API Apache Spark в Azure Databricks см. в следующих статьях:
- PySpark в Azure Databricks
- Azure Databricks для разработчиков R
- Azure Databricks для разработчиков Scala
- Если вы используете Java, вы можете выполнить код Java в виде задания JAR.