Referenz für Apache Spark-APIs
Azure Databricks basiert auf Apache Spark, einem einheitlichen Analysemodul für Big Data und maschinelles Lernen. Weitere Informationen finden Sie unter Apache Spark auf Azure Databricks.
Apache Spark verfügt über DataFrame-APIs für den Betrieb mit großen Datasets, die über 100 Operatoren in mehreren Sprachen umfassen.
- PySpark-APIs für Python-Entwickler. Siehe Tutorial: Laden und Transformieren von Daten mithilfe von Apache Spark DataFrames. Zu den wichtigsten Klassen gehören:
- SparkSession – der Einstiegspunkt in die Programmierung von Spark mit dem Dataset und der DataFrame-API.
- DataFrame – eine verteilte Sammlung von Daten, die in benannten Spalten organisiert sind. Weitere Informationen finden Sie unter DataFrames und MLlib (DataFrame-based) (MLlib auf DataFrame-Basis).
- (Veraltet) SparkR-APIs für R-Entwickler. Zu den wichtigsten Klassen gehören:
- SparkSession – SparkSession ist der Einstiegspunkt in SparkR. Informationen finden Sie unter Ausgangspunkt: SparkSession.
- SparkDataFrame – eine verteilte Sammlung von Daten, die in benannten Spalten organisiert sind. Informationen finden Sie unter Datasets und DataFrames, Erstellen von DataFrames und Erstellen von SparkDataFrames.
- Scala-APIs für Scala-Entwickler. Zu den wichtigsten Klassen gehören:
- SparkSession – der Einstiegspunkt in die Programmierung von Spark mit dem Dataset und der DataFrame-API. Informationen finden Sie unter Ausgangspunkt: SparkSession.
- Dataset – Eine stark typisierte Sammlung von domänenspezifischen Objekten, die parallel mit funktionalen oder relationalen Vorgängen transformiert werden können. Jedes
Dataset
verfügt auch über eine nicht typisierte Ansicht namens „DataFrame“, die einDataset
der Zeile ist. Informationen finden Sie unter Datasets und DataFrames, Erstellen von Datasets, Erstellen von DataFrames und DataFrame-Funktionen.
- Java-APIs für Java-Entwickler. Zu den wichtigsten Klassen gehören:
- SparkSession – der Einstiegspunkt in die Programmierung von Spark mit dem Dataset und der DataFrame-API. Informationen finden Sie unter Ausgangspunkt: SparkSession.
- Dataset – Eine stark typisierte Sammlung von domänenspezifischen Objekten, die parallel mit funktionalen oder relationalen Vorgängen transformiert werden können. Jedes
Dataset
verfügt auch über eine nicht typisierte Ansicht namens „DataFrame“, die einDataset
der Zeile ist. Informationen finden Sie unter Datasets und DataFrames, Erstellen von Datasets, Erstellen von DataFrames und DataFrame-Funktionen.
Informationen zur Verwendung der Apache Spark-APIs in Azure Databricks finden Sie unter:
- PySpark in Azure Databricks
- Azure Databricks für R-Entwickler
- Azure Databricks für Scala-Entwickler
- Für Java können Sie Java-Code als JAR-Auftrag ausführen.