Dokumentacja interfejsów API platformy Apache Spark
Usługa Azure Databricks jest oparta na platformie Apache Spark, ujednoliconym aucie analitycznym na potrzeby danych big data i uczenia maszynowego. Aby uzyskać więcej informacji, zobacz Apache Spark w usłudze Azure Databricks.
Platforma Apache Spark ma interfejsy API ramki danych do obsługi dużych zestawów danych, które obejmują ponad 100 operatorów w kilku językach.
- Interfejsy API PySpark dla deweloperów języka Python. Zobacz Samouczek: ładowanie i przekształcanie danych przy użyciu ramek danych platformy Apache Spark. Klasy kluczy obejmują:
- SparkSession — punkt wejścia do programowania platformy Spark przy użyciu interfejsu API zestawu danych i ramki danych.
- DataFrame — rozproszona kolekcja danych pogrupowana w nazwane kolumny. Zobacz Ramki danych i biblioteki MLlib oparte na ramce danych.
- Interfejsy API platformy SparkR dla deweloperów języka R. Klasy kluczy obejmują:
- SparkSession — SparkSession to punkt wejścia do platformy SparkR. Zobacz Punkt początkowy: SparkSession.
- SparkDataFrame — rozproszona kolekcja danych pogrupowana w nazwane kolumny. Zobacz Zestawy danych i ramki danych, Tworzenie ramek danych i Tworzenie ramek SparkDataFrame.
- Interfejsy API języka Scala dla deweloperów języka Scala. Klasy kluczy obejmują:
- SparkSession — punkt wejścia do programowania platformy Spark przy użyciu interfejsu API zestawu danych i ramki danych. Zobacz Punkt początkowy: SparkSession.
- Zestaw danych — silnie typizowana kolekcja obiektów specyficznych dla domeny, które mogą być przekształcane równolegle przy użyciu operacji funkcjonalnych lub relacyjnych. Każdy z nich
Dataset
ma również nietypowy widok nazywany ramką danych, która jest wierszemDataset
. Zobacz Temat Datasets and DataFrames (Zestawy danych i ramki danych), Creating Datasets (Tworzenie zestawów danych), Creating DataFrames (Tworzenie zestawów danych), Creating DataFrames (Tworzenie zestawów danych), Creating DataFrames (Tworzenie ramek danych) i DataFrame (Ramki danych).
- Interfejsy API języka Java dla deweloperów języka Java. Klasy kluczy obejmują:
- SparkSession — punkt wejścia do programowania platformy Spark przy użyciu interfejsu API zestawu danych i ramki danych. Zobacz Punkt początkowy: SparkSession.
- Zestaw danych — silnie typizowana kolekcja obiektów specyficznych dla domeny, które mogą być przekształcane równolegle przy użyciu operacji funkcjonalnych lub relacyjnych. Każdy z nich
Dataset
ma również nietypowy widok nazywany ramką danych, która jest wierszemDataset
. Zobacz Temat Datasets and DataFrames (Zestawy danych i ramki danych), Creating Datasets (Tworzenie zestawów danych), Creating DataFrames (Tworzenie zestawów danych), Creating DataFrames (Tworzenie zestawów danych), Creating DataFrames (Tworzenie ramek danych) i DataFrame (Ramki danych).
Aby dowiedzieć się, jak używać interfejsów API platformy Apache Spark w usłudze Azure Databricks, zobacz:
- PySpark w usłudze Azure Databricks
- Usługa Azure Databricks dla deweloperów języka R
- Usługa Azure Databricks dla deweloperów języka Scala
- W przypadku języka Java możesz uruchomić kod Java jako zadanie JAR.