Referenční informace pro rozhraní Apache Spark API
Azure Databricks je založený na Apache Sparku, což je jednotný analytický modul pro velké objemy dat a strojové učení. Další informace najdete v tématu Apache Spark v Azure Databricks.
Apache Spark má rozhraní API datového rámce pro provoz velkých datových sad, které zahrnují více než 100 operátorů v několika jazycích.
-
Rozhraní API PySpark pro vývojáře v Pythonu Viz kurz: Načtení a transformace dat pomocí datových rámců Apache Spark. Mezi klíčové třídy patří:
- SparkSession – vstupní bod pro programování Sparku pomocí rozhraní API datové sady a datového rámce.
- datový rámec – rozdělená kolekce dat seskupená do pojmenovaných columns. Viz datové rámce a MLlib založené na datových rámcích.
- (Zastaralé) rozhraní API SparkR pro vývojáře jazyka R. Mezi klíčové třídy patří:
- SparkSession – SparkSession je vstupní bod do SparkR. Viz počáteční bod: SparkSession.
- SparkDataFrame – distribuovaná kolekce dat organizovaná pojmenovaným způsobem columns. Viz Datové sady a datové rámce, vytváření datových rámců a vytváření datových rámců SparkDataFrame.
-
Rozhraní API Scala pro vývojáře v jazyce Scala Mezi klíčové třídy patří:
- SparkSession – vstupní bod pro programování Sparku pomocí rozhraní API datové sady a datového rámce. Viz počáteční bod: SparkSession.
-
Datová sada – kolekce objektů specifických pro konkrétní doménu, které je možné transformovat paralelně pomocí funkčních nebo relačních operací. Každý z nich
Dataset
má také netypové zobrazení označované jako datový rámec, což jeDataset
řádek. Viz Datové sady a datové rámce, vytváření datových sad, vytváření datových rámců a funkce datového rámce.
-
Rozhraní JAVA API pro vývojáře v Javě Mezi klíčové třídy patří:
- SparkSession – vstupní bod pro programování Sparku pomocí rozhraní API datové sady a datového rámce. Viz počáteční bod: SparkSession.
-
Datová sada – kolekce objektů specifických pro konkrétní doménu, které je možné transformovat paralelně pomocí funkčních nebo relačních operací. Každý z nich
Dataset
má také netypové zobrazení označované jako datový rámec, což jeDataset
řádek. Viz Datové sady a datové rámce, vytváření datových sad, vytváření datových rámců a funkce datového rámce.
Informace o používání rozhraní Apache Spark API v Azure Databricks najdete tady:
- PySpark v Azure Databricks
- Azure Databricks pro vývojáře V
- Azure Databricks pro vývojáře scaly
- Pro Javu můžete spustit kód Java jako úlohu JAR.