Informazioni di riferimento sulle API per Apache Spark
Azure Databricks si basa su Apache Spark, un motore di analisi unificato per Big Data e Machine Learning. Per altre informazioni, vedere Apache Spark in Azure Databricks.
Apache Spark include API dataframe per l'uso su set di dati di grandi dimensioni, che includono più di 100 operatori, in diversi linguaggi.
- API PySpark per sviluppatori Python. Vedere Esercitazione: Caricare e trasformare i dati con dataframe Apache Spark. Le classi chiave includono:
- SparkSession : punto di ingresso per la programmazione di Spark con l'API Dataset e DataFrame.
- DataFrame : raccolta distribuita di dati raggruppati in colonne denominate. Vedere DataFrame e MLlib basato su dataframe.
- API SparkR per sviluppatori R. Le classi chiave includono:
- SparkSession: SparkSession è il punto di ingresso in SparkR. Vedere Punto di partenza: SparkSession.
- SparkDataFrame : raccolta distribuita di dati raggruppati in colonne denominate. Vedere Set di dati e dataframe, creazione di dataframe e creazione di frame di dati SparkDataFrame.
- API Scala per sviluppatori Scala. Le classi chiave includono:
- SparkSession : punto di ingresso per la programmazione di Spark con l'API Dataset e DataFrame. Vedere Punto di partenza: SparkSession.
- Set di dati : raccolta fortemente tipizzata di oggetti specifici del dominio che possono essere trasformati in parallelo tramite operazioni funzionali o relazionali. Ogni oggetto
Dataset
ha anche una vista non tipizzato denominata dataframe, ovvero unDataset
oggetto Row. Vedere Set di dati e dataframe, creazione di set di dati, creazione di dataframe e funzioni del dataframe.
- API Java per sviluppatori Java. Le classi chiave includono:
- SparkSession : punto di ingresso per la programmazione di Spark con l'API Dataset e DataFrame. Vedere Punto di partenza: SparkSession.
- Set di dati : raccolta fortemente tipizzata di oggetti specifici del dominio che possono essere trasformati in parallelo tramite operazioni funzionali o relazionali. Ogni oggetto
Dataset
ha anche una vista non tipizzato denominata dataframe, ovvero unDataset
oggetto Row. Vedere Set di dati e dataframe, creazione di set di dati, creazione di dataframe e funzioni del dataframe.
Per informazioni su come usare le API Apache Spark in Azure Databricks, vedere:
- PySpark in Azure Databricks
- Azure Databricks per sviluppatori R
- Azure Databricks per sviluppatori Scala
- Per Java, è possibile eseguire il codice Java come processo JAR.