Referencia de las API de Apache Spark
Azure Databricks se basa en Apache Spark, un motor de análisis unificado para macrodatos y aprendizaje automático. Para más información, consulte Apache Spark en Azure Databricks.
Apache Spark tiene API de DataFrame para operar en grandes conjuntos de datos, que incluyen más de 100 operadores, en varios idiomas.
- API de PySpark para desarrolladores de Python. Consulte Tutorial: Carga y transformación de datos mediante DataFrames de Apache Spark. Las clases clave son las siguientes:
- SparkSession es el punto de entrada para programar Spark con la API de DataFrame y de DataSet.
- DataFrame: una colección distribuida de datos que se agrupan en columnas con nombre. Consulte DataFrames y MLlib basado en DataFrame.
- API de SparkR para desarrolladores de R. Las clases clave son las siguientes:
- SparkSession: SparkSession es el punto de entrada en SparkR. Consulte Punto de partida: SparkSession.
- SparkDataFrame es una colección distribuida de datos que se agrupan en columnas con nombre. Consulte Conjuntos de datos y DataFrames, Creación de DataFrames y Creación de SparkDataFrames.
- API de Scala para desarrolladores de Scala. Las clases clave son las siguientes:
- SparkSession es el punto de entrada para programar Spark con la API de DataFrame y de DataSet. Consulte Punto de partida: SparkSession.
- Conjunto de datos es una colección fuertemente tipada de objetos específicos del dominio que se pueden transformar en paralelo mediante operaciones funcionales o relacionales. Cada
Dataset
también tiene una vista sin tipo denominada DataFrame, que es unDataset
de Fila. Consulte Conjuntos de datos y DataFrames, Creación de conjuntos de datos, Creación de DataFrame y Funciones de DataFrame.
- API de Java para desarrolladores de Java. Las clases clave son las siguientes:
- SparkSession es el punto de entrada para programar Spark con la API de DataFrame y de DataSet. Consulte Punto de partida: SparkSession.
- Conjunto de datos es una colección fuertemente tipada de objetos específicos del dominio que se pueden transformar en paralelo mediante operaciones funcionales o relacionales. Cada
Dataset
también tiene una vista sin tipo denominada DataFrame, que es unDataset
de Fila. Consulte Conjuntos de datos y DataFrames, Creación de conjuntos de datos, Creación de DataFrame y Funciones de DataFrame.
Para aprender a usar las API de Apache Spark en Azure Databricks, consulte:
- PySpark en Azure Databricks
- Azure Databricks para desarrolladores de R
- Azure Databricks para desarrolladores de Scala
- Para Java, puede ejecutar código Java como un trabajo de JAR.