Uso de Spark en cuadernos

6 minutos

Puedes ejecutar muchos tipos diferentes de aplicaciones en Spark, incluido el código en scripts de Python o Scala, el código de Java compilado como un archivo Java (JAR) y otros. Spark se usa normalmente en dos tipos de cargas de trabajo:

Trabajos de procesamiento por lotes o flujos para ingerir, limpiar y transformar datos, que a menudo se ejecutan como parte de una canalización automatizada.
Sesiones de análisis interactivas para explorar, analizar y visualizar datos.

Ejecución de código de Spark en cuadernos

Azure Databricks incluye una interfaz de cuaderno integrada para trabajar con Spark. Los cuadernos proporcionan una manera intuitiva de combinar código con notas de Markdown, que suelen usar los científicos de datos y los analistas de datos. El aspecto de la experiencia de cuadernos integrada en Azure Databricks es muy parecida a la de los cuadernos de Jupyter Notebook: un plataforma popular de cuadernos de código abierto.

Captura de pantalla de un cuaderno en Azure Databricks.

Los cuadernos constan de una o varias celdas, y cada una contiene código o Markdown. Las celdas de código de los cuadernos tienen algunas características que pueden ayudarte a ser más productivo, incluidas las siguientes:

Resaltado de sintaxis y compatibilidad con errores.
Finalización automática del código.
Visualización de datos interactivos.
Posibilidad de exportar los resultados.

Sugerencia

Para obtener más información sobre cómo trabajar con cuadernos en Azure Databricks, consulte el artículo Cuadernos en la documentación de Azure Databricks.

Uso de Spark en cuadernos

Ejecución de código de Spark en cuadernos

Comentarios