Apertura de un cuaderno de Jupyter Notebook en el clúster de HDInsight Spark

Completado

Una vez que cree el clúster de HDInsight Spark, podrá ejecutar consultas o trabajos de Spark SQL interactivos en un clúster de Apache Spark en Azure HDInsight. Para ello, primero debe crear un cuaderno. Un cuaderno es un editor interactivo que permite a los ingenieros y científicos de datos usar diversos lenguajes para interactuar con los datos. Esto puede incluir Python, SQL, Scala y otros lenguajes. HDInsight es compatible con Jupyter, Zeppelin y Livy para interactuar con los datos. El nivel de interacción depende de la carga de trabajo que se administre.

Apache Spark en HDInsight admite las siguientes cargas de trabajo:

Análisis interactivo de datos y BI

Puede usar un cuaderno para ingerir datos no estructurados o semiestructurados y, luego, definir un esquema dentro del cuaderno. Después, puede usar el esquema para crear en herramientas como Power BI un modelo que permita a los usuarios profesionales realizar el análisis de los datos del cuaderno.

Machine Learning con Spark

Puede usar un cuaderno para trabajar con MLlib (una biblioteca de aprendizaje automático basada en Spark) para crear aplicaciones de aprendizaje automático.

Streaming y análisis de datos en tiempo real con Spark

Los clústeres de Spark en HDInsight ofrecen amplia compatibilidad para crear soluciones de análisis en tiempo real. Mientras que Spark ya tiene conectores para la ingesta de datos desde varios orígenes como Kafka, Flume, X, ZeroMQ o sockets TCP, Spark en HDInsight agrega compatibilidad de primera clase para la ingesta de datos desde Azure Event Hubs.

Creación de un cuaderno de Jupyter

Siga estos pasos para crear un cuaderno de Jupyter Notebook en Azure Portal.

  1. En el portal, en la sección Paneles de clúster, seleccione Jupyter Notebook. Si se le pide, escriba las credenciales de inicio de sesión del clúster.

    Selección del cuaderno de Jupyter Notebook en Azure Portal

  2. Seleccione Nuevo > PySpark para crear un cuaderno.

    Captura de pantalla de un cuaderno de Jupyter Notebook

  3. Se creará un cuaderno y se abrirá con el nombre Untitled (Untitled.pynb), con el que podrá empezar a crear trabajos y ejecutar consultas.