Apertura de un cuaderno de Jupyter Notebook en el clúster de HDInsight Spark
Una vez que cree el clúster de HDInsight Spark, podrá ejecutar consultas o trabajos de Spark SQL interactivos en un clúster de Apache Spark en Azure HDInsight. Para ello, primero debe crear un cuaderno. Un cuaderno es un editor interactivo que permite a los ingenieros y científicos de datos usar diversos lenguajes para interactuar con los datos. Esto puede incluir Python, SQL, Scala y otros lenguajes. HDInsight es compatible con Jupyter, Zeppelin y Livy para interactuar con los datos. El nivel de interacción depende de la carga de trabajo que se administre.
Apache Spark en HDInsight admite las siguientes cargas de trabajo:
Análisis interactivo de datos y BI
Puede usar un cuaderno para ingerir datos no estructurados o semiestructurados y, luego, definir un esquema dentro del cuaderno. Después, puede usar el esquema para crear en herramientas como Power BI un modelo que permita a los usuarios profesionales realizar el análisis de los datos del cuaderno.
Machine Learning con Spark
Puede usar un cuaderno para trabajar con MLlib (una biblioteca de aprendizaje automático basada en Spark) para crear aplicaciones de aprendizaje automático.
Streaming y análisis de datos en tiempo real con Spark
Los clústeres de Spark en HDInsight ofrecen amplia compatibilidad para crear soluciones de análisis en tiempo real. Mientras que Spark ya tiene conectores para la ingesta de datos desde varios orígenes como Kafka, Flume, X, ZeroMQ o sockets TCP, Spark en HDInsight agrega compatibilidad de primera clase para la ingesta de datos desde Azure Event Hubs.
Creación de un cuaderno de Jupyter
Siga estos pasos para crear un cuaderno de Jupyter Notebook en Azure Portal.
En el portal, en la sección Paneles de clúster, seleccione Jupyter Notebook. Si se le pide, escriba las credenciales de inicio de sesión del clúster.
Seleccione Nuevo > PySpark para crear un cuaderno.
Se creará un cuaderno y se abrirá con el nombre Untitled (Untitled.pynb), con el que podrá empezar a crear trabajos y ejecutar consultas.