Como abrir um Jupyter Notebook no cluster do Spark para HDInsight
Depois que o cluster do Spark para HDInsight for criado, você poderá executar trabalhos ou consultas SQL do Spark interativos com relação a um cluster do Apache Spark no Azure HDInsight. Para fazer isso, primeiro crie um notebook. Um notebook é um editor interativo que permite que os engenheiros de dados e os cientistas de dados usem uma variedade de linguagens para interagir com os dados. Isso pode incluir Python, SQL, Scala e outras linguagens. O HDInsight dá suporte a Jupyter, Zeppelin e Livy para interagir com os dados. O nível de interação depende da carga de trabalho que você está gerenciando.
O Apache Spark no HDInsight dá suporte às seguintes cargas de trabalho:
Análise de dados interativa e BI
Você pode usar um notebook para ingerir dados não estruturados/semiestruturados e definir um esquema dentro do notebook. Você pode usar o esquema para criar um modelo em ferramentas como o Power BI, que permitirá que os usuários empresariais executem análise de dados nos dados no notebook
Machine Learning do Spark
Você pode usar um notebook para trabalhar com MLlib, (uma biblioteca de machine learning criada com base no Spark) para criar aplicativos de machine learning
Análise de dados de streaming e em tempo real do Spark
Os clusters Spark no HDInsight dão suporte avançado para criar soluções de análise em tempo real. Embora o Spark já tenha conectores para ingerir dados de várias fontes, como Kafka, Flume, X, ZeroMQ ou soquetes TCP, o Spark no HDInsight adiciona suporte de primeira classe para ingerir dados dos Hubs de Eventos do Azure.
Criar um notebook Jupyter
Usar as etapas a seguir para criar um Jupyter Notebook no portal do Azure.
No portal, na seção Painéis de cluster, selecione Jupyter Notebook. Em caso de solicitação, insira as credenciais de logon do cluster para o cluster em questão.
Selecione Novo > PySpark para criar um notebook.
Um notebook é criado e aberto com o nome Untitled (Untitled.pynb) que permite que você comece a criar trabalhos que estão executando consultas