Abrindo um Notebook Jupyter no cluster HDInsight Spark
Depois que o cluster HDInsight Spark for criado, você poderá executar consultas ou trabalhos interativos do Spark SQL em um cluster Apache Spark no Azure HDInsight. Para fazer isso, você deve primeiro criar um bloco de anotações. Um notebook é um editor interativo que permite que Engenheiros de Dados e Cientistas de Dados usem uma variedade de linguagens para interagir com dados. Isso pode incluir Python, SQL, Scala e outras linguagens. O HDInsight suporta Jupyter, Zeppelin e Livy para interagir com dados. O nível de interação depende da carga de trabalho que você está gerenciando.
O Apache Spark no HDInsight suporta as seguintes cargas de trabalho:
Análise de dados interativa e BI
Você pode usar um bloco de anotações para ingerir dados não estruturados/semiestruturados e, em seguida, definir um esquema dentro do bloco de anotações. Em seguida, você pode usar o esquema para criar um modelo em ferramentas como o Power BI que permitirá que os usuários corporativos executem a análise de dados nos dados no bloco de anotações
Spark Machine Learning
Você pode usar um bloco de anotações para trabalhar com MLlib (uma biblioteca de aprendizado de máquina construída sobre o Spark) para criar aplicativos de aprendizado de máquina
Análise de dados de transmissão em fluxo e em tempo real do Spark
Os clusters do Spark no HDInsight oferecem um suporte avançado para a criação de soluções de análise em tempo real. Enquanto o Spark já tem conectores para ingerir dados de muitas fontes, como soquetes Kafka, Flume, X, ZeroMQ ou TCP, o Spark no HDInsight adiciona suporte de primeira classe para a ingestão de dados dos Hubs de Eventos do Azure.
Criar um bloco de notas do Jupyter
Use as etapas a seguir para criar um bloco de anotações Jupyter no portal do Azure.
No portal, na seção Painéis de cluster, selecione Jupyter Notebook. Se solicitado, insira as credenciais de login do cluster para o cluster.
Selecione Novo > PySpark para criar um bloco de anotações.
Um novo bloco de anotações é criado e aberto com o nome Sem título (Untitled.pynb) que permite que você comece a criar trabalhos estão executando consultas