Abrindo um Notebook Jupyter no cluster HDInsight Spark

Concluído

Depois que o cluster HDInsight Spark for criado, você poderá executar consultas ou trabalhos interativos do Spark SQL em um cluster Apache Spark no Azure HDInsight. Para fazer isso, você deve primeiro criar um bloco de anotações. Um notebook é um editor interativo que permite que Engenheiros de Dados e Cientistas de Dados usem uma variedade de linguagens para interagir com dados. Isso pode incluir Python, SQL, Scala e outras linguagens. O HDInsight suporta Jupyter, Zeppelin e Livy para interagir com dados. O nível de interação depende da carga de trabalho que você está gerenciando.

O Apache Spark no HDInsight suporta as seguintes cargas de trabalho:

Análise de dados interativa e BI

Você pode usar um bloco de anotações para ingerir dados não estruturados/semiestruturados e, em seguida, definir um esquema dentro do bloco de anotações. Em seguida, você pode usar o esquema para criar um modelo em ferramentas como o Power BI que permitirá que os usuários corporativos executem a análise de dados nos dados no bloco de anotações

Spark Machine Learning

Você pode usar um bloco de anotações para trabalhar com MLlib (uma biblioteca de aprendizado de máquina construída sobre o Spark) para criar aplicativos de aprendizado de máquina

Análise de dados de transmissão em fluxo e em tempo real do Spark

Os clusters do Spark no HDInsight oferecem um suporte avançado para a criação de soluções de análise em tempo real. Enquanto o Spark já tem conectores para ingerir dados de muitas fontes, como soquetes Kafka, Flume, X, ZeroMQ ou TCP, o Spark no HDInsight adiciona suporte de primeira classe para a ingestão de dados dos Hubs de Eventos do Azure.

Criar um bloco de notas do Jupyter

Use as etapas a seguir para criar um bloco de anotações Jupyter no portal do Azure.

  1. No portal, na seção Painéis de cluster, selecione Jupyter Notebook. Se solicitado, insira as credenciais de login do cluster para o cluster.

    Selecionando seu Jupyter Notebook no portal do Azure

  2. Selecione Novo > PySpark para criar um bloco de anotações.

    Uma captura de tela de um Jupyter Notebook

  3. Um novo bloco de anotações é criado e aberto com o nome Sem título (Untitled.pynb) que permite que você comece a criar trabalhos estão executando consultas