Partilhar via


Tutorial: Capture dados de Hubs de Eventos em formato parquet e analise com o Azure Synapse Analytics

Este tutorial mostra como usar o editor sem código do Stream Analytics para criar um trabalho que captura dados de Hubs de Eventos no Azure Data Lake Storage Gen2 no formato parquet.

Neste tutorial, irá aprender a:

  • Implantar um gerador de eventos que envia eventos de exemplo para um hub de eventos
  • Criar um trabalho do Stream Analytics usando o editor sem código
  • Revisar dados de entrada e esquema
  • Configurar o Azure Data Lake Storage Gen2 para o qual os dados do hub de eventos serão capturados
  • Executar a tarefa do Stream Analytics
  • Usar o Azure Synapse Analytics para consultar os arquivos de parquet

Pré-requisitos

Antes de começar, certifique-se de que concluiu os seguintes passos:

Não use nenhum editor de código para criar um trabalho do Stream Analytics

  1. Localize o Grupo de Recursos no qual o gerador de eventos TollApp foi implantado.

  2. Selecione o namespace Hubs de Eventos do Azure. Talvez você queira abri-lo em uma guia separada ou em uma janela.

  3. Na página de namespace Hubs de Eventos, selecione Hubs de Eventos em Entidades no menu à esquerda.

  4. Selecione a entrystream instância.

    Captura de tela mostrando a seleção do hub de eventos.

  5. Na página de instância de Hubs de Eventos, selecione Processar dados na seção Recursos no menu à esquerda.

  6. Selecione Iniciar no bloco Capturar dados para ADLS Gen2 no formato Parquet.

    Captura de ecrã a mostrar a seleção do mosaico **Capturar dados para ADLS Gen2 em formato Parquet**.

  7. Nomeie seu trabalho parquetcapture e selecione Criar.

    Captura de ecrã da página de trabalho do New Stream Analytics.

  8. Na página de configuração do hub de eventos, siga estas etapas:

    1. Em Grupo de consumidores, selecione Usar existente.

    2. Confirme se $Default o grupo de consumidores está selecionado.

    3. Confirme se Serialização está definido como JSON.

    4. Confirme se o método de autenticação está definido como Cadeia de conexão.

    5. Confirme se o nome da chave de acesso compartilhado do hub de eventos está definido como RootManageSharedAccessKey.

    6. Selecione Conectar na parte inferior da janela.

      Captura de ecrã da página de configuração do seu hub de eventos.

  9. Dentro de alguns segundos, você verá dados de entrada de exemplo e o esquema. Você pode optar por soltar campos, renomear campos ou alterar o tipo de dados.

    Captura de ecrã a mostrar os campos e a pré-visualização dos dados.

  10. Selecione o bloco Azure Data Lake Storage Gen2 em sua tela e configure-o especificando

    • Subscrição em que a sua conta do Azure Data Lake Gen2 está localizada

    • Nome da conta de armazenamento, que deve ser a mesma conta do ADLS Gen2 usada com seu espaço de trabalho do Azure Synapse Analytics feito na seção Pré-requisitos.

    • Contêiner dentro do qual os arquivos do Parquet serão criados.

    • Para Caminho da tabela Delta, especifique um nome para a tabela.

    • Padrão de data e hora como o padrão aaaa-mm-dd e HH.

    • Selecione Ligar

      Captura de tela mostrando as definições de configuração para o Armazenamento Data Lake.

  11. Selecione Guardar no friso superior para guardar o seu trabalho e, em seguida, selecione Iniciar para executar o seu trabalho. Quando o trabalho for iniciado, selecione X no canto direito para fechar a página de trabalho do Stream Analytics.

    Captura de tela mostrando a página Iniciar trabalho do Stream Analytics.

  12. Em seguida, você verá uma lista de todos os trabalhos do Stream Analytics criados usando o editor sem código. E dentro de dois minutos, seu trabalho irá para um estado de execução . Selecione o botão Atualizar na página para ver o status mudando de Criado -> Iniciando -> Em execução.

    Captura de tela mostrando a lista de trabalhos do Stream Analytics.

Ver a saída na sua conta do Azure Data Lake Storage Gen 2

  1. Localize a conta do Azure Data Lake Storage Gen2 que você usou na etapa anterior.

  2. Selecione o contêiner que você usou na etapa anterior. Você verá os arquivos parquet criados na pasta especificada anteriormente.

    Captura de tela mostrando os arquivos de parquet capturados no Azure Data Lake Storage Gen 2.

Consultar dados capturados no formato Parquet com o Azure Synapse Analytics

Consulta usando o Azure Synapse Spark

  1. Localize seu espaço de trabalho do Azure Synapse Analytics e abra o Synapse Studio.

  2. Crie um pool do Apache Spark sem servidor em seu espaço de trabalho, se ainda não existir.

  3. No Synapse Studio, vá para o hub Develop e crie um novo Notebook.

    Captura de tela mostrando o Synapse Studio.

  4. Crie uma nova célula de código e cole o seguinte código nessa célula. Substitua container e adlsname pelo nome do contêiner e da conta ADLS Gen2 usados na etapa anterior.

    %%pyspark
    df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*.parquet', format='parquet')
    display(df.limit(10))
    df.count()
    df.printSchema()
    
  5. Em Anexar a na barra de ferramentas, selecione seu pool do Spark na lista suspensa.

  6. Selecione Executar tudo para ver os resultados

    Captura de ecrã dos resultados da execução de faíscas no Azure Synapse Analytics.

Consulta usando o Azure Synapse Serverless SQL

  1. No hub Desenvolver, crie um novo script SQL.

    Captura de tela mostrando a página Desenvolver com o novo menu de script SQL selecionado.

  2. Cole o script a seguir e execute-o usando o ponto de extremidade SQL sem servidor interno. Substitua container e adlsname pelo nome do contêiner e da conta ADLS Gen2 usados na etapa anterior.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://adlsname.dfs.core.windows.net/container/*/*.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    

    Captura de ecrã dos resultados do script SQL no Azure Synapse Analytics.

Clean up resources (Limpar recursos)

  1. Localize sua instância de Hubs de Eventos e veja a lista de trabalhos do Stream Analytics na seção Dados de processo . Pare todos os trabalhos que estão em execução.
  2. Vá para o grupo de recursos que você usou ao implantar o gerador de eventos TollApp.
  3. Selecione Eliminar grupo de recursos. Digite o nome do grupo de recursos para confirmar a exclusão.

Próximos passos

Neste tutorial, você aprendeu como criar um trabalho do Stream Analytics usando o editor sem código para capturar fluxos de dados dos Hubs de Eventos no formato Parquet. Em seguida, você usou o Azure Synapse Analytics para consultar os arquivos de parquet usando o Synapse Spark e o Synapse SQL.