Partilhar via


Tutorial: Gravar em uma tabela delta armazenada no Azure Data Lake Storage Gen2

Este tutorial mostra como você pode criar um trabalho do Stream Analytics para gravar em uma tabela Delta no Azure Data Lake Storage Gen2. Neste tutorial, irá aprender a:

  • Implantar um gerador de eventos que envia dados de exemplo para seu hub de eventos
  • Criar uma tarefa do Stream Analytics
  • Configurar o Azure Data Lake Storage Gen2 com uma tabela delta
  • Executar a tarefa do Stream Analytics

Pré-requisitos

Antes de começar, conclua as seguintes etapas:

  • Se não tiver uma subscrição do Azure, crie uma conta gratuita.
  • Implante o gerador de eventos TollApp no Azure, use este link para Implantar o Modelo do Azure TollApp. Defina o parâmetro 'interval' como 1. Crie e use um novo grupo de recursos para esta etapa.
  • Crie uma conta do Data Lake Storage Gen2.

Criar uma tarefa do Stream Analytics

  1. Inicie sessão no portal do Azure.

  2. Selecione Todos os serviços no menu à esquerda.

  3. Mova o mouse sobre os trabalhos do Stream Analytics na seção Analytics e selecione + (mais).

    Captura de tela que mostra a seleção de trabalhos do Stream Analytics na página Todos os serviços.

  4. Selecione Criar um recurso no canto superior esquerdo do portal do Azure.

  5. Selecione Trabalho do Analytics>Stream Analytics na lista de resultados.

  6. Na página de trabalho Novo Stream Analytics , siga estas etapas:

    1. Em Assinatura, selecione sua assinatura do Azure.
    2. Para Grupo de recursos, selecione o mesmo recurso que você usou anteriormente na implantação do TollApp.
    3. Em Nome, insira um nome para o trabalho. O nome da tarefa do Stream Analytics só pode conter carateres alfanuméricos, hífenes e carateres de sublinhado e tem de ter entre 3 a 63 carateres.
    4. Para Ambiente de hospedagem, confirme se a opção Nuvem está selecionada.
    5. Em Unidades de fluxo, selecione 1. As unidades de transmissão em fluxo representam os recursos informáticos que são necessários para executar uma tarefa. Para saber mais sobre o dimensionamento de unidades de transmissão em fluxo, veja o artigo Compreender e ajustar as unidades de transmissão em fluxo.

    Captura de tela que mostra a página de trabalho Criar Stream Analytics.

  7. Selecione Rever + criar na parte inferior da página.

  8. Na página Rever + criar, reveja as definições e selecione Criar para criar uma página do Stream Analytics.

  9. Na página de implantação, selecione Ir para o recurso para navegar até a página de trabalho do Stream Analytics.

Configurar a entrada da tarefa

A próxima etapa é definir uma fonte de entrada para o trabalho ler dados usando o hub de eventos criado na implantação do TollApp.

  1. Encontre o trabalho do Stream Analytics criado na seção anterior.

  2. Na seção Topologia de trabalho do trabalho do Stream Analytics, selecione Entradas.

  3. Selecione + Adicionar entrada e Hub de eventos.

    Captura de tela que mostra a página Entradas.

  4. Preencha o formulário de entrada com os seguintes valores criados por meio do Modelo do Azure TollApp:

    1. Para Alias de entrada, insira entrystream.

    2. Escolha Selecionar Hub de Eventos em suas assinaturas.

    3. Em Assinatura, selecione sua assinatura do Azure.

    4. Para namespace do Hub de Eventos, selecione o namespace do hub de eventos criado na seção anterior.

    5. Utilize as opções predefinidas nas restantes definições e selecione Guardar.

      Captura de tela que mostra a seleção do hub de eventos de entrada.

Configurar a saída da tarefa

A próxima etapa é definir um coletor de saída no qual o trabalho pode gravar dados. Neste tutorial, você grava a saída em uma tabela Delta no Azure Data Lake Storage Gen2.

  1. Na seção Topologia de trabalho do trabalho do Stream Analytics, selecione a opção Saídas.

  2. Selecione + Adicionar armazenamento de Blob de saída>/ADLS Gen2.

    Captura de ecrã que mostra a página Saídas.

  3. Preencha o formulário de saída com os seguintes detalhes e selecione Salvar:

    1. Para Alias de saída, insira DeltaOutput.

    2. Escolha Selecionar armazenamento de Blob/ADLS Gen2 em suas assinaturas.

    3. Em Assinatura, selecione sua assinatura do Azure.

    4. Para Conta de armazenamento, escolha a conta ADLS Gen2 (aquela que começa com tollapp) que você criou.

    5. Para contêiner, selecione Criar novo e forneça um nome de contêiner exclusivo.

    6. Para Formato de serialização de eventos, selecione Delta Lake. Embora o lago Delta esteja listado como uma das opções aqui, não é um formato de dados. O Delta Lake usa arquivos versionados do Parquet para armazenar seus dados. Para saber mais sobre o lago Delta.

    7. Para Caminho da tabela delta, insira a pasta tutorial/tabela delta.

    8. Utilize as opções predefinidas nas restantes definições e selecione Guardar.

      Captura de tela que mostra a configuração da saída.

Criar consultas

Neste ponto, você tem um trabalho do Stream Analytics configurado para ler um fluxo de dados de entrada. O próximo passo é criar uma consulta que analise os dados em tempo real. As consultas usam uma linguagem semelhante a SQL que tem algumas extensões específicas para o Stream Analytics.

  1. Agora, selecione Consulta em Topologia de trabalho no menu à esquerda.

  2. Insira a seguinte consulta na janela de consulta. Neste exemplo, a consulta lê os dados dos Hubs de Eventos e copia os valores selecionados para uma tabela Delta no ADLS Gen2.

     SELECT State, CarModel.Make, TollAmount
     INTO DeltaOutput
     FROM EntryStream TIMESTAMP BY EntryTime
    
  3. Selecione Salvar consulta na barra de ferramentas.

    Captura de tela que mostra a consulta para o trabalho.

Iniciar a tarefa do Stream Analytics e verificar a saída

  1. Retorne à página de visão geral do trabalho no portal do Azure e selecione Iniciar.

    Captura de tela que mostra a seleção do botão Iniciar trabalho na página Visão geral.

  2. Na página Iniciar trabalho, confirme se Agora está selecionado para Hora de início de saída do trabalho e selecione Iniciar na parte inferior da página.

    Captura de tela que mostra a seleção da página Iniciar trabalho.

  3. Após alguns minutos, no portal, localize a conta de armazenamento e o contêiner que você configurou como saída para o trabalho. Agora você pode ver a tabela delta na pasta especificada no contêiner. O trabalho leva alguns minutos para ser iniciado pela primeira vez, depois de iniciado, ele continuará a ser executado à medida que os dados chegam.

    Captura de tela que mostra os arquivos de dados de saída no contêiner.

Clean up resources (Limpar recursos)

Quando não for mais necessário, exclua o grupo de recursos, o trabalho do Stream Analytics e todos os recursos relacionados. A eliminação da tarefa evita a faturação das unidades de transmissão em fluxo consumidas pela tarefa. Se estiver a planear utilizar a tarefa no futuro, pode pará-la e reiniciá-la mais tarde, quando for necessário. Se você não vai continuar a usar esse trabalho, exclua todos os recursos criados por este tutorial usando as seguintes etapas:

  1. No menu do lado esquerdo no portal do Azure, selecione Grupos de recursos e, em seguida, selecione o nome do recurso que criou.
  2. Na página do grupo de recursos, selecione Eliminar, escreva o nome do recurso a eliminar na caixa de texto e, em seguida, selecione Eliminar.

Próximos passos

Neste tutorial, você criou um trabalho simples do Stream Analytics, filtrou os dados de entrada e gravou os resultados em uma tabela Delta na conta ADLS Gen2. Para saber mais sobre os trabalhos do Stream Analytics: