Compartilhar via


Capturar dados dos Hubs de Eventos no formato Delta Lake

Este artigo explica como usar o editor sem código para capturar automaticamente dados de streaming nos Hubs de Eventos em uma conta de Azure Data Lake Storage Gen2 no formato Delta Lake.

Pré-requisitos

  • Seus recursos de Hubs de Eventos do Azure e Azure Data Lake Storage Gen2 precisam ser acessíveis publicamente e não podem estar atrás de um firewall nem protegidos em uma Rede Virtual do Azure.
  • Os dados nos Hubs de Eventos precisam ser serializados no formato JSON, CSV ou Avro.

Configurar um trabalho para capturar dados

Use as etapas a seguir para configurar um trabalho do Stream Analytics para capturar dados no Azure Data Lake Storage Gen2.

  1. No portal do Azure, navegue até o seu hub de eventos.

  2. Selecione Recursos>Processar dados e selecione Iniciar no cartão Capturar dados para o ADLS Gen2 no formato Delta Lake.
    Captura de tela mostrando os cartões de início de dados dos Hubs de Eventos do processo.

    Como alternativa, selecioneRecursos>Captura, selecione a opção Delta Lake em "Formato de serialização de evento de saída" e, em seguida, selecione Iniciar configuração de captura de dados. Captura de tela mostrando o ponto de entrada da criação de dados de captura.

  3. Insira um nome para identificar o trabalho do Stream Analytics. Selecione Criar.
    Captura de tela mostrando a janela de trabalho Novo Stream Analytics na qual você insere o nome do trabalho.

  4. Especifique o tipo de Serialização dos dados em Hubs de Eventos e o Método de autenticação que o trabalho usa para se conectar aos Hubs de Eventos. Depois, selecione Conectar. Captura de tela mostrando a configuração da conexão dos Hubs de Eventos.

  5. Quando a conexão for estabelecida com êxito, você vê:

    • Os campos presentes nos dados de entrada. Você pode escolher Adicionar campo ou selecionar o símbolo de três pontos ao lado de um campo para, opcionalmente, remover, renomear ou alterar o nome dele.
    • Um exemplo dinâmico dos dados de entrada na tabela Visualização de dados na exibição de diagrama. Ele é atualizado periodicamente. Você pode selecionar Pausar visualização de streaming para ver uma exibição estática dos dados de entrada de exemplo.
      Captura de tela mostrando os dados de exemplo em Versão Prévia dos Dados.
  6. Selecione o bloco Azure Data Lake Storage Gen2 para editar a configuração.

  7. Na página de configuração do Azure Data Lake Storage Gen2, siga estas etapas:

    1. Selecione a assinatura, o nome da conta de armazenamento e o contêiner no menu suspenso.

    2. Depois que a assinatura for selecionada, o método de autenticação e a chave da conta de armazenamento deverão ser preenchidos automaticamente.

    3. O Caminho de tabela Delta é usado para especificar o local e o nome da tabela Delta Lake armazenada no Azure Data Lake Storage Gen2. Você pode optar por usar um ou mais segmentos de caminho para definir o caminho para a tabela delta e o nome da tabela delta. Para saber mais, confira Gravar na tabela do Delta Lake.

    4. Selecione Conectar.

      Primeira captura de tela mostrando a janela Blob na qual é possível editar uma configuração de conexão de blob.

  8. Quando a conexão for estabelecida, você vê campos presentes nos dados de saída.

  9. Selecione Salvar (Save) na barra de comandos para salvar a configuração.

  10. Selecione Iniciar na barra de comandos para iniciar o fluxo de streaming para capturar dados. Em seguida, na janela Iniciar trabalho do Stream Analytics:

    1. Escolha a hora de início da saída.
    2. Selecione o número de SUs (unidades de streaming) com as quais o trabalho é executado. As SUs representam recursos de computação alocados para executar um trabalho no Stream Analytics. Para obter mais informações, confira Unidades de streaming no Azure Stream Analytics.
      Captura de tela mostrando a janela de trabalho Iniciar Stream Analytics na qual é possível definir a hora de início de saída, as unidades de streaming e o tratamento de erro.
  11. Depois de selecionar Iniciar, o trabalho começará a ser executado dentro de dois minutos e as métricas estarão abertas na seção guia, conforme mostrado na imagem a seguir. Captura de tela mostrando o gráfico de métricas.

  12. O novo trabalho pode ser visto na guia Trabalhos do Stream Analytics. Captura de tela mostrando o link Abrir Métricas selecionado.

Verificar a saída

Verifique se os arquivos parquet com formato Delta Lake são gerados no contêiner do Azure Data Lake Storage.

Captura de tela mostrando os arquivos Parquet gerados no contêiner do ADLS (Azure Data Lake Storage).

Considerações ao usar o recurso de replicação geográfica do Hubs de Eventos

Os Hubs de Eventos do Azure lançaram recentemente a versão prévia pública do recurso de replicação geográfica. Esse recurso é diferente do recurso de recuperação de desastres geográficos dos Hubs de Eventos do Azure.

Quando o tipo de failover é Forçado e a consistência de replicação é Assíncrona, o trabalho do Stream Analytics não garante exatamente uma saída para uma saída dos Hubs de Eventos do Azure.

O Azure Stream Analytics, como produtor com um hub de eventos e uma saída, pode observar um atraso de marca d'água no trabalho durante a duração do failover e durante a limitação pelos Hubs de Eventos caso o atraso de replicação entre o primário e o secundário atinja o atraso máximo configurado.

O Azure Stream Analytics, como consumidor com Hubs de Eventos como entrada, pode observar um atraso de marca d'água no trabalho durante a duração do failover e pode pular dados ou encontrar dados duplicados após a conclusão do failover.

Devido a essas limitações, recomendamos que você reinicie o trabalho do Stream Analytics com a hora de início apropriada logo após a conclusão do failover dos Hubs de Eventos do Azure. Além disso, como o recurso de replicação geográfica dos Hubs de Eventos do Azure está em versão prévia pública, não recomendamos usar esse padrão para trabalhos de produção do Stream Analytics no momento. O comportamento atual do Stream Analytics será aprimorado antes da disponibilidade geral do recurso de replicação geográfica dos Hubs de Eventos para uso em trabalhos de produção do Stream Analytics.

Próximas etapas

Agora você sabe como usar o editor sem código do Stream Analytics para criar um trabalho que captura dados dos Hubs de Eventos para o Azure Data Lake Storage Gen2 no formato Delta Lake. Em seguida, saiba mais sobre o Azure Stream Analytics e como monitorar o trabalho criado.