Materializar dados no Azure Cosmos DB usando o editor sem código do Stream Analytics
Este artigo descreve como você pode usar o editor sem código para criar um trabalho do Stream Analytics com facilidade. O trabalho lê continuamente de seus Hubs de Eventos e executa agregações como contagem, soma e média. Você seleciona campos a serem agrupados ao longo de uma janela de tempo e, em seguida, o trabalho grava os resultados continuamente no Azure Cosmos DB.
Pré-requisitos
- Os recursos dos Hubs de Eventos do Azure e do Azure Cosmos DB precisam ser acessíveis publicamente e não podem estar protegidos por um firewall ou em uma Rede Virtual do Azure.
- Os dados nos Hubs de Eventos precisam ser serializados no formato JSON, CSV ou Avro.
Desenvolver um trabalho do Stream Analytics
Use as etapas a seguir para desenvolver um trabalho do Stream Analytics a fim de materializar dados no Azure Cosmos DB.
- No portal do Azure, localize e selecione a instância dos Hubs de Eventos do Azure.
- Em Recursos, selecione Processar dados. Em seguida, selecione Iniciar no cartão intitulado Materializar Dados no Azure Cosmos DB.
- Insira um nome para o trabalho e selecione Criar.
- Especifique o tipo de Serialização dos dados na janela dos Hubs de Eventos e o Método de autenticação que o trabalho usará para se conectar aos Hubs de Eventos. Depois, selecione Conectar.
- Se a conexão for estabelecida com êxito e você tiver fluxos de dados para a instância dos Hubs de Eventos, você verá duas coisas imediatamente:
- Os campos presentes no conteúdo de entrada. Selecione o símbolo de três pontos ao lado de um campo para opcionalmente remover, renomear ou alterar o tipo de dados do campo.
- Um exemplo de seus dados de entrada no painel inferior na Visualização de dados que é atualizado automaticamente periodicamente. Você pode selecionar Pausar a visualização de streaming se preferir ter uma exibição estática dos dados de entrada de exemplo.
- Os campos presentes no conteúdo de entrada. Selecione o símbolo de três pontos ao lado de um campo para opcionalmente remover, renomear ou alterar o tipo de dados do campo.
- Na próxima etapa, você especifica o campo e a agregação que deseja calcular, como Média e Contagem. Você também pode especificar o campo que deseja para Agrupar Por junto com a janela de tempo. Em seguida, você pode validar os resultados da etapa na seção Visualização de dados.
- Escolha o Banco de dados do Cosmos DB e o contêiner em que você deseja que os resultados sejam gravados.
- Inicie o trabalho do Stream Analytics selecionando Iniciar.
Para iniciar o trabalho, você precisa especificar:- O número de SUs (unidades de streaming) com as quais o trabalho é executado. As SUs representam a quantidade de computação e memória alocada para o trabalho. É recomendável começar com três e ajustar conforme necessário.
- O tratamento de erros de dados de saída permite que você especifique o comportamento desejado quando a saída de um trabalho para seu destino falhar devido a erros de dados. Por padrão, seu trabalho tenta novamente até que a operação de gravação seja bem-sucedida. Você também pode optar por remover eventos de saída.
- Depois de selecionar Iniciar, o trabalho começará a ser executado em até dois minutos. Exiba o trabalho na seção Processar Dados na guia Trabalhos do Stream Analytics. Você pode explorar métricas de trabalho e interrompê-lo e reiniciá-lo, conforme necessário.
Considerações ao usar o recurso de replicação geográfica dos Hubs de Eventos
Os Hubs de Eventos do Azure lançaram recentemente a versão prévia pública do recurso de replicação geográfica. Esse recurso é diferente do recurso de recuperação de desastres geográficos dos Hubs de Eventos do Azure.
Quando o tipo de failover é Forçado e a consistência de replicação é Assíncrona, o trabalho do Stream Analytics não garante exatamente uma saída para uma saída dos Hubs de Eventos do Azure.
O Azure Stream Analytics, como produtor com um hub de eventos e uma saída, pode observar um atraso de marca d'água no trabalho durante a duração do failover e durante a limitação pelos Hubs de Eventos caso o atraso de replicação entre o primário e o secundário atinja o atraso máximo configurado.
O Azure Stream Analytics, como consumidor com Hubs de Eventos como entrada, pode observar um atraso de marca d'água no trabalho durante a duração do failover e pode pular dados ou encontrar dados duplicados após a conclusão do failover.
Devido a essas limitações, recomendamos que você reinicie o trabalho do Stream Analytics com a hora de início apropriada logo após a conclusão do failover dos Hubs de Eventos do Azure. Além disso, como o recurso de replicação geográfica dos Hubs de Eventos do Azure está em versão prévia pública, não recomendamos usar esse padrão para trabalhos de produção do Stream Analytics no momento. O comportamento atual do Stream Analytics será aprimorado antes da disponibilidade geral do recurso de replicação geográfica dos Hubs de Eventos para uso em trabalhos de produção do Stream Analytics.
Próximas etapas
Agora você sabe como usar o editor sem código do Stream Analytics para desenvolver um trabalho que lê dos Hubs de Eventos e calcula agregações, como contagens e médias e grava-os no recurso do Azure Cosmos DB.