Materializzare i dati in Azure Cosmos DB usando Analisi di flusso senza editor di codice
Questo articolo descrive come usare l'editor di codice senza creare facilmente un processo di Analisi di flusso. Il processo legge continuamente da Hub eventi ed esegue aggregazioni come conteggio, somma e media. È possibile selezionare i campi da raggruppare in base a un intervallo di tempo e quindi il processo scrive i risultati in modo continuo in Azure Cosmos DB.
Prerequisiti
- Le risorse di Hub eventi di Azure e Azure Cosmos DB devono essere accessibili pubblicamente e non possono essere protette da un firewall o protette in un'Rete virtuale di Azure.
- I dati negli hub eventi devono essere serializzati in formato JSON, CSV o Avro.
Sviluppare un processo di Analisi di flusso
Usare la procedura seguente per sviluppare un processo di Analisi di flusso per materializzare i dati in Azure Cosmos DB.
- Nella portale di Azure individuare e selezionare l'istanza di Hub eventi di Azure.
- In Funzionalità selezionare Elabora dati. Selezionare quindi Avvia nella scheda intitolata Materialize Data in Azure Cosmos DB.
- Immettere un nome per il processo e selezionare Crea.
- Specificare il tipo di serializzazione dei dati nell'hub eventi e il metodo di autenticazione che verrà usato dal processo per connettersi a Hub eventi. Selezionare Connetti.
- Se la connessione ha esito positivo e si hanno flussi di dati che passano all'istanza di Hub eventi, verranno immediatamente visualizzati due elementi:
- Campi presenti nel payload di input. Selezionare il simbolo a tre punti accanto a un campo, facoltativamente rimuovere, rinominare o modificare il tipo di dati del campo.
- Esempio dei dati di input nel riquadro inferiore in Anteprima dati che aggiorna periodicamente. È possibile selezionare Sospendi anteprima streaming se si preferisce avere una visualizzazione statica dei dati di input di esempio.
- Campi presenti nel payload di input. Selezionare il simbolo a tre punti accanto a un campo, facoltativamente rimuovere, rinominare o modificare il tipo di dati del campo.
- Nel passaggio successivo specificare il campo e l'aggregazione da calcolare, ad esempio Average e Count. È anche possibile specificare il campo da raggruppare insieme all'intervallo di tempo. È quindi possibile convalidare i risultati del passaggio nella sezione Anteprima dati.
- Scegliere il database e il contenitore Cosmos DB in cui si desidera scrivere i risultati.
- Avviare il processo di Analisi di flusso selezionando Avvia.
Per avviare il processo, è necessario specificare:- Numero di unità di streaming (SU) con cui viene eseguito il processo. Le unità di streaming rappresentano la quantità di calcolo e memoria allocata al processo. È consigliabile iniziare con tre e regolare in base alle esigenze.
- La gestione degli errori dei dati di output consente di specificare il comportamento desiderato quando l'output di un processo nella destinazione non riesce a causa di errori di dati. Per impostazione predefinita, il processo ritenta fino a quando l'operazione di scrittura non riesce. È anche possibile scegliere di eliminare gli eventi di output.
- Dopo aver selezionato Avvia, il processo viene avviato entro due minuti. Visualizzare il processo nella sezione Elabora dati nella scheda Processi di Analisi di flusso. È possibile esplorare le metriche dei processi e arrestarla e riavviarla in base alle esigenze.
Considerazioni sull'uso della funzionalità di replica geografica di Hub eventi
Hub eventi di Azure recentemente lanciato il Funzionalità replica geografica in anteprima pubblica. Questa funzionalità è diversa dalla funzionalità ripristino di emergenza geografico di Hub eventi di Azure.
Quando il tipo di failover è Forzato e la coerenza della replica è asincrona, il processo di Analisi di flusso non garantisce esattamente una volta l'output in un output Hub eventi di Azure.
Analisi di flusso di Azure, come producer con un output di un hub eventi, potrebbe osservare un ritardo limite nel processo durante la durata del failover e durante la limitazione da parte di Hub eventi nel caso in cui il ritardo di replica tra primario e secondario raggiunga il ritardo massimo configurato.
Analisi di flusso di Azure, come consumer con Hub eventi come input, potrebbe osservare un ritardo limite nel processo durante la durata del failover e potrebbe ignorare i dati o trovare dati duplicati al termine del failover.
A causa di queste avvertenze, è consigliabile riavviare il processo di Analisi di flusso con l'ora di inizio appropriata subito dopo il completamento del failover di Hub eventi. Inoltre, poiché la funzionalità di replica geografica di Hub eventi è in anteprima pubblica, non è consigliabile usare questo modello per i processi di Analisi di flusso di produzione a questo punto. Il comportamento corrente di Analisi di flusso migliorerà prima che la funzionalità di replica geografica di Hub eventi sia disponibile a livello generale e possa essere usata nei processi di produzione di Analisi di flusso.
Passaggi successivi
Ora si è appreso come usare Analisi di flusso senza editor di codice per sviluppare un processo che legge da Hub eventi e calcola aggregazioni come conteggi, medie e scritture nella risorsa di Azure Cosmos DB.