Condividi tramite


Esercitazione: Acquisire i dati di Hub eventi in formato Parquet e analizzare con Azure Synapse Analytics

Questa esercitazione illustra come usare Analisi di flusso senza editor di codice per creare un processo che acquisisce i dati di Hub eventi in Azure Data Lake Storage Gen2 nel formato parquet.

In questa esercitazione apprenderai a:

  • Distribuire un generatore di eventi che invia eventi di esempio a un hub eventi
  • Creare un processo di Analisi di flusso usando l'editor di codice senza editor di codice
  • Esaminare i dati di input e lo schema
  • Configurare Azure Data Lake Storage Gen2 in cui verranno acquisiti i dati dell'hub eventi
  • Eseguire il processo di Analisi di flusso
  • Usare Azure Synapse Analytics per eseguire query sui file parquet

Prerequisiti

Prima di iniziare, assicurarsi di aver completato i passaggi seguenti:

Usare nessun editor di codice per creare un processo di Analisi di flusso

  1. Individuare il gruppo di risorse in cui è stato distribuito il generatore di eventi TollApp.

  2. Selezionare lo spazio dei nomi Hub eventi di Azure. Potrebbe essere necessario aprirlo in una scheda separata o in una finestra.

  3. Nella pagina Spazio dei nomi di Hub eventi selezionare Hub eventi in Entità nel menu a sinistra.

  4. Selezionare l'istanza entrystream .

    Screenshot che mostra la selezione dell'hub eventi.

  5. Nella pagina dell'istanza di Hub eventi selezionare Elabora dati nella sezione Funzionalità del menu a sinistra.

  6. Selezionare Avvia nel riquadro Acquisisci dati in ADLS Gen2 nel riquadro Formato Parquet.

    Screenshot che mostra la selezione del riquadro **Acquisisci dati in ADLS Gen2 in formato Parquet**.

  7. Assegnare un nome al processo parquetcapture e selezionare Crea.

    Screenshot della pagina Nuovo processo di Analisi di flusso.

  8. Nella pagina di configurazione dell'hub eventi seguire questa procedura:

    1. In Gruppo consumer selezionare Usa esistente.

    2. Verificare che $Default sia selezionato il gruppo di consumer.

    3. Verificare che serializzazione sia impostata su JSON.

    4. Verificare che il metodo di autenticazione sia impostato su Stringa di connessione.

    5. Verificare che il nome della chiave di accesso condiviso dell'hub eventi sia impostato su RootManageSharedAccessKey.

    6. Selezionare Connetti nella parte inferiore della finestra.

      Screenshot della pagina di configurazione per l'hub eventi.

  9. Entro pochi secondi verranno visualizzati i dati di input di esempio e lo schema. È possibile scegliere di eliminare campi, rinominare i campi o modificare il tipo di dati.

    Screenshot che mostra i campi e l'anteprima dei dati.

  10. Selezionare il riquadro azure Data Lake Storage Gen2 nell'area di disegno e configurarlo specificando

    • Sottoscrizione in cui si trova l'account Azure Data Lake Gen2

    • Nome dell'account di archiviazione, che deve essere lo stesso account ADLS Gen2 usato con l'area di lavoro di Azure Synapse Analytics eseguita nella sezione Prerequisiti.

    • Contenitore in cui verranno creati i file Parquet.

    • Per Percorso tabella Delta specificare un nome per la tabella.

    • Modello di data e ora come valore predefinito aaaa-mm-gg e HH.

    • Seleziona Connetti

      Screenshot che mostra le impostazioni di configurazione per Data Lake Storage.

  11. Selezionare Salva nella barra multifunzione superiore per salvare il processo e quindi selezionare Avvia per eseguire il processo. Dopo aver avviato il processo, selezionare X nell'angolo destro per chiudere la pagina del processo di Analisi di flusso.

    Screenshot che mostra la pagina Avvia processo di Analisi di flusso.

  12. Verrà quindi visualizzato un elenco di tutti i processi di Analisi di flusso creati usando l'editor di codice no. E entro due minuti, il processo passerà a uno stato In esecuzione . Selezionare il pulsante Aggiorna nella pagina per visualizzare lo stato che cambia da Creato -> Avvio -> In esecuzione.

    Screenshot che mostra l'elenco dei processi di Analisi di flusso.

Visualizzare l'output nell'account Azure Data Lake Storage Gen2

  1. Individuare l'account Azure Data Lake Storage Gen2 usato nel passaggio precedente.

  2. Selezionare il contenitore usato nel passaggio precedente. Nella cartella specificata in precedenza verranno visualizzati i file parquet creati.

    Screenshot che mostra i file Parquet acquisiti in Azure Data Lake Storage Gen 2.

Eseguire query sui dati acquisiti in formato Parquet con Azure Synapse Analytics

Eseguire query con Azure Synapse Spark

  1. Individuare l'area di lavoro di Azure Synapse Analytics e aprire Synapse Studio.

  2. Creare un pool di Apache Spark serverless nell'area di lavoro, se non ne esiste già uno.

  3. In Synapse Studio passare all'hub Sviluppo e creare un nuovo notebook.

    Screenshot che mostra Synapse Studio.

  4. Creare una nuova cella di codice e incollare il codice seguente in tale cella. Sostituire contenitore e adlsname con il nome del contenitore e dell'account ADLS Gen2 usato nel passaggio precedente.

    %%pyspark
    df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*.parquet', format='parquet')
    display(df.limit(10))
    df.count()
    df.printSchema()
    
  5. Per Collega a sulla barra degli strumenti, selezionare il pool di Spark dall'elenco a discesa.

  6. Selezionare Esegui tutto per visualizzare i risultati

    Screenshot dei risultati dell'esecuzione spark in Azure Synapse Analytics.

Eseguire query con Sql serverless di Azure Synapse

  1. Nell'hub Sviluppo creare un nuovo script SQL.

    Screenshot che mostra la pagina Sviluppo con il nuovo menu script SQL selezionato.

  2. Incollare lo script seguente ed eseguirlo usando l'endpoint SQL serverless predefinito . Sostituire contenitore e adlsname con il nome del contenitore e dell'account ADLS Gen2 usato nel passaggio precedente.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://adlsname.dfs.core.windows.net/container/*/*.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    

    Screenshot dei risultati dello script SQL in Azure Synapse Analytics.

Pulire le risorse

  1. Individuare l'istanza di Hub eventi e visualizzare l'elenco dei processi di Analisi di flusso nella sezione Elabora dati . Arrestare tutti i processi in esecuzione.
  2. Passare al gruppo di risorse usato durante la distribuzione del generatore di eventi TollApp.
  3. Selezionare Elimina gruppo di risorse. Digitare il nome del gruppo di attività per confermare l'eliminazione.

Passaggi successivi

In questa esercitazione si è appreso come creare un processo di Analisi di flusso usando l'editor di codice per acquisire flussi di dati di Hub eventi in formato Parquet. È stato quindi usato Azure Synapse Analytics per eseguire query sui file parquet usando Sia Synapse Spark che Synapse SQL.