Zelfstudie: Event Hubs-gegevens vastleggen in parquet-indeling en analyseren met Azure Synapse Analytics

Artikel
12/18/2024

In deze zelfstudie leert u hoe u de Stream Analytics zonder code-editor gebruikt om een taak te maken waarmee Event Hubs-gegevens worden vastgelegd in Azure Data Lake Storage Gen2 in de parquet-indeling.

In deze zelfstudie leert u het volgende:

Een gebeurtenisgenerator implementeren waarmee voorbeeldgebeurtenissen worden verzonden naar een Event Hub
Een Stream Analytics-taak maken met behulp van de code-editor zonder code
Invoergegevens en schema controleren
Azure Data Lake Storage Gen2 configureren waarop event hub-gegevens worden vastgelegd
Voer de Stream Analytics-taak uit
Azure Synapse Analytics gebruiken om query's uit te voeren op de Parquet-bestanden

Vereisten

Voordat u begint, moet u ervoor zorgen dat u de volgende stappen hebt uitgevoerd:

Als u nog geen Azure-abonnement hebt, maakt u een gratis account.
Implementeer de app TollApp-gebeurtenisgenerator in Azure. Stel de parameter interval in op 1 en gebruik een nieuwe resourcegroep voor deze stap.
Maak een Azure Synapse Analytics-werkruimte met een Data Lake Storage Gen2-account.

Geen code-editor gebruiken om een Stream Analytics-taak te maken

Zoek de resourcegroep waarin de TollApp-gebeurtenisgenerator is geïmplementeerd.
Selecteer de Azure Event Hubs-naamruimte. Mogelijk wilt u het openen op een afzonderlijk tabblad of een venster.
Selecteer Event Hubs onder Entiteiten in het linkermenu op de pagina Event Hubs-naamruimte.
Selecteer entrystream het exemplaar.
Selecteer op de pagina Event Hubs-exemplaar procesgegevens in de sectie Functies in het menu links.
Selecteer Starten op de tegel Capture-gegevens naar ADLS Gen2 in Parquet-indeling .
Geef uw taak parquetcapture een naam en selecteer Maken.
Voer op de configuratiepagina van de Event Hub de volgende stappen uit:
1. Selecteer Bestaande gebruiken voor consumentengroep.
2. $Default Controleer of de consumentengroep is geselecteerd.
3. Controleer of serialisatie is ingesteld op JSON.
4. Controleer of de verificatiemethode is ingesteld op Verbindingsreeks.
5. Controleer of de naam van de gedeelde toegangssleutel van Event Hub is ingesteld op RootManageSharedAccessKey.
6. Selecteer Verbinding maken onder aan het venster.
Binnen enkele seconden ziet u voorbeeldinvoergegevens en het schema. U kunt ervoor kiezen om velden te verwijderen, de naam van velden te wijzigen of het gegevenstype te wijzigen.
Selecteer de tegel Azure Data Lake Storage Gen2 op uw canvas en configureer deze door deze op te geven
- Abonnement waarin uw Azure Data Lake Gen2-account zich bevindt
- De naam van het opslagaccount, dat hetzelfde ADLS Gen2-account moet zijn dat wordt gebruikt met uw Azure Synapse Analytics-werkruimte, uitgevoerd in de sectie Vereisten.
- Container waarin de Parquet-bestanden worden gemaakt.
- Geef voor deltatabelpad een naam op voor de tabel.
- Datum- en tijdpatroon als standaard jjjj-mm-dd en UU.
- Selecteer Verbinden
Selecteer Opslaan op het bovenste lint om uw taak op te slaan en selecteer vervolgens Starten om uw taak uit te voeren. Zodra de taak is gestart, selecteert u X in de rechterhoek om de Stream Analytics-taakpagina te sluiten.
Vervolgens ziet u een lijst met alle Stream Analytics-taken die zijn gemaakt met behulp van de code-editor. En binnen twee minuten gaat uw taak naar de status Actief . Selecteer de knop Vernieuwen op de pagina om de status te zien die is gewijzigd van Gemaakt -> Starten -> Wordt uitgevoerd.

Uitvoer weergeven in uw Azure Data Lake Storage Gen 2-account

Zoek het Azure Data Lake Storage Gen2-account dat u in de vorige stap hebt gebruikt.
Selecteer de container die u in de vorige stap hebt gebruikt. U ziet parquet-bestanden die zijn gemaakt in de map die u eerder hebt opgegeven.

Query's uitvoeren op vastgelegde gegevens in Parquet-indeling met Azure Synapse Analytics

Query's uitvoeren met Behulp van Azure Synapse Spark

Zoek uw Azure Synapse Analytics-werkruimte en open Synapse Studio.
Maak een serverloze Apache Spark-pool in uw werkruimte als deze nog niet bestaat.
Ga in Synapse Studio naar de hub Ontwikkelen en maak een nieuw notebook.
Maak een nieuwe codecel en plak de volgende code in die cel. Vervang container- en adlsname door de naam van de container en het ADLS Gen2-account dat in de vorige stap is gebruikt.
```
%%pyspark
df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*.parquet', format='parquet')
display(df.limit(10))
df.count()
df.printSchema()
```
Selecteer uw Spark-pool in de vervolgkeuzelijst voor Bijvoegen op de werkbalk.
Alles uitvoeren selecteren om de resultaten weer te geven

Query's uitvoeren met serverloze SQL van Azure Synapse

Maak in de ontwikkelhub een nieuw SQL-script.
Plak het volgende script en voer het uit met behulp van het ingebouwde serverloze SQL-eindpunt. Vervang container- en adlsname door de naam van de container en het ADLS Gen2-account dat in de vorige stap is gebruikt.
```
SELECT
    TOP 100 *
FROM
    OPENROWSET(
        BULK 'https://adlsname.dfs.core.windows.net/container/*/*.parquet',
        FORMAT='PARQUET'
    ) AS [result]
```

Resources opschonen

Zoek uw Event Hubs-exemplaar en bekijk de lijst met Stream Analytics-taken onder de sectie Procesgegevens . Stop alle taken die worden uitgevoerd.
Ga naar de resourcegroep die u hebt gebruikt tijdens het implementeren van de TollApp-gebeurtenisgenerator.
Selecteer Resourcegroep verwijderen. Typ de naam van de resourcegroep om het verwijderen te bevestigen.

Volgende stappen

In deze zelfstudie hebt u geleerd hoe u een Stream Analytics-taak maakt met behulp van de code-editor om Event Hubs-gegevensstromen vast te leggen in Parquet-indeling. Vervolgens hebt u Azure Synapse Analytics gebruikt om query's uit te voeren op de parquet-bestanden met zowel Synapse Spark als Synapse SQL.

Geen codestroomverwerking met Azure Stream Analytics

Delen via