Kurz: Zachycení dat služby Event Hubs ve formátu Parquet a analýza pomocí služby Azure Synapse Analytics

Článek
12/18/2024

V tomto kurzu se dozvíte, jak pomocí editoru kódu Stream Analytics vytvořit úlohu, která zachytává data služby Event Hubs do Azure Data Lake Storage Gen2 ve formátu parquet.

V tomto kurzu se naučíte:

Nasazení generátoru událostí, který odesílá ukázkové události do centra událostí
Vytvoření úlohy Stream Analytics pomocí žádného editoru kódu
Kontrola vstupních dat a schématu
Konfigurace Služby Azure Data Lake Storage Gen2, do které se budou zaznamenávat data centra událostí
Spuštění úlohy Stream Analytics
Použití Azure Synapse Analytics k dotazování souborů parquet

Požadavky

Než začnete, ujistěte se, že jste dokončili následující kroky:

Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet.
Nasaďte aplikaci generátoru událostí TollApp do Azure. Nastavte parametr interval na hodnotu 1 a pro tento krok použijte novou skupinu prostředků.
Vytvořte pracovní prostor Azure Synapse Analytics s účtem Data Lake Storage Gen2.

Použití žádného editoru kódu k vytvoření úlohy Stream Analytics

Vyhledejte skupinu prostředků, ve které byl nasazen generátor událostí TollApp.
Vyberte obor názvů služby Azure Event Hubs. Možná ho budete chtít otevřít na samostatné kartě nebo v okně.
Na stránce oboru názvů služby Event Hubs vyberte v části Entity v nabídce vlevo možnost Event Hubs.
Vyberte entrystream instanci.
Na stránce instance služby Event Hubs vyberte v části Funkce v levé nabídce možnost Zpracovat data.
Na dlaždici Formát Parquet vyberte Start na zachytávání dat do ADLS Gen2.
Pojmenujte úlohu parquetcapture a vyberte Vytvořit.
Na stránce konfigurace centra událostí postupujte takto:
1. V případě skupiny Příjemce vyberte Použít existující.
2. Potvrďte, že $Default je vybraná skupina příjemců.
3. Ověřte, že je serializace nastavená na JSON.
4. Ověřte, že je metoda ověřování nastavená na připojovací řetězec.
5. Ověřte, že je název sdíleného přístupového klíče centra událostí nastavený na RootManageSharedAccessKey.
6. V dolní části okna vyberte Připojit .
Během několika sekund uvidíte ukázková vstupní data a schéma. Můžete zvolit, jestli chcete vypustit pole, přejmenovat pole nebo změnit datový typ.
Vyberte dlaždici Azure Data Lake Storage Gen2 na plátně a nakonfigurujte ji zadáním
- Předplatné, ve kterém se nachází váš účet Azure Data Lake Gen2
- Název účtu úložiště, který by měl být stejný účet ADLS Gen2 používaný s pracovním prostorem Azure Synapse Analytics v části Požadavky.
- Kontejner, ve kterém budou vytvořeny soubory Parquet.
- Pro cestu k tabulce Delta zadejte název tabulky.
- Vzor data a času jako výchozí yyyy-mm-dd a HH.
- Vyberte Připojit
Pokud chcete úlohu uložit, vyberte Uložit na horním pásu karet a pak vyberte Spustit , aby se úloha spustila. Po spuštění úlohy výběrem X v pravém rohu zavřete stránku úlohy Stream Analytics.
Zobrazí se seznam všech úloh Stream Analytics vytvořených pomocí žádného editoru kódu. A do dvou minut přejde vaše úloha do stavu Spuštěno. Výběrem tlačítka Aktualizovat na stránce zobrazíte změnu stavu od Vytvoření –> Spuštění –> Spuštěno.

Zobrazení výstupu v účtu Azure Data Lake Storage Gen2

Vyhledejte účet Azure Data Lake Storage Gen2, který jste použili v předchozím kroku.
Vyberte kontejner, který jste použili v předchozím kroku. Uvidíte soubory parquet vytvořené ve složce, kterou jste zadali dříve.

Dotazování zachycených dat ve formátu Parquet pomocí Azure Synapse Analytics

Dotazování pomocí Azure Synapse Sparku

Vyhledejte pracovní prostor Azure Synapse Analytics a otevřete Synapse Studio.
Pokud ještě neexistuje, vytvořte ve svém pracovním prostoru bezserverový fond Apache Spark.
V nástroji Synapse Studio přejděte do centra Vývoj a vytvořte nový poznámkový blok.
Vytvořte novou buňku kódu a vložte do této buňky následující kód. Nahraďte kontejner a adlsname názvem kontejneru a účtu ADLS Gen2 použitým v předchozím kroku.
```
%%pyspark
df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*.parquet', format='parquet')
display(df.limit(10))
df.count()
df.printSchema()
```
Pokud chcete připojit na panelu nástrojů, vyberte fond Sparku z rozevíracího seznamu.
Výběrem možnosti Spustit vše zobrazíte výsledky.

Dotazování s využitím bezserverového SQL Azure Synapse

V centru Vývoj vytvořte nový skript SQL.
Vložte následující skript a spusťte ho pomocí integrovaného bezserverového koncového bodu SQL. Nahraďte kontejner a adlsname názvem kontejneru a účtu ADLS Gen2 použitým v předchozím kroku.
```
SELECT
    TOP 100 *
FROM
    OPENROWSET(
        BULK 'https://adlsname.dfs.core.windows.net/container/*/*.parquet',
        FORMAT='PARQUET'
    ) AS [result]
```

Vyčištění prostředků

Vyhledejte instanci služby Event Hubs a prohlédněte si seznam úloh Stream Analytics v části Zpracování dat . Zastavte všechny spuštěné úlohy.
Přejděte do skupiny prostředků, kterou jste použili při nasazování generátoru událostí TollApp.
Vyberte Odstranit skupinu prostředků. Potvrďte odstranění zadáním názvu skupiny prostředků.

Další kroky

V tomto kurzu jste zjistili, jak vytvořit úlohu Stream Analytics pomocí žádného editoru kódu pro zachycení datových proudů služby Event Hubs ve formátu Parquet. Pak jste použili Azure Synapse Analytics k dotazování souborů parquet pomocí Synapse Sparku i Synapse SQL.

Bez zpracování datových proudů kódu pomocí Azure Stream Analytics

Sdílet prostřednictvím