Sdílet prostřednictvím


Kurz: Zachycení dat služby Event Hubs ve formátu Parquet a analýza pomocí služby Azure Synapse Analytics

V tomto kurzu se dozvíte, jak pomocí editoru kódu Stream Analytics vytvořit úlohu, která zachytává data služby Event Hubs do Azure Data Lake Storage Gen2 ve formátu parquet.

V tomto kurzu se naučíte:

  • Nasazení generátoru událostí, který odesílá ukázkové události do centra událostí
  • Vytvoření úlohy Stream Analytics pomocí žádného editoru kódu
  • Kontrola vstupních dat a schématu
  • Konfigurace Služby Azure Data Lake Storage Gen2, do které se budou zaznamenávat data centra událostí
  • Spuštění úlohy Stream Analytics
  • Použití Azure Synapse Analytics k dotazování souborů parquet

Požadavky

Než začnete, ujistěte se, že jste dokončili následující kroky:

Použití žádného editoru kódu k vytvoření úlohy Stream Analytics

  1. Vyhledejte skupinu prostředků, ve které byl nasazen generátor událostí TollApp.

  2. Vyberte obor názvů služby Azure Event Hubs. Možná ho budete chtít otevřít na samostatné kartě nebo v okně.

  3. Na stránce oboru názvů služby Event Hubs vyberte v části Entity v nabídce vlevo možnost Event Hubs.

  4. Vyberte entrystream instanci.

    Snímek obrazovky znázorňující výběr centra událostí

  5. Na stránce instance služby Event Hubs vyberte v části Funkce v levé nabídce možnost Zpracovat data.

  6. Na dlaždici Formát Parquet vyberte Start na zachytávání dat do ADLS Gen2.

    Snímek obrazovky znázorňující výběr dlaždice **Capture data to ADLS Gen2 ve formátu Parquet**

  7. Pojmenujte úlohu parquetcapture a vyberte Vytvořit.

    Snímek obrazovky se stránkou nová úloha Stream Analytics

  8. Na stránce konfigurace centra událostí postupujte takto:

    1. V případě skupiny Příjemce vyberte Použít existující.

    2. Potvrďte, že $Default je vybraná skupina příjemců.

    3. Ověřte, že je serializace nastavená na JSON.

    4. Ověřte, že je metoda ověřování nastavená na připojovací řetězec.

    5. Ověřte, že je název sdíleného přístupového klíče centra událostí nastavený na RootManageSharedAccessKey.

    6. V dolní části okna vyberte Připojit .

      Snímek obrazovky se stránkou konfigurace centra událostí

  9. Během několika sekund uvidíte ukázková vstupní data a schéma. Můžete zvolit, jestli chcete vypustit pole, přejmenovat pole nebo změnit datový typ.

    Snímek obrazovky zobrazující pole a náhled dat

  10. Vyberte dlaždici Azure Data Lake Storage Gen2 na plátně a nakonfigurujte ji zadáním

    • Předplatné, ve kterém se nachází váš účet Azure Data Lake Gen2

    • Název účtu úložiště, který by měl být stejný účet ADLS Gen2 používaný s pracovním prostorem Azure Synapse Analytics v části Požadavky.

    • Kontejner, ve kterém budou vytvořeny soubory Parquet.

    • Pro cestu k tabulce Delta zadejte název tabulky.

    • Vzor data a času jako výchozí yyyy-mm-dd a HH.

    • Vyberte Připojit

      Snímek obrazovky znázorňující nastavení konfigurace pro Data Lake Storage

  11. Pokud chcete úlohu uložit, vyberte Uložit na horním pásu karet a pak vyberte Spustit , aby se úloha spustila. Po spuštění úlohy výběrem X v pravém rohu zavřete stránku úlohy Stream Analytics.

    Snímek obrazovky se stránkou Spustit úlohu Stream Analytics

  12. Zobrazí se seznam všech úloh Stream Analytics vytvořených pomocí žádného editoru kódu. A do dvou minut přejde vaše úloha do stavu Spuštěno. Výběrem tlačítka Aktualizovat na stránce zobrazíte změnu stavu od Vytvoření –> Spuštění –> Spuštěno.

    Snímek obrazovky se seznamem úloh Stream Analytics

Zobrazení výstupu v účtu Azure Data Lake Storage Gen2

  1. Vyhledejte účet Azure Data Lake Storage Gen2, který jste použili v předchozím kroku.

  2. Vyberte kontejner, který jste použili v předchozím kroku. Uvidíte soubory parquet vytvořené ve složce, kterou jste zadali dříve.

    Snímek obrazovky znázorňující zachycené soubory parquet v Azure Data Lake Storage Gen2

Dotazování zachycených dat ve formátu Parquet pomocí Azure Synapse Analytics

Dotazování pomocí Azure Synapse Sparku

  1. Vyhledejte pracovní prostor Azure Synapse Analytics a otevřete Synapse Studio.

  2. Pokud ještě neexistuje, vytvořte ve svém pracovním prostoru bezserverový fond Apache Spark.

  3. V nástroji Synapse Studio přejděte do centra Vývoj a vytvořte nový poznámkový blok.

    Snímek obrazovky se sadou Synapse Studio

  4. Vytvořte novou buňku kódu a vložte do této buňky následující kód. Nahraďte kontejner a adlsname názvem kontejneru a účtu ADLS Gen2 použitým v předchozím kroku.

    %%pyspark
    df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*.parquet', format='parquet')
    display(df.limit(10))
    df.count()
    df.printSchema()
    
  5. Pokud chcete připojit na panelu nástrojů, vyberte fond Sparku z rozevíracího seznamu.

  6. Výběrem možnosti Spustit vše zobrazíte výsledky.

    Snímek obrazovky s výsledky spuštění Sparku ve službě Azure Synapse Analytics

Dotazování s využitím bezserverového SQL Azure Synapse

  1. V centru Vývoj vytvořte nový skript SQL.

    Snímek obrazovky zobrazující stránku Vývoj s vybranou nabídkou nového skriptu SQL

  2. Vložte následující skript a spusťte ho pomocí integrovaného bezserverového koncového bodu SQL. Nahraďte kontejner a adlsname názvem kontejneru a účtu ADLS Gen2 použitým v předchozím kroku.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://adlsname.dfs.core.windows.net/container/*/*.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    

    Snímek obrazovky se skriptem SQL ve službě Azure Synapse Analytics

Vyčištění prostředků

  1. Vyhledejte instanci služby Event Hubs a prohlédněte si seznam úloh Stream Analytics v části Zpracování dat . Zastavte všechny spuštěné úlohy.
  2. Přejděte do skupiny prostředků, kterou jste použili při nasazování generátoru událostí TollApp.
  3. Vyberte Odstranit skupinu prostředků. Potvrďte odstranění zadáním názvu skupiny prostředků.

Další kroky

V tomto kurzu jste zjistili, jak vytvořit úlohu Stream Analytics pomocí žádného editoru kódu pro zachycení datových proudů služby Event Hubs ve formátu Parquet. Pak jste použili Azure Synapse Analytics k dotazování souborů parquet pomocí Synapse Sparku i Synapse SQL.