Udostępnij za pośrednictwem


Samouczek: przechwytywanie danych usługi Event Hubs w formacie parquet i analizowanie za pomocą usługi Azure Synapse Analytics

W tym samouczku pokazano, jak za pomocą edytora kodu usługi Stream Analytics utworzyć zadanie, które przechwytuje dane usługi Event Hubs w usłudze Azure Data Lake Storage Gen2 w formacie parquet.

Z tego samouczka dowiesz się, jak wykonywać następujące czynności:

  • Wdrażanie generatora zdarzeń wysyłającego przykładowe zdarzenia do centrum zdarzeń
  • Tworzenie zadania usługi Stream Analytics przy użyciu edytora kodu
  • Przeglądanie danych wejściowych i schematu
  • Konfigurowanie usługi Azure Data Lake Storage Gen2, do której będą przechwytywane dane centrum zdarzeń
  • Uruchamianie zadania usługi Stream Analytics
  • Wykonywanie zapytań dotyczących plików parquet za pomocą usługi Azure Synapse Analytics

Wymagania wstępne

Przed rozpoczęciem upewnij się, że zostały wykonane następujące kroki:

Tworzenie zadania usługi Stream Analytics przy użyciu edytora kodu

  1. Znajdź grupę zasobów, w której wdrożono generator zdarzeń TollApp.

  2. Wybierz przestrzeń nazw usługi Azure Event Hubs. Możesz otworzyć go na osobnej karcie lub w oknie.

  3. Na stronie Przestrzeń nazw usługi Event Hubs wybierz pozycję Event Hubs w obszarze Jednostki w menu po lewej stronie.

  4. Wybierz entrystream wystąpienie.

    Zrzut ekranu przedstawiający wybór centrum zdarzeń.

  5. Na stronie wystąpienia usługi Event Hubs wybierz pozycję Przetwarzanie danych w sekcji Funkcje w menu po lewej stronie.

  6. Wybierz pozycję Rozpocznij na kafelku Przechwytywanie danych do usługi ADLS Gen2 w formacie Parquet.

    Zrzut ekranu przedstawiający wybór kafelka **Przechwytywanie danych do usługi ADLS Gen2 w formacie Parquet**.

  7. Nadaj zadanie parquetcapture nazwę i wybierz pozycję Utwórz.

    Zrzut ekranu przedstawiający stronę Nowego zadania usługi Stream Analytics.

  8. Na stronie konfiguracji centrum zdarzeń wykonaj następujące kroki:

    1. W obszarze Grupa odbiorców wybierz pozycję Użyj istniejącej.

    2. Upewnij się, że $Default wybrano grupę odbiorców.

    3. Upewnij się, że serializacja jest ustawiona na JSON.

    4. Upewnij się, że dla metody uwierzytelniania ustawiono wartość Parametry połączenia.

    5. Upewnij się, że nazwa klucza dostępu współdzielonego centrum zdarzeń jest ustawiona na RootManageSharedAccessKey.

    6. Wybierz pozycję Połącz w dolnej części okna.

      Zrzut ekranu przedstawiający stronę konfiguracji centrum zdarzeń.

  9. W ciągu kilku sekund zobaczysz przykładowe dane wejściowe i schemat. Możesz usunąć pola, zmienić nazwę pól lub zmienić typ danych.

    Zrzut ekranu przedstawiający pola i podgląd danych.

  10. Wybierz kafelek usługi Azure Data Lake Storage Gen2 na kanwie i skonfiguruj go, określając

    • Subskrypcja, w której znajduje się konto usługi Azure Data Lake Gen2

    • Nazwa konta magazynu, które powinno być tym samym kontem usługi ADLS Gen2 używanym z obszarem roboczym usługi Azure Synapse Analytics wykonanym w sekcji Wymagania wstępne.

    • Kontener, w którym zostaną utworzone pliki Parquet.

    • W polu Ścieżka tabeli delty określ nazwę tabeli.

    • Wzorzec daty i godziny jako domyślny rrrr-mm-dd i HH.

    • Wybierz pozycję Połącz

      Zrzut ekranu przedstawiający ustawienia konfiguracji usługi Data Lake Storage.

  11. Wybierz pozycję Zapisz na górnej wstążce, aby zapisać zadanie, a następnie wybierz pozycję Uruchom , aby uruchomić zadanie. Po uruchomieniu zadania wybierz pozycję X w prawym rogu, aby zamknąć stronę zadania usługi Stream Analytics.

    Zrzut ekranu przedstawiający stronę Uruchamianie zadania usługi Stream Analytics.

  12. Następnie zostanie wyświetlona lista wszystkich zadań usługi Stream Analytics utworzonych przy użyciu edytora kodu bez. W ciągu dwóch minut zadanie przejdzie do stanu Uruchomione. Wybierz przycisk Odśwież na stronie, aby wyświetlić zmianę stanu z Utworzone —> uruchamianie —> uruchamianie.

    Zrzut ekranu przedstawiający listę zadań usługi Stream Analytics.

Wyświetlanie danych wyjściowych na koncie usługi Azure Data Lake Storage Gen 2

  1. Znajdź konto usługi Azure Data Lake Storage Gen2 użyte w poprzednim kroku.

  2. Wybierz kontener, który został użyty w poprzednim kroku. Zobaczysz pliki parquet utworzone we wskazanym wcześniej folderze.

    Zrzut ekranu przedstawiający przechwycone pliki parquet w usłudze Azure Data Lake Storage Gen 2.

Wykonywanie zapytań dotyczących przechwyconych danych w formacie Parquet za pomocą usługi Azure Synapse Analytics

Wykonywanie zapytań przy użyciu usługi Azure Synapse Spark

  1. Znajdź obszar roboczy usługi Azure Synapse Analytics i otwórz program Synapse Studio.

  2. Utwórz bezserwerową pulę platformy Apache Spark w obszarze roboczym, jeśli jeszcze nie istnieje.

  3. W programie Synapse Studio przejdź do centrum Programowanie i utwórz nowy notes.

    Zrzut ekranu przedstawiający program Synapse Studio.

  4. Utwórz nową komórkę kodu i wklej następujący kod w tej komórce. Zastąp kontener i adlsname nazwą kontenera i konta usługi ADLS Gen2 użytego w poprzednim kroku.

    %%pyspark
    df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*.parquet', format='parquet')
    display(df.limit(10))
    df.count()
    df.printSchema()
    
  5. W obszarze Dołącz do na pasku narzędzi wybierz pulę Spark z listy rozwijanej.

  6. Wybierz pozycję Uruchom wszystko , aby wyświetlić wyniki

    Zrzut ekranu przedstawiający wyniki uruchamiania platformy Spark w usłudze Azure Synapse Analytics.

Wykonywanie zapytań przy użyciu usługi Azure Synapse Serverless SQL

  1. W centrum Programowanie utwórz nowy skrypt SQL.

    Zrzut ekranu przedstawiający stronę Programowanie z wybranym nowym menu skryptu SQL.

  2. Wklej następujący skrypt i uruchom go przy użyciu wbudowanego bezserwerowego punktu końcowego SQL. Zastąp kontener i adlsname nazwą kontenera i konta usługi ADLS Gen2 użytego w poprzednim kroku.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://adlsname.dfs.core.windows.net/container/*/*.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    

    Zrzut ekranu przedstawiający wyniki skryptu SQL w usłudze Azure Synapse Analytics.

Czyszczenie zasobów

  1. Znajdź wystąpienie usługi Event Hubs i zapoznaj się z listą zadań usługi Stream Analytics w sekcji Przetwarzanie danych . Zatrzymaj wszystkie uruchomione zadania.
  2. Przejdź do grupy zasobów użytej podczas wdrażania generatora zdarzeń TollApp.
  3. Wybierz pozycję Usuń grupę zasobów. Wpisz nazwę grupy zasobów, aby potwierdzić usunięcie.

Następne kroki

W tym samouczku przedstawiono sposób tworzenia zadania usługi Stream Analytics przy użyciu edytora kodu do przechwytywania strumieni danych usługi Event Hubs w formacie Parquet. Następnie użyto usługi Azure Synapse Analytics do wykonywania zapytań dotyczących plików parquet przy użyciu platformy Synapse Spark i usługi Synapse SQL.