Udostępnij za pośrednictwem


Dodawanie miejsca docelowego lakehouse do strumienia zdarzeń

W tym artykule pokazano, jak dodać usługę Lakehouse jako miejsce docelowe do strumieni zdarzeń w strumieniach zdarzeń usługi Microsoft Fabric. Aby zoptymalizować wydajność przesyłania strumieniowego i wykonywanie zapytań w czasie rzeczywistym, rozważ przesyłanie strumieniowe danych do magazynu zdarzeń z dodawaniem miejsca docelowego usługi Eventhouse do strumienia zdarzeń, a następnie włącz dostępność usługi Eventhouse OneLake.

Uwaga

Rozszerzone możliwości są domyślnie włączone podczas tworzenia strumieni zdarzeń. Jeśli masz strumienie zdarzeń utworzone przy użyciu standardowych możliwości, te strumienie zdarzeń będą nadal działać. Nadal możesz edytować i używać ich jak zwykle. Zalecamy utworzenie nowego strumienia zdarzeń w celu zastąpienia standardowych strumieni zdarzeń, dzięki czemu można korzystać z dodatkowych możliwości i korzyści z rozszerzonych strumieni zdarzeń.

Ważne

Istnieje wymuszanie schematu do zapisywania danych w tabeli docelowej lakehouse. Wszystkie nowe zapisy w tabeli muszą być zgodne ze schematem tabeli docelowej w czasie zapisu, zapewniając jakość danych.

Gdy dane wyjściowe są zapisywane w nowej tabeli różnicowej, schemat tabeli jest tworzony na podstawie pierwszego rekordu. Wszystkie rekordy danych wyjściowych są rzutowane na schemat istniejącej tabeli.

Jeśli dane przychodzące mają kolumny, które nie znajdują się w istniejącym schemacie tabeli, dodatkowe kolumny nie są uwzględniane w danych zapisanych w tabeli. Podobnie, jeśli w istniejącym schemacie tabeli brakuje danych przychodzących, brakujące kolumny zapisują w tabeli z wartościami ustawionymi na wartość null.

Wymagania wstępne

  • Dostęp do obszaru roboczego w trybie licencji pojemności sieci szkieletowej (lub) w trybie licencji próbnej z uprawnieniami współautora lub wyższymi uprawnieniami.
  • Dostęp do obszaru roboczego, w którym znajduje się usługa Lakehouse z uprawnieniami współautora lub wyższymi uprawnieniami.

Uwaga

Maksymalna liczba źródeł i miejsc docelowych dla jednego strumienia zdarzeń wynosi 11.

Dodawanie magazynu lakehouse jako miejsca docelowego

Aby dodać miejsce docelowe usługi Lakehouse do domyślnego lub pochodnego strumienia zdarzeń, wykonaj następujące kroki.

  1. W trybie edycji dla strumienia zdarzeń wybierz pozycję Dodaj miejsce docelowe na wstążce i wybierz pozycję Lakehouse z listy rozwijanej.

    Zrzut ekranu przedstawiający listę rozwijaną Dodaj miejsce docelowe z wyróżnioną pozycją Lakehouse.

  2. Połącz węzeł lakehouse z węzłem lub operatorem strumienia.

  3. Na ekranie konfiguracji usługi Lakehouse wypełnij następujące informacje:

    1. Wprowadź nazwę miejsca docelowego.
    2. Wybierz obszar roboczy zawierający swoją usługę Lakehouse.
    3. Wybierz istniejącą usługę Lakehouse z określonego obszaru roboczego.
    4. Wybierz istniejącą tabelę delty lub utwórz nową, aby odbierać dane.
    5. Wybierz format danych wejściowych, który jest wysyłany do usługi Lakehouse. Obsługiwane formaty danych to JSON, Avro i CSV (z nagłówkiem).

    Zrzut ekranu przedstawiający górną część ekranu konfiguracji usługi Lakehouse.

  4. Wybierz opcję Zaawansowane.

  5. Dwa tryby pozyskiwania są dostępne dla miejsca docelowego lakehouse. W zależności od scenariusza skonfiguruj te tryby, aby zoptymalizować sposób zapisywania strumieni zdarzeń w usłudze Fabric w usłudze Lakehouse.

    • Minimalna liczba wierszy to minimalna liczba wierszy pozyskiwanych przez usługę Lakehouse w jednym pliku. Wartość minimalna to 1 wiersz, a maksymalna to 2 miliony wierszy na plik. Mniejsza minimalna liczba wierszy, tym więcej plików tworzonych przez lakehouse podczas pozyskiwania.

    • Maksymalny czas trwania to maksymalny czas trwania, jaki zajmuje lakehouse pozyskiwanie pojedynczego pliku. Minimalna wartość to 1 minuta, a maksymalna to 2 godziny. Dłuższy czas trwania, tym więcej wierszy jest pozyskiwanych w pliku.

    Zrzut ekranu przedstawiający sekcję Zaawansowane na ekranie konfiguracji usługi Lakehouse.

  6. Wybierz pozycję Zapisz.

  7. Aby zaimplementować nowo dodane miejsce docelowe usługi Lakehouse, wybierz pozycję Publikuj.

    Zrzut ekranu przedstawiający miejsce docelowe strumienia i usługi Lakehouse w trybie edycji z wyróżnionym przyciskiem Publikuj.

Po wykonaniu tych kroków miejsce docelowe usługi Lakehouse będzie dostępne dla wizualizacji w widoku na żywo. W okienku Szczegóły możesz wybrać skrót Optymalizuj tabelę w notesie , aby uruchomić zadanie platformy Apache Spark w notesie, które konsoliduje małe pliki przesyłane strumieniowo w docelowej tabeli lakehouse.

Zrzut ekranu przedstawiający miejsce docelowe lakehouse i przycisk optymalizacji tabeli w widoku na żywo.

Aby dowiedzieć się, jak dodać inne miejsca docelowe do strumienia zdarzeń, zobacz następujące artykuły:

Wymagania wstępne

Przed rozpoczęciem należy spełnić następujące wymagania wstępne:

  • Dostęp do obszaru roboczego w trybie licencji pojemności sieci szkieletowej (lub) w trybie licencji próbnej z uprawnieniami współautora lub wyższymi uprawnieniami.
  • Uzyskaj dostęp do obszaru roboczego z uprawnieniami współautora lub wyższymi uprawnieniami, w których znajduje się usługa Lakehouse.

Uwaga

Maksymalna liczba źródeł i miejsc docelowych dla jednego strumienia zdarzeń wynosi 11.

Dodawanie magazynu lakehouse jako miejsca docelowego

Jeśli masz utworzoną usługę Lakehouse w obszarze roboczym, wykonaj następujące kroki, aby dodać usługę Lakehouse do strumienia zdarzeń jako miejsce docelowe:

  1. Wybierz pozycję Nowe miejsce docelowe na wstążce lub "+" na kanwie edytora głównego, a następnie wybierz pozycję Lakehouse. Zostanie wyświetlony ekran konfiguracji miejsca docelowego usługi Lakehouse .

  2. Wprowadź nazwę miejsca docelowego strumienia zdarzeń i uzupełnij informacje o urządzeniu lakehouse.

    Zrzut ekranu przedstawiający ekran konfiguracji docelowej usługi Lakehouse.

    1. Lakehouse: wybierz istniejący lakehouse z określonego obszaru roboczego.

    2. Tabela delty: wybierz istniejącą tabelę delty lub utwórz nową, aby odbierać dane.

      Uwaga

      Podczas zapisywania danych w tabeli lakehouse istnieje wymuszanie schematu. Oznacza to, że wszystkie nowe operacje zapisu w tabeli muszą być zgodne ze schematem tabeli docelowej w czasie zapisu, zapewniając jakość danych.

      Wszystkie rekordy danych wyjściowych są rzutowane na schemat istniejącej tabeli. Podczas zapisywania danych wyjściowych w nowej tabeli delty schemat tabeli jest tworzony na podstawie pierwszego rekordu. Jeśli dane przychodzące mają dodatkową kolumnę w porównaniu z istniejącym schematem tabeli, zapisuje w tabeli bez uwzględniania dodatkowej kolumny. Z drugiej strony, jeśli brakuje kolumny danych przychodzących w porównaniu z istniejącym schematem tabeli, zapisuje w tabeli wartość z wartością kolumny ustawioną na wartość null.

    3. Format danych wejściowych: wybierz format danych (danych wejściowych) wysyłanych do usługi Lakehouse.

      Uwaga

      Obsługiwane formaty danych zdarzeń wejściowych to pliki JSON, Avro i CSV (z nagłówkiem).

    4. Przetwarzanie zdarzeń: edytor przetwarzania zdarzeń umożliwia określenie sposobu przetwarzania danych przed wysłaniem ich do usługi Lakehouse. Wybierz pozycję Otwórz procesor zdarzeń, aby otworzyć edytor przetwarzania zdarzeń. Aby dowiedzieć się więcej na temat przetwarzania w czasie rzeczywistym przy użyciu procesora zdarzeń, zobacz Przetwarzanie danych zdarzeń za pomocą edytora procesora zdarzeń. Po zakończeniu pracy z edytorem wybierz pozycję Gotowe , aby powrócić do ekranu konfiguracji docelowej usługi Lakehouse .

      Zrzut ekranu przedstawiający edytor procesora zdarzeń.

  3. Dwa tryby pozyskiwania są dostępne dla miejsca docelowego lakehouse. Wybierz jeden z tych trybów, aby zoptymalizować sposób zapisywania funkcji strumieni zdarzeń w usłudze Fabric w usłudze Lakehouse na podstawie scenariusza.

    1. Wiersze na plik — minimalna liczba wierszy pozyskanych przez usługę Lakehouse w jednym pliku. Mniejsza minimalna liczba wierszy, tym więcej plików tworzonych przez usługę Lakehouse podczas pozyskiwania. Minimalna wartość to 1 wiersz. Maksymalna liczba to 2 mln wierszy na plik.

    2. Czas trwania — maksymalny czas trwania pozyskiwania pojedynczego pliku przez usługę Lakehouse. Dłuższy czas trwania, więcej wierszy jest pozyskiwanych w pliku. Minimalna wartość to 1 minuta, a wartość maksymalna to 2 godziny.

      Zrzut ekranu przedstawiający tryby pozyskiwania.

  4. Wybierz pozycję Dodaj , aby dodać miejsce docelowe lakehouse.

  5. Skrót optymalizacji tabeli dostępny w miejscu docelowym usługi Lakehouse. To rozwiązanie ułatwia uruchomienie zadania platformy Spark w notesie, które konsoliduje te małe pliki przesyłane strumieniowo w docelowej tabeli Lakehouse.

    Zrzut ekranu przedstawiający ustawienia optymalizacji tabeli.

  6. Miejsce docelowe lakehouse pojawia się na kanwie z obracającym się wskaźnikiem stanu. Zmiana stanu systemu na Aktywny trwa kilka minut.

    Zrzut ekranu przedstawiający miejsce docelowe lakehouse.

Zarządzanie miejscem docelowym

Edytuj/usuń: możesz edytować lub usunąć miejsce docelowe strumienia zdarzeń za pośrednictwem okienka nawigacji lub kanwy.

Po wybraniu pozycji Edytuj okienko edycji zostanie otwarte po prawej stronie edytora głównego. Konfigurację można zmodyfikować zgodnie z życzeniem, w tym logikę przekształcania zdarzeń za pośrednictwem edytora procesora zdarzeń.

Zrzut ekranu przedstawiający miejsce wybierania opcji modyfikowania i usuwania miejsc docelowych na kanwie.

Aby dowiedzieć się, jak dodać inne miejsca docelowe do strumienia zdarzeń, zobacz następujące artykuły: