Strumienie platformy Kafka dla usługi Azure Event Hubs

Artykuł
08/24/2024

Ten artykuł zawiera szczegółowe informacje na temat sposobu, w jaki biblioteka klienta usługi Kafka Streams jest udostępniana za pomocą usługi Azure Event Hubs.

Uwaga

Funkcje strumieni platformy Kafka są dostępne tylko w publicznej wersji zapoznawczej dla usług Event Hubs Premium i Dedykowanych.

Omówienie

Apache Kafka Streams to tylko biblioteka klienta języka Java, która udostępnia platformę do przetwarzania danych przesyłanych strumieniowo i tworzenia aplikacji w czasie rzeczywistym względem danych przechowywanych w tematach platformy Kafka. Wszystkie operacje przetwarzania są ograniczone do klienta, natomiast tematy platformy Kafka działają jako magazyn danych dla danych pośrednich, zanim dane wyjściowe będą zapisywane w temacie docelowym.

Usługa Event Hubs udostępnia punkt końcowy platformy Kafka do użycia z istniejącymi aplikacjami klienckimi platformy Kafka jako alternatywę dla uruchamiania własnego klastra platformy Kafka. Usługa Event Hubs współpracuje z wieloma istniejącymi aplikacjami platformy Kafka. Aby uzyskać więcej informacji, zobacz Event Hubs for Apache Kafka (Usługa Event Hubs dla platformy Apache Kafka).

Używanie strumieni platformy Kafka z usługą Azure Event Hubs

Usługa Azure Event Hubs natywnie obsługuje zarówno protokół AMQP, jak i kafka. Jednak aby zapewnić zgodne zachowanie strumieni platformy Kafka, niektóre z domyślnych parametrów konfiguracji muszą zostać zaktualizowane dla klientów platformy Kafka.

Właściwości	Domyślne zachowanie usługi Event Hubs	Zmodyfikowane zachowanie strumieni platformy Kafka	Wyjaśnienie
`messageTimestampType`	ustaw wartość na `AppendTime`	należy ustawić wartość na `CreateTime`	Strumienie platformy Kafka korzystają z sygnatury czasowej tworzenia, a nie dołączania znacznika czasu
`message.timestamp.difference.max.ms`	maksymalna dozwolona wartość to 90 dni	Właściwość służy tylko do zarządzania znacznikami czasu przeszłości. Czas przyszły jest ustawiony na 1 godzinę i nie można go zmienić.	Jest to zgodne ze specyfikacją protokołu Platformy Kafka
`min.compaction.lag.ms`		maksymalna dozwolona wartość to dwa dni
Tematy dotyczące nieskończonego przechowywania		obcinanie na podstawie rozmiaru 250 GB dla każdej partycji tematu
Usuwanie interfejsu API rekordów dla tematów dotyczących nieskończonego przechowywania		Nie zaimplementowano. Aby obejść ten problem, można go zaktualizować i można ustawić ograniczony czas przechowywania.	Zostanie to zrobione w ogólnie dostępnej

Inne uwagi

Oto niektóre z innych zagadnień, które należy wziąć pod uwagę.

Aplikacje klienckie platformy Kafka muszą mieć przyznane uprawnienia do zarządzania, odczytu i zapisu dla całej przestrzeni nazw, aby móc tworzyć tymczasowe tematy na potrzeby przetwarzania strumienia.
Tematy tymczasowe i partycje są liczone do limitu przydziału dla danej przestrzeni nazw. Należy je zachować podczas aprowizacji przestrzeni nazw lub klastra.
Nieskończony czas przechowywania magazynu "Przesunięcie" jest ograniczony przez maksymalny czas przechowywania komunikatów jednostki SKU. Sprawdź limity przydziału usługi Event Hubs dla tych wartości specyficznych dla warstwy.

Obejmują one aktualizowanie konfiguracji tematu w messageTimestampType celu użycia CreateTime (czyli czasu tworzenia zdarzenia) zamiast AppendTime (czyli czasu dołączania dziennika).

Aby zastąpić domyślne zachowanie (wymagane), poniższe ustawienie należy ustawić w usłudze Azure Resource Manager (ARM).

Uwaga

Wyświetlane są tylko określone części szablonu usługi ARM, aby wyróżnić konfigurację, która musi zostać zaktualizowana.

{
  "parameters": {
    "namespaceName": "contoso-test-namespace",
    "resourceGroupName": "contoso-resource-group",
    "eventHubName": "contoso-event-hub-kafka-streams-test",
    ...
    "parameters": {
      "properties": {
        ...
        "messageTimestampType": "CreateTime",
        "retentionDescription": {
          "cleanupPolicy": "Delete",
          "retentionTimeInHours": -1,
          "tombstoneRetentionTimeInHours": 1
        }
      }
    }
  }
}

Pojęcia dotyczące strumieni platformy Kafka

Strumienie platformy Kafka udostępnia prostą warstwę abstrakcji w interfejsach API producentów i konsumentów platformy Kafka, które ułatwiają deweloperom szybsze rozpoczęcie pracy ze scenariuszami przesyłania strumieniowego w czasie rzeczywistym. Biblioteka o lekkiej wadze zależy od brokera zgodnego z platformą Apache Kafka (na przykład usługi Azure Event Hubs) dla warstwy wewnętrznej obsługi komunikatów i zarządza magazynem stanu lokalnym odpornym na błędy. Dzięki transakcyjnym interfejsowi API biblioteka strumieni platformy Kafka obsługuje zaawansowane funkcje przetwarzania, takie jak dokładnie jednokrotne przetwarzanie i jeden rekord w czasie przetwarzania.

Rekordy wychodzące z zamówienia korzystają z operacji okien opartych na czasie zdarzenia.

Uwaga

Zalecamy zapoznanie się z dokumentacją usługi Kafka Streams i podstawowymi pojęciami dotyczącymi usługi Kafka Streams.

Strumienie

Strumień to abstrakcyjna reprezentacja tematu platformy Kafka. Składa się z niezwiązanego, ciągłego aktualizowania zestawu danych niezmiennych rekordów danych, gdzie każdy rekord danych jest parą klucz-wartość.

Topologia przetwarzania strumienia

Aplikacja strumieniowa platformy Kafka definiuje logikę obliczeniową za pośrednictwem języka DAG (skierowanego grafu acyklicznego) reprezentowanego przez topologię procesora. Topologia procesora składa się z procesorów strumieni (węzłów w topologii), które reprezentują krok przetwarzania połączony ze strumieniami (krawędzie w topologii).

Procesory strumienia mogą być połączone łańcuchem do nadrzędnych procesorów lub procesorów podrzędnych, z wyjątkiem niektórych przypadków specjalnych:

Procesory źródłowe — te procesory nie mają żadnych procesorów nadrzędnych i odczytują bezpośrednio z jednego lub większej liczby strumieni. Następnie można je połączyć w łańcuch do procesorów podrzędnych.
Procesory ujścia — te procesory nie mają żadnych procesorów podrzędnych i muszą zapisywać bezpośrednio w strumieniu.

Topologię przetwarzania strumieniowego można zdefiniować za pomocą języka DSL strumieni platformy Kafka lub interfejsu API procesora niższego poziomu.

Podwójność strumieni i tabeli

Strumienie i tabele to 2 różne, ale przydatne abstrakcje udostępniane przez rozszerzenie DSL strumieni platformy Kafka, modelując zarówno szeregi czasowe, jak i formaty danych relacyjnych, które muszą współistnieć w przypadku użycia przetwarzania strumieniowego.

Platforma Kafka rozszerza tę funkcję i wprowadza podwójność między strumieniami i tabelami, gdzie

Strumień można traktować jako dziennik zmian tabeli i
Tabelęmożna traktować jako migawkę najnowszej wartości każdego klucza w strumieniu.

Ta podwójność umożliwia używanie tabel i strumieni zamiennie zgodnie z wymaganiami przypadku użycia.

Na przykład

Łączenie statycznych danych klienta (modelowanych jako tabela) z transakcjami dynamicznymi (modelowane jako strumień) i
Dołączanie do zmieniających się pozycji portfela w portfelu dziennym (modelowane jako strumień) przy użyciu najnowszego źródła danych rynku (modelowanego jako strumienia).

Czas

Strumienie platformy Kafka umożliwiają pozyskiwanie poza kolejnością rekordów danych i korzystanie z funkcji prolongaty, które nadal są uwzględniane w przetwarzaniu. Aby upewnić się, że to zachowanie jest deterministyczne, istnieją dodatkowe pojęcia czasu w strumieniach platformy Kafka. Są to:

Czas utworzenia (znany również jako "Czas zdarzenia") — jest to czas wystąpienia zdarzenia i utworzenia rekordu danych.
Czas przetwarzania — jest to czas przetwarzania rekordu danych przez aplikację przetwarzania strumieniowego (lub gdy jest on używany).
Czas dołączania (znany również jako "Czas utworzenia") — jest to czas przechowywania i zatwierdzania danych w magazynie brokera platformy Kafka. Różni się to od czasu utworzenia ze względu na różnicę czasu między utworzeniem zdarzenia a rzeczywistym pozyskiwaniem przez brokera.

Operacje stanowe

Zarządzanie stanem umożliwia zaawansowane aplikacje do przetwarzania strumieniowego, takie jak łączenie i agregowanie danych z różnych strumieni. Jest to osiągane w przypadku magazynów stanów udostępnianych przez usługi Kafka Streams i uzyskiwanych do ich dostępu przy użyciu operatorów stanowych w języku DSL strumieni platformy Kafka.

Przekształcenia stanowe w języku DSL obejmują:

Agregowania
Przyłączenie
Okno (w ramach agregacji i sprzężeń)
Stosowanie niestandardowych procesorów i transformatorów, które mogą być stanowe na potrzeby integracji interfejsu API procesora

Okno i łaska

Operacje okien w języku DSL strumieni platformy Kafka umożliwiają deweloperom kontrolowanie sposobu grupowania rekordów dla danego klucza dla operacji stanowych, takich jak agregacje i sprzężenia.

Operacje okien umożliwiają również określenie okresu prolongaty, aby zapewnić pewną elastyczność rekordów poza kolejnością dla danego okna. Rekord przeznaczony dla danego okna i pojawia się po danym oknie, ale w okresie prolongaty jest akceptowany. Rekordy przychodzące po zakończeniu okresu prolongaty są odrzucane.

Aplikacje muszą korzystać z kontrolek okien i okresów prolongaty, aby poprawić odporność na uszkodzenia rekordów poza kolejnością. Odpowiednie wartości różnią się w zależności od obciążenia i muszą być identyfikowane empirycznie.

Gwarancje przetwarzania

Użytkownicy biznesowi i techniczni starają się wyodrębnić kluczowe informacje biznesowe z danych wyjściowych obciążeń przetwarzania strumieniowego, co przekłada się na wysokie wymagania dotyczące gwarancji transakcyjnych. Strumienie platformy Kafka współpracują z transakcjami platformy Kafka w celu zapewnienia gwarancji przetwarzania transakcyjnego dzięki integracji z podstawowym systemem magazynu brokerów platformy Kafka (takimi jak usługa Azure Event Hubs), aby zapewnić niepodzielne zapisywanie zatwierdzeń przesunięcia i aktualizacji magazynu stanów.

Aby zapewnić gwarancje przetwarzania transakcyjnego, processing.guarantee ustawienie w konfiguracjach strumieni platformy Kafka musi zostać zaktualizowane z wartości domyślnej at_least_once na exactly_once_v2 (w przypadku wersji klienta w systemie Apache Kafka 2.5) lub exactly_once (w przypadku wersji klienta przed platformą Apache Kafka 2.5.x).

Następne kroki

W tym artykule przedstawiono wprowadzenie do usługi Event Hubs dla platformy Kafka. Aby dowiedzieć się więcej, zobacz Przewodnik dla deweloperów platformy Apache Kafka dotyczący usługi Azure Event Hubs.

Aby zapoznać się z samouczkiem z instrukcjami krok po kroku dotyczącymi tworzenia centrum zdarzeń i uzyskiwania do niego dostępu przy użyciu sygnatury dostępu współdzielonego lub protokołu OAuth, zobacz Szybki start: przesyłanie strumieniowe danych za pomocą usługi Event Hubs przy użyciu protokołu Kafka.

Zapoznaj się również z przykładami OAuth w witrynie GitHub.

Udostępnij za pośrednictwem

Strumienie platformy Kafka dla usługi Azure Event Hubs

Omówienie

Używanie strumieni platformy Kafka z usługą Azure Event Hubs

Inne uwagi

Pojęcia dotyczące strumieni platformy Kafka

Strumienie

Topologia przetwarzania strumienia

Podwójność strumieni i tabeli

Czas

Operacje stanowe

Okno i łaska

Gwarancje przetwarzania

Następne kroki

Opinia

Dodatkowe zasoby