Pojęcia dotyczące przesyłania strumieniowego ze strukturą

Artykuł
01/23/2025

Ten artykuł zawiera wprowadzenie do przesyłania strumieniowego ze strukturą w usłudze Azure Databricks.

Co to jest przesyłanie strumieniowe ze strukturą?

Przesyłanie strumieniowe ze strukturą platformy Apache Spark to aparat przetwarzania niemal w czasie rzeczywistym, który oferuje kompleksową odporność na uszkodzenia z dokładnie jednokrotnymi gwarancjami przetwarzania przy użyciu znanych interfejsów API platformy Spark. Przesyłanie strumieniowe ze strukturą umożliwia wyrażanie obliczeń na danych przesyłanych strumieniowo w taki sam sposób, jak wyrażanie obliczeń wsadowych na danych statycznych. Aparat przesyłania strumieniowego ze strukturą wykonuje obliczenia przyrostowo i stale aktualizuje wynik w miarę nadejścia danych przesyłanych strumieniowo.

Odczytywanie ze strumienia danych

Przesyłanie strumieniowe ze strukturą umożliwia przyrostowe pozyskiwanie danych z obsługiwanych źródeł danych. Typowe źródła danych obejmują następujące elementy:

Pliki danych w magazynie obiektów w chmurze. Zobacz Co to jest moduł automatycznego ładowania?.
Magistrale komunikatów i kolejki. Zobacz Konfigurowanie źródeł danych przesyłanych strumieniowo.
Delta Lake. Zobacz Delta table streaming reads and writes (Odczyty i zapisy w tabeli delty).

Każde źródło danych udostępnia wiele opcji umożliwiających określenie sposobu ładowania partii danych. Podczas konfigurowania czytnika może być konieczne skonfigurowanie opcji w celu wykonania następujących czynności:

Określ źródło danych lub format (na przykład typ pliku, ograniczniki i schemat).
Konfigurowanie dostępu do systemów źródłowych (na przykład ustawień portów i poświadczeń).
Określ, gdzie rozpocząć w strumieniu (na przykład przesunięcie platformy Kafka lub odczytanie wszystkich istniejących plików).
Określ, ile danych jest przetwarzanych w każdej partii (na przykład maksymalne przesunięcia, pliki lub bajty na partię). Zobacz Konfigurowanie rozmiaru partii przesyłania strumieniowego ze strukturą w usłudze Azure Databricks.

Zapisywanie w ujściu danych

Ujście danych jest celem operacji zapisu przesyłania strumieniowego. Typowe ujścia używane w obciążeniach przesyłania strumieniowego usługi Azure Databricks obejmują następujące elementy:

Delta Lake
Magistrale komunikatów i kolejki
Bazy danych par klucz-wartość

Podobnie jak w przypadku źródeł danych, większość ujść danych zapewnia wiele opcji kontrolowania sposobu zapisywania danych w systemie docelowym. Podczas konfigurowania składnika zapisywania należy określić następujące opcje:

Tryb danych wyjściowych (domyślnie dołączaj). Zobacz Wybieranie trybu danych wyjściowych dla przesyłania strumieniowego ze strukturą.
Lokalizacja punktu kontrolnego (wymagana dla każdego składnika zapisywania). Zobacz Ustrukturyzowane punkty kontrolne przesyłania strumieniowego.
Interwały wyzwalaczy. Zobacz Konfigurowanie interwałów wyzwalacza przesyłania strumieniowego ze strukturą.
Opcje określające ujście lub format danych (na przykład typ pliku, ograniczniki i schemat).
Opcje służące do konfigurowania dostępu do systemów docelowych (na przykład ustawień portów i poświadczeń).

Udostępnij za pośrednictwem

Pojęcia dotyczące przesyłania strumieniowego ze strukturą

Co to jest przesyłanie strumieniowe ze strukturą?

Odczytywanie ze strumienia danych

Zapisywanie w ujściu danych

Opinia

Dodatkowe zasoby