Pojęcia dotyczące przesyłania strumieniowego ze strukturą
Ten artykuł zawiera wprowadzenie do przesyłania strumieniowego ze strukturą w usłudze Azure Databricks.
Co to jest przesyłanie strumieniowe ze strukturą?
Przesyłanie strumieniowe ze strukturą platformy Apache Spark to aparat przetwarzania niemal w czasie rzeczywistym, który oferuje kompleksową odporność na uszkodzenia z dokładnie jednokrotnymi gwarancjami przetwarzania przy użyciu znanych interfejsów API platformy Spark. Przesyłanie strumieniowe ze strukturą umożliwia wyrażanie obliczeń na danych przesyłanych strumieniowo w taki sam sposób, jak wyrażanie obliczeń wsadowych na danych statycznych. Aparat przesyłania strumieniowego ze strukturą wykonuje obliczenia przyrostowo i stale aktualizuje wynik w miarę nadejścia danych przesyłanych strumieniowo.
Odczytywanie ze strumienia danych
Przesyłanie strumieniowe ze strukturą umożliwia przyrostowe pozyskiwanie danych z obsługiwanych źródeł danych. Typowe źródła danych obejmują następujące elementy:
- Pliki danych w magazynie obiektów w chmurze. Zobacz Co to jest moduł automatycznego ładowania?.
- Magistrale komunikatów i kolejki. Zobacz Konfigurowanie źródeł danych przesyłanych strumieniowo.
- Delta Lake. Zobacz Delta table streaming reads and writes (Odczyty i zapisy w tabeli delty).
Każde źródło danych udostępnia wiele opcji umożliwiających określenie sposobu ładowania partii danych. Podczas konfigurowania czytnika może być konieczne skonfigurowanie opcji w celu wykonania następujących czynności:
- Określ źródło danych lub format (na przykład typ pliku, ograniczniki i schemat).
- Konfigurowanie dostępu do systemów źródłowych (na przykład ustawień portów i poświadczeń).
- Określ, gdzie rozpocząć w strumieniu (na przykład przesunięcie platformy Kafka lub odczytanie wszystkich istniejących plików).
- Określ, ile danych jest przetwarzanych w każdej partii (na przykład maksymalne przesunięcia, pliki lub bajty na partię). Zobacz Konfigurowanie rozmiaru partii przesyłania strumieniowego ze strukturą w usłudze Azure Databricks.
Zapisywanie w ujściu danych
Ujście danych jest celem operacji zapisu przesyłania strumieniowego. Typowe ujścia używane w obciążeniach przesyłania strumieniowego usługi Azure Databricks obejmują następujące elementy:
- Delta Lake
- Magistrale komunikatów i kolejki
- Bazy danych par klucz-wartość
Podobnie jak w przypadku źródeł danych, większość ujść danych zapewnia wiele opcji kontrolowania sposobu zapisywania danych w systemie docelowym. Podczas konfigurowania składnika zapisywania należy określić następujące opcje:
- Tryb danych wyjściowych (domyślnie dołączaj). Zobacz Wybieranie trybu danych wyjściowych dla przesyłania strumieniowego ze strukturą.
- Lokalizacja punktu kontrolnego (wymagana dla każdego składnika zapisywania). Zobacz Ustrukturyzowane punkty kontrolne przesyłania strumieniowego.
- Interwały wyzwalaczy. Zobacz Konfigurowanie interwałów wyzwalacza przesyłania strumieniowego ze strukturą.
- Opcje określające ujście lub format danych (na przykład typ pliku, ograniczniki i schemat).
- Opcje służące do konfigurowania dostępu do systemów docelowych (na przykład ustawień portów i poświadczeń).