Udostępnij za pośrednictwem


Pojęcia dotyczące przesyłania strumieniowego ze strukturą

Ten artykuł zawiera wprowadzenie do przesyłania strumieniowego ze strukturą w usłudze Azure Databricks.

Co to jest przesyłanie strumieniowe ze strukturą?

Przesyłanie strumieniowe ze strukturą platformy Apache Spark to aparat przetwarzania niemal w czasie rzeczywistym, który oferuje kompleksową odporność na uszkodzenia z dokładnie jednokrotnymi gwarancjami przetwarzania przy użyciu znanych interfejsów API platformy Spark. Przesyłanie strumieniowe ze strukturą umożliwia wyrażanie obliczeń na danych przesyłanych strumieniowo w taki sam sposób, jak wyrażanie obliczeń wsadowych na danych statycznych. Aparat przesyłania strumieniowego ze strukturą wykonuje obliczenia przyrostowo i stale aktualizuje wynik w miarę nadejścia danych przesyłanych strumieniowo.

Odczytywanie ze strumienia danych

Przesyłanie strumieniowe ze strukturą umożliwia przyrostowe pozyskiwanie danych z obsługiwanych źródeł danych. Typowe źródła danych obejmują następujące elementy:

Każde źródło danych udostępnia wiele opcji umożliwiających określenie sposobu ładowania partii danych. Podczas konfigurowania czytnika może być konieczne skonfigurowanie opcji w celu wykonania następujących czynności:

  • Określ źródło danych lub format (na przykład typ pliku, ograniczniki i schemat).
  • Konfigurowanie dostępu do systemów źródłowych (na przykład ustawień portów i poświadczeń).
  • Określ, gdzie rozpocząć w strumieniu (na przykład przesunięcie platformy Kafka lub odczytanie wszystkich istniejących plików).
  • Określ, ile danych jest przetwarzanych w każdej partii (na przykład maksymalne przesunięcia, pliki lub bajty na partię). Zobacz Konfigurowanie rozmiaru partii przesyłania strumieniowego ze strukturą w usłudze Azure Databricks.

Zapisywanie w ujściu danych

Ujście danych jest celem operacji zapisu przesyłania strumieniowego. Typowe ujścia używane w obciążeniach przesyłania strumieniowego usługi Azure Databricks obejmują następujące elementy:

  • Delta Lake
  • Magistrale komunikatów i kolejki
  • Bazy danych par klucz-wartość

Podobnie jak w przypadku źródeł danych, większość ujść danych zapewnia wiele opcji kontrolowania sposobu zapisywania danych w systemie docelowym. Podczas konfigurowania składnika zapisywania należy określić następujące opcje: