Freigeben über


Konzepte des strukturierten Streamings

Dieser Artikel bietet eine Einführung in das strukturierte Streaming in Azure Databricks.

Was ist strukturiertes Streaming?

Apache Spark Structured Streaming ist eine Quasi-Echtzeit-Verarbeitungs-Engine, die End-to-End-Fehlertoleranz mit genau einmaliger Verarbeitungsgarantien unter Verwendung bekannter Spark-APIs bietet. Mit strukturiertem Streaming können Sie Berechnungen für Streamingdaten genauso ausdrücken wie eine Batchberechnung für statische Daten. Die Structured Streaming-Engine führt die Berechnung inkrementell durch und aktualisiert das Ergebnis kontinuierlich bei Eingang der Streamingdaten.

Aus einem Datenstrom lesen

Sie können strukturiertes Streaming verwenden, um Daten aus unterstützten Datenquellen inkrementell aufzunehmen. Gängige Datenquellen umfassen die folgenden:

Jede Datenquelle bietet eine Reihe von Optionen, um anzugeben, wie Batches von Daten geladen werden. Bei der Konfiguration des Lesers müssen Sie für die folgenden Aufgaben unter Umständen entsprechende Optionen konfigurieren:

  • Angeben der Datenquelle oder des Formats (z. B. Dateityp, Trennzeichen und Schema).
  • Konfigurieren des Zugriffs auf Quellsysteme (z. B. Porteinstellungen und Anmeldedaten).
  • Angeben, wo in einem Stream begonnen werden soll (z. B. Kafka-Offsets oder alle vorhandenen Dateien lesen).
  • Festlegen, wie viele Daten in jedem Batch verarbeitet werden (z. B. max. Offsets, Dateien oder Bytes pro Batch). Siehe Konfigurieren der Batchgröße für strukturiertes Streaming in Azure Databricks.

Schreiben in eine Datensenke

Eine Datensenke ist das Ziel eines Streaming-Schreibvorgangs. Zu den gängigen Senken, die in Azure Databricks-Streamingworkloads verwendet werden, gehören die folgenden:

  • Deltasee
  • Nachrichtenbusse und Warteschlangen
  • Schlüsselwertdatenbanken

Wie bei Datenquellen bieten die meisten Datensenken eine Reihe von Optionen, um zu steuern, wie Daten in das Zielsystem geschrieben werden. Bei der Writer-Konfiguration geben Sie die folgenden Optionen an: