Konzepte des strukturierten Streamings
Dieser Artikel bietet eine Einführung in das strukturierte Streaming in Azure Databricks.
Was ist strukturiertes Streaming?
Apache Spark Structured Streaming ist eine Quasi-Echtzeit-Verarbeitungs-Engine, die End-to-End-Fehlertoleranz mit genau einmaliger Verarbeitungsgarantien unter Verwendung bekannter Spark-APIs bietet. Mit strukturiertem Streaming können Sie Berechnungen für Streamingdaten genauso ausdrücken wie eine Batchberechnung für statische Daten. Die Structured Streaming-Engine führt die Berechnung inkrementell durch und aktualisiert das Ergebnis kontinuierlich bei Eingang der Streamingdaten.
Aus einem Datenstrom lesen
Sie können strukturiertes Streaming verwenden, um Daten aus unterstützten Datenquellen inkrementell aufzunehmen. Gängige Datenquellen umfassen die folgenden:
- Datendateien im Cloudobjektspeicher. Weitere Informationen finden Sie unter Automatisches Laden.
- Nachrichtenbusse und -warteschlangen. Weitere Informationen finden Sie unter Konfigurieren von Streamingdatenquellen.
- Delta Lake. Weitere Informationen finden Sie unter Delta-Tabelle: Streaming für Lese- und Schreibvorgänge.
Jede Datenquelle bietet eine Reihe von Optionen, um anzugeben, wie Batches von Daten geladen werden. Bei der Konfiguration des Lesers müssen Sie für die folgenden Aufgaben unter Umständen entsprechende Optionen konfigurieren:
- Angeben der Datenquelle oder des Formats (z. B. Dateityp, Trennzeichen und Schema).
- Konfigurieren des Zugriffs auf Quellsysteme (z. B. Porteinstellungen und Anmeldedaten).
- Angeben, wo in einem Stream begonnen werden soll (z. B. Kafka-Offsets oder alle vorhandenen Dateien lesen).
- Festlegen, wie viele Daten in jedem Batch verarbeitet werden (z. B. max. Offsets, Dateien oder Bytes pro Batch). Siehe Konfigurieren der Batchgröße für strukturiertes Streaming in Azure Databricks.
Schreiben in eine Datensenke
Eine Datensenke ist das Ziel eines Streaming-Schreibvorgangs. Zu den gängigen Senken, die in Azure Databricks-Streamingworkloads verwendet werden, gehören die folgenden:
- Deltasee
- Nachrichtenbusse und Warteschlangen
- Schlüsselwertdatenbanken
Wie bei Datenquellen bieten die meisten Datensenken eine Reihe von Optionen, um zu steuern, wie Daten in das Zielsystem geschrieben werden. Bei der Writer-Konfiguration geben Sie die folgenden Optionen an:
- Ausgabemodus (standardmäßig anfügen). Siehe Auswählen eines Ausgabemodus für strukturiertes Streaming.
- Ein Prüfpunktspeicherort (erforderlich für jeden Writer). Siehe Prüfpunkte für strukturiertes Streaming.
- Triggerintervalle. Weitere Informationen finden Sie unter Konfigurieren von Triggerintervallen für strukturiertes Streaming.
- Optionen, welche die Datensenke oder das Format angeben (z. B. Dateityp, Trennzeichen und Schema).
- Optionen, die den Zugriff auf Zielsysteme konfigurieren (z. B. Porteinstellungen und Anmeldeinformationen).