Streaming in Azure Databricks
Sie können Azure Databricks verwenden, um nahezu in Echtzeit Daten zu erfassen und zu verarbeiten sowie maschinelles Lernen und KI für Streamingdaten zu nutzen.
Azure Databricks bietet zahlreiche Optimierungen für das Streaming und die inkrementelle Verarbeitung, darunter folgende:
- Delta Live Tables bietet eine deklarative Syntax für die inkrementelle Verarbeitung. Weitere Informationen finden Sie unter Was sind Delta Live-Tabellen?.
- Das automatische Laden vereinfacht die inkrementelle Erfassung aus dem Cloudobjektspeicher. Weitere Informationen finden Sie unter Automatisches Laden.
- Unity Catalog fügt den Streaming-Workloads Data Governance hinzu. Weitere Informationen finden Sie unter Verwenden von Unity Catalog mit strukturiertem Streaming.
Delta Lake stellt die Speicherebene für diese Integrationen bereit. Weitere Informationen finden Sie unter Delta-Tabelle: Streaming für Lese- und Schreibvorgänge.
Informationen zur Echtzeitmodellbereitstellung finden Sie unter Modellbereitstellung mit Azure Databricks.
-
Lernen Sie die Grundlagen der nahezu Echtzeit- und inkrementellen Verarbeitung mit Structured Streaming auf Azure Databricks kennen.
-
Erfahren Sie mehr über die wichtigsten Konzepte zum Konfigurieren inkrementeller und quasi in Echtzeit erfolgender Workloads mit strukturiertem Streaming.
-
Das Verwalten der Zwischenstatusinformationen von zustandsbehafteten strukturierten Streaming-Abfragen kann dazu beitragen, unerwartete Latenz- und Produktionsprobleme zu verhindern.
-
Dieser Artikel enthält Empfehlungen zum Konfigurieren von Workloads für die inkrementelle Produktionsverarbeitung mit strukturiertem Streaming auf Azure Databricks, um Latenz- und Kostenanforderungen für Echtzeit- oder Batchanwendungen zu erfüllen.
-
Erfahren Sie, wie Sie strukturierte Streaming-Anwendungen auf Azure Databricks überwachen.
-
Erfahren Sie, wie Sie Unity Catalog in Verbindung mit strukturiertem Streaming in Azure Databricks nutzen.
-
Erfahren Sie, wie Sie Delta Lake-Tabellen als Streamingquellen und -senken verwenden.
-
Beispiele für die Verwendung von Spark Structured Streaming mit Cassandra, Azure Synapse Analytics, Python-Notebooks und Scala-Notebooks finden Sie in Azure Databricks.
Azure Databricks verfügt über spezielle Features zum Arbeiten mit halbstrukturierten Datenfeldern, die in Avro, Protokollpuffern und JSON-Datennutzlasten enthalten sind. Weitere Informationen finden Sie unter:
- Lesen und Schreiben von Avro-Streamingdaten
- Lesen und Schreiben von Protokollpuffern
- Abfragen von JSON-Zeichenfolgen
Zusätzliche Ressourcen
Apache Spark bietet ein Programmierhandbuch zu strukturiertem Streaming mit weiteren Informationen zum strukturierten Streaming.
Für Referenzinformationen zum strukturierten Streaming empfiehlt Databricks die folgende Apache Spark API-Referenzen: