Freigeben über


Streaming in Azure Databricks

Sie können Azure Databricks verwenden, um nahezu in Echtzeit Daten zu erfassen und zu verarbeiten sowie maschinelles Lernen und KI für Streamingdaten zu nutzen.

Azure Databricks bietet zahlreiche Optimierungen für das Streaming und die inkrementelle Verarbeitung, darunter folgende:

Delta Lake stellt die Speicherebene für diese Integrationen bereit. Weitere Informationen finden Sie unter Delta-Tabelle: Streaming für Lese- und Schreibvorgänge.

Informationen zur Echtzeitmodellbereitstellung finden Sie unter Modellbereitstellung mit Azure Databricks.

  • Tutorial

    Lernen Sie die Grundlagen der nahezu Echtzeit- und inkrementellen Verarbeitung mit Structured Streaming auf Azure Databricks kennen.

  • Konzepte

    Erfahren Sie mehr über die wichtigsten Konzepte zum Konfigurieren inkrementeller und quasi in Echtzeit erfolgender Workloads mit strukturiertem Streaming.

  • Zustandsbehaftetes Streaming

    Das Verwalten der Zwischenstatusinformationen von zustandsbehafteten strukturierten Streaming-Abfragen kann dazu beitragen, unerwartete Latenz- und Produktionsprobleme zu verhindern.

  • Überlegungen zur Produktion

    Dieser Artikel enthält Empfehlungen zum Konfigurieren von Workloads für die inkrementelle Produktionsverarbeitung mit strukturiertem Streaming auf Azure Databricks, um Latenz- und Kostenanforderungen für Echtzeit- oder Batchanwendungen zu erfüllen.

  • Überwachen von Streams

    Erfahren Sie, wie Sie strukturierte Streaming-Anwendungen auf Azure Databricks überwachen.

  • Unity Catalog-Integration

    Erfahren Sie, wie Sie Unity Catalog in Verbindung mit strukturiertem Streaming in Azure Databricks nutzen.

  • Streaming mit Delta

    Erfahren Sie, wie Sie Delta Lake-Tabellen als Streamingquellen und -senken verwenden.

  • Beispiele

    Beispiele für die Verwendung von Spark Structured Streaming mit Cassandra, Azure Synapse Analytics, Python-Notebooks und Scala-Notebooks finden Sie in Azure Databricks.

Azure Databricks verfügt über spezielle Features zum Arbeiten mit halbstrukturierten Datenfeldern, die in Avro, Protokollpuffern und JSON-Datennutzlasten enthalten sind. Weitere Informationen finden Sie unter:

Zusätzliche Ressourcen

Apache Spark bietet ein Programmierhandbuch zu strukturiertem Streaming mit weiteren Informationen zum strukturierten Streaming.

Für Referenzinformationen zum strukturierten Streaming empfiehlt Databricks die folgende Apache Spark API-Referenzen: