Streamen op Azure Databricks
U kunt Azure Databricks gebruiken voor bijna realtime gegevensopname, verwerking, machine learning en AI voor het streamen van gegevens.
Azure Databricks biedt talloze optimalisaties voor streaming en incrementele verwerking, waaronder de volgende:
- Delta Live Tables biedt declaratieve syntaxis voor incrementele verwerking. Zie Wat is Delta Live Tables?
- Auto Loader vereenvoudigt incrementele opname vanuit cloudobjectopslag. Zie Wat is automatisch laadprogramma?
- Unity Catalog voegt gegevensbeheer toe aan streamingworkloads. Zie Unity Catalog gebruiken met gestructureerd streamen.
Delta Lake biedt de opslaglaag voor deze integraties. Zie lees- en schrijfbewerkingen voor Delta-tabellen.
Zie Model-server met Azure Databricks voor realtime-modellen.
-
Meer informatie over de basisprincipes van bijna realtime en incrementele verwerking met Structured Streaming in Azure Databricks.
-
Leer de belangrijkste concepten voor het configureren van incrementele en bijna realtime workloads met Structured Streaming.
-
Het beheren van de informatie over de tussenliggende status van stateful structured streaming-query's kan helpen bij het voorkomen van onverwachte latentie en productieproblemen.
-
Dit artikel bevat aanbevelingen voor het configureren van workloads voor incrementele productieverwerking met Structured Streaming in Azure Databricks om te voldoen aan latentie- en kostenvereisten voor realtime- of batchtoepassingen.
-
Meer informatie over het bewaken van Structured Streaming-toepassingen in Azure Databricks.
-
Meer informatie over het gebruik van Unity Catalog in combinatie met Structured Streaming in Azure Databricks.
-
Meer informatie over het gebruik van Delta Lake-tabellen als streamingbronnen en sinks.
-
Zie voorbeelden van het gebruik van Spark Structured Streaming met Cassandra, Azure Synapse Analytics, Python-notebooks en Scala-notebooks in Azure Databricks.
Azure Databricks heeft specifieke functies voor het werken met semi-gestructureerde gegevensvelden in Avro, protocolbuffers en JSON-gegevenspayloads. Raadpleeg voor meer informatie:
- Lees- en schrijfbewerkingen voor het streamen van Avro-gegevens
- Protocolbuffers lezen en schrijven
- Query's uitvoeren op JSON-tekenreeksen
Aanvullende bronnen
Apache Spark biedt een programmeerhandleiding voor gestructureerd streamen met meer informatie over Structured Streaming.
Voor naslaginformatie over structured streaming raadt Databricks de volgende Apache Spark-API-verwijzingen aan: