Utforska Apache Spark-strukturerad strömning
Apache Spark är ett distribuerat bearbetningsramverk för storskalig dataanalys. Du kan använda Spark på Microsoft Azure i följande tjänster:
- Microsoft Fabric
- Azure Databricks
Spark kan användas för att köra kod (vanligtvis skriven i Python, Scala eller Java) parallellt över flera klusternoder, vilket gör att den kan bearbeta mycket stora datavolymer effektivt. Spark kan användas för både batchbearbetning och dataströmbearbetning.
Spark Structured Streaming
Om du vill bearbeta strömmande data på Spark kan du använda Spark Structured Streaming-biblioteket , som tillhandahåller ett API (Application Programming Interface) för inmatning, bearbetning och utdata från eviga dataströmmar.
Spark Structured Streaming bygger på en allestädes närvarande struktur i Spark som kallas för en dataram, som kapslar in en datatabell. Du använder SPARK Structured Streaming-API:et för att läsa data från en realtidsdatakälla, till exempel en Kafka-hubb, ett fillager eller en nätverksport, till en "gränslös" dataram som kontinuerligt fylls med nya data från strömmen. Sedan definierar du en fråga i dataramen som väljer, projekterar eller aggregerar data – ofta i tidsmässiga fönster. Resultatet av frågan genererar en annan dataram, som kan sparas för analys eller vidare bearbetning.
Spark Structured Streaming är ett bra val för realtidsanalys när du behöver införliva strömmande data i en Spark-baserad datasjö eller ett analysdatalager.
Kommentar
Mer information om Spark Structured Streaming finns i programmeringsguiden för Spark Structured Streaming.
Data Lake
Delta Lake är ett lagringslager med öppen källkod som ger stöd för transaktionskonsekvens, schemaframtvingande och andra vanliga datalagerfunktioner i datasjölagring. Det förenar även lagring för direktuppspelning och batchdata och kan användas i Spark för att definiera relationstabeller för både batch- och dataströmbearbetning. När den används för dataströmbearbetning kan en Delta Lake-tabell användas som en strömmande källa för frågor mot realtidsdata eller som en mottagare som en dataström skrivs till.
Spark-körningarna i Microsoft Fabric och Azure Databricks innehåller stöd för Delta Lake.
Delta Lake kombinerat med Spark Structured Streaming är en bra lösning när du behöver abstrahera batch- och dataströmmen i en datasjö bakom ett relationsschema för SQL-baserade frågor och analyser.
Kommentar
Mer information om Delta Lake finns i Tabellerna Lakehouse och Delta Lake.