Introduktion
Genom att använda Azure HDInsight med Apache Kafka och Apache Spark kan du skapa pipelines och program för strömmande dataanalys i realtid i molnet.
Apache Kafka är ett distribuerat meddelandesystem som tar inkommande strömmande data från flera system och gör den tillgänglig för andra program i realtid. Apache Kafka fungerar genom att skapa en kö med beställda data och sedan replikera data över flera datorer så att det inte finns någon enskild felpunkt och göra dem tillgängliga för vad som kallas utgivare eller konsumenter. Utgivare är de klienter som skapar meddelandena och lägger till dem i Kafka-kön, och konsumenterna får meddelandena baserat på sina prenumerationer.
Apache Spark är ett parallellt bearbetningssystem som gör att du kan ta data från system som Apache Kafka och transformera och reagera på data. Med Apache Kafka kan du utnyttja och spara data, och Med Apache Spark kan du ändra och bearbeta data. När spark används tillsammans kan de mata in små batchar eller kontinuerliga dataströmmar från Kafka och bearbeta dem i realtid med hjälp av det som kallas strukturerad strömning. När företag implementerar strukturerad strömning kan de använda en enda arkitektur för att bearbeta batchdata, realtidsströmningsdata eller en kombination av de två, vilket gör det möjligt för företag att öka nivån på sina program när de går från batchbearbetning till att inkludera realtidsbearbetning, utan att behöva lära sig eller implementera olika ramverk.
Genom att använda Apache Kafka och Apache Spark i Azure HDInsight kan du skapa den här arkitekturen på några minuter och dra nytta av skalbarheten och hög tillgänglighet för en molnleverantör online. Detta gör det också möjligt för företag som har skapat lokala Kafka- och Spark-program att migrera dessa arbetsbelastningar till molnet enklare.
Med ditt jobb som Dataingenjör i bankbranschen måste du kunna börja bearbeta inkommande strömnings- och batchdata med mycket låg svarstid, och du tror att Apache Spark och Apache Kafka kan vara rätt verktyg för jobbet.
Utbildningsmål
I slutet av den här modulen kommer du att:
- Använda HDInsight
- Strömma data med Apache Kafka
- Beskriva spark-strukturerad direktuppspelning
- Skapa en Kafka Spark-arkitektur
- Etablera HDInsight för att utföra datatransformeringar
- Skapa en Kafka-producent
- Strömma Kafka-data till en Jupyter Notebook
- Replikera data till ett sekundärt kluster