Inleiding
Met behulp van Azure HDInsight met Apache Kafka en Apache Spark kunt u realtime pijplijnen en toepassingen voor streaminggegevensanalyse maken in de cloud.
Apache Kafka is een gedistribueerd berichtensysteem dat binnenkomende streaminggegevens van meerdere systemen accepteert en deze in realtime beschikbaar maakt voor andere toepassingen. Apache Kafka werkt door een wachtrij met geordende gegevens te maken en vervolgens de gegevens over meerdere computers te repliceren, zodat er geen single point of failure is en deze beschikbaar maakt voor wat uitgevers of consumenten worden genoemd. Uitgevers zijn de clients die de berichten maken en deze toevoegen aan de Kafka-wachtrij en consumenten ontvangen de berichten op basis van hun abonnementen.
Apache Spark is een systeem voor parallelle verwerking waarmee u gegevens kunt ophalen uit systemen zoals Apache Kafka en gegevens kunt transformeren en erop kunt reageren. Met Apache Kafka kunt u de gegevens gebruiken en opslaan. Met Apache Spark kunt u de gegevens wijzigen en verwerken. Wanneer spark samen wordt gebruikt, kan er kleine batches of continue gegevensstromen uit Kafka worden opgenomen en realtime worden verwerkt met behulp van gestructureerde streaming. Wanneer bedrijven gestructureerde streaming implementeren, kunnen ze één architectuur gebruiken voor het verwerken van batchgegevens, realtime streaminggegevens of een combinatie van de twee, waarmee bedrijven hun toepassingen kunnen verhogen wanneer ze van batchverwerking overstappen naar realtime verwerking, zonder dat ze hoeven te leren of verschillende frameworks te implementeren.
Met behulp van Apache Kafka en Apache Spark in Azure HDInsight kunt u deze architectuur binnen enkele minuten maken en profiteren van de schaalbaarheid en hoge beschikbaarheid van een onlinecloudprovider. Hierdoor kunnen bedrijven die on-premises Kafka- en Spark-toepassingen hebben gemaakt, deze workloads eenvoudiger migreren naar de cloud.
Met uw taak als een Data-engineer in de banksector, moet u in staat zijn om binnenkomende streaming- en batchgegevens met zeer lage latentie te verwerken en u denkt dat Apache Spark en Apache Kafka mogelijk de juiste hulpprogramma's voor de taak zijn.
Leerdoelen
Aan het einde van deze module gaat u het volgende doen:
- HDInsight gebruiken
- Gegevens streamen met Apache Kafka
- Spark structured streaming beschrijven
- Een Kafka Spark-architectuur maken
- HDInsight inrichten om gegevenstransformaties uit te voeren
- Een Kafka-producent maken
- Kafka-gegevens streamen naar een Jupyter Notebook
- Gegevens repliceren naar een secundair cluster