Úvod
Pomocí Azure HDInsight s Apache Kafka a Apache Sparkem můžete vytvářet kanály a aplikace analýzy dat v reálném čase v cloudu.
Apache Kafka je systém distribuovaného zasílání zpráv, který přijímá příchozí streamovaná data z více systémů a zpřístupňuje je jiným aplikacím v reálném čase. Apache Kafka funguje tak, že vytvoří frontu uspořádaných dat a pak replikuje data napříč několika počítači, aby nedošlo k žádnému selhání a aby byla dostupná pro to, co se označuje jako vydavatelé nebo příjemci. Vydavatelé jsou klienti, kteří vytvářejí zprávy a přidávají je do fronty Kafka a příjemci dostanou zprávy na základě jejich odběrů.
Apache Spark je systém paralelního zpracování, který umožňuje přijímat data ze systémů, jako je Apache Kafka, a transformovat je a reagovat na ně. Apache Kafka umožňuje využívat a ukládat data a Apache Spark umožňuje upravovat a zpracovávat data. Při společném použití může Spark ingestovat malé dávky nebo průběžné datové proudy ze systému Kafka a zpracovávat je v reálném čase pomocí strukturovaného streamování. Když společnosti implementují strukturované streamování, můžou použít jednu architekturu ke zpracování dávkových dat, streamovaných dat v reálném čase nebo kombinaci těchto dvou, což umožňuje společnostem při přechodu z dávkového zpracování na vyšší úroveň, aby zahrnovaly zpracování v reálném čase, aniž by se musely učit nebo implementovat různé architektury.
Pomocí Apache Kafka a Apache Sparku ve službě Azure HDInsight můžete tuto architekturu vytvořit během několika minut a využít výhod škálovatelnosti a vysoké dostupnosti poskytovatele online cloudu. To také umožňuje společnostem, které vytvořily místní aplikace Kafka a Spark, migrovat tyto úlohy do cloudu snadněji.
S vaší úlohou jako Datoví technici v bankovním odvětví musíte být schopni zahájit zpracování příchozích streamovaných a dávkových dat s velmi nízkou latencí a domníváte se, že Apache Spark a Apache Kafka mohou být pro tuto úlohu správnými nástroji.
Cíle výuky
Na konci tohoto modulu:
- Použití SLUŽBY HDInsight
- Streamování dat pomocí Apache Kafka
- Popis strukturovaného streamování Sparku
- Vytvoření architektury Kafka Sparku
- Zřízení SLUŽBY HDInsight pro provádění transformací dat
- Vytvoření producenta Kafka
- Streamování dat Kafka do poznámkového bloku Jupyter
- Replikace dat do sekundárního clusteru