Wprowadzenie
Korzystając z usługi Azure HDInsight z platformami Apache Kafka i Apache Spark, można tworzyć potoki i aplikacje analizy danych przesyłanych strumieniowo w czasie rzeczywistym w chmurze.
Apache Kafka to rozproszony system obsługi komunikatów, który pobiera przychodzące dane przesyłane strumieniowo z wielu systemów i udostępnia je innym aplikacjom w czasie rzeczywistym. Platforma Apache Kafka działa przez utworzenie kolejki uporządkowanych danych, a następnie replikowanie danych między wieloma maszynami w taki sposób, aby nie wystąpił pojedynczy punkt awarii i udostępnienie ich tym, co jest nazywane wydawcami lub konsumentami. Wydawcy to klienci, którzy tworzą komunikaty i dodają je do kolejki platformy Kafka, a konsumenci otrzymują komunikaty na podstawie ich subskrypcji.
Apache Spark to system przetwarzania równoległego, który umożliwia zbieranie danych z systemów, takich jak Apache Kafka, przekształcanie i reagowanie na dane. Platforma Apache Kafka umożliwia wykorzystanie i zapisanie danych, a platforma Apache Spark umożliwia modyfikowanie i przetwarzanie danych. W przypadku jednoczesnego użycia platforma Spark może pozyskiwać małe partie lub ciągłe strumienie danych z platformy Kafka i przetwarzać je w czasie rzeczywistym przy użyciu przesyłania strumieniowego ze strukturą. Gdy firmy implementują przesyłanie strumieniowe ze strukturą, mogą używać jednej architektury do przetwarzania danych wsadowych, danych przesyłanych strumieniowo w czasie rzeczywistym lub kombinacji tych dwóch, co umożliwia firmom na wyższy poziom aplikacji podczas przechodzenia z przetwarzania wsadowego w celu uwzględnienia przetwarzania w czasie rzeczywistym, bez konieczności uczenia się lub implementowania różnych struktur.
Korzystając z platform Apache Kafka i Apache Spark w usłudze Azure HDInsight, możesz utworzyć tę architekturę w ciągu kilku minut i korzystać ze skalowalności i wysokiej dostępności dostawcy usług w chmurze online. Dzięki temu firmy, które utworzyły lokalne aplikacje platformy Kafka i Platformy Spark, mogą łatwiej migrować te obciążenia do chmury.
Dzięki swojej pracy jako inżynierowie danych w branży bankowej musisz mieć możliwość rozpoczęcia przetwarzania przychodzących danych przesyłanych strumieniowo i wsadowych z bardzo małym opóźnieniem, a uważasz, że platformy Apache Spark i Apache Kafka mogą być odpowiednimi narzędziami do wykonania zadania.
Cele szkolenia
Na końcu tego modułu wykonasz następujące czynności:
- Korzystanie z usługi HDInsight
- Przesyłanie strumieniowe danych przy użyciu platformy Apache Kafka
- Opis przesyłania strumieniowego ze strukturą platformy Spark
- Tworzenie architektury platformy Kafka Spark
- Aprowizuj usługę HDInsight w celu przeprowadzania przekształceń danych
- Tworzenie producenta platformy Kafka
- Przesyłanie strumieniowe danych platformy Kafka do notesu Jupyter Notebook
- Replikowanie danych do klastra pomocniczego