Utföra avancerade datatransformeringar för direktuppspelning med Apache Spark och Kafka i Azure HDInsight

Modul
11 Enheter

Medel

Data Engineer

Data Scientist

Azure HDInsight

I den här modulen får du lära dig hur du skapar pipelines och program för strömmande dataanalys i realtid i molnet med hjälp av Azure HDInsight med Apache Kafka och Apache Spark.

Utbildningsmål

I slutet av den här modulen förstår du:

När du ska använda Apache Spark och Kafka med HDInsight.
Spark Structured Streaming.
Arkitekturen för en Kafka- och Spark-lösning.
Etablera HDInsight, skapa en Kafka-producent och strömma Kafka-data till en Jupyter-notebook-fil.
Så här replikerar du data till ett sekundärt kluster.

Förutsättningar

Följande krav bör vara uppfyllda:

Logga in på Azure Portal.
Förstå Alternativen för Azure-lagring.
Förstå azure-beräkningsalternativen.
Skapa och konfigurera ett HDInsight-kluster i Azure Portal.

Introduktion min
Använda HDInsight Spark och Kafka min
Strömma data med Apache Kafka min
Beskriva Strukturerad Spark-strömning min
Skapa en Kafka- och Spark-arkitektur min
Övning – Etablera HDInsight för att utföra avancerade direktuppspelningsdatatransformeringar min
Övning – Skapa Kafka-producenten min
Övning – Strömma Kafka-data till en Jupyter-anteckningsbok och fönster data min
Replikera data till ett sekundärt kluster min
Modulutvärdering min
Sammanfattning min