Utföra avancerade datatransformeringar för direktuppspelning med Apache Spark och Kafka i Azure HDInsight
I den här modulen får du lära dig hur du skapar pipelines och program för strömmande dataanalys i realtid i molnet med hjälp av Azure HDInsight med Apache Kafka och Apache Spark.
Utbildningsmål
I slutet av den här modulen förstår du:
- När du ska använda Apache Spark och Kafka med HDInsight.
- Spark Structured Streaming.
- Arkitekturen för en Kafka- och Spark-lösning.
- Etablera HDInsight, skapa en Kafka-producent och strömma Kafka-data till en Jupyter-notebook-fil.
- Så här replikerar du data till ett sekundärt kluster.
Förutsättningar
Följande krav bör vara uppfyllda:
- Logga in på Azure Portal.
- Förstå Alternativen för Azure-lagring.
- Förstå azure-beräkningsalternativen.
- Skapa och konfigurera ett HDInsight-kluster i Azure Portal.