Wykonywanie zaawansowanych przekształceń danych przesyłanych strumieniowo za pomocą platform Apache Spark i Kafka w usłudze Azure HDInsight

Średni
Data Engineer
Data Scientist
Azure HDInsight

W tym module dowiesz się, jak tworzyć potoki i aplikacje analizy danych przesyłanych strumieniowo w czasie rzeczywistym w chmurze przy użyciu usługi Azure HDInsight z platformami Apache Kafka i Apache Spark.

Cele szkolenia

Na końcu tego modułu rozumiesz:

  • Kiedy należy używać platformy Apache Spark i platformy Kafka w usłudze HDInsight.
  • Przesyłanie strumieniowe ze strukturą platformy Spark.
  • Architektura rozwiązania Platformy Kafka i platformy Spark.
  • Jak aprowizować usługę HDInsight, utworzyć producenta platformy Kafka i przesłać strumieniowo dane platformy Kafka do notesu Jupyter.
  • Jak replikować dane do klastra pomocniczego.

Wymagania wstępne

Należy spełnić następujące wymagania wstępne:

  • Pomyślnie zaloguj się do witryny Azure Portal.
  • Omówienie opcji usługi Azure Storage.
  • Omówienie opcji obliczeniowych platformy Azure.
  • Tworzenie i konfigurowanie klastra usługi HDInsight w witrynie Azure Portal.