Einführung

2 Minuten

Dank der Kombination aus Azure HDInsight, Apache Kafka und Apache Spark können Sie Pipelines und Anwendungen für Streamingdatenanalysen in Echtzeit in der Cloud erstellen.

Apache Kafka ist ein verteiltes Messagingsystem, das eingehende Streamingdaten von mehreren Systemen empfängt und diese in Echtzeit für andere Anwendungen verfügbar macht. Apache Kafka erstellt eine Warteschlange mit geordneten Daten und repliziert diese auf mehreren Computern, um einen Single Point of Failure zu vermeiden und die Daten für Verleger oder Consumer verfügbar zu machen. Verleger sind die Clients, die die Nachrichten erstellen und der Kafka-Warteschlange hinzufügen. Consumer empfangen die Nachrichten auf Basis ihrer Abonnements.

Apache Spark ist ein Parallelverarbeitungssystem, das es Ihnen ermöglicht, Daten aus Systemen wie Apache Kafka zu transformieren und darauf zu reagieren. Mit Apache Kafka können Sie die Daten nutzen und speichern. Apache Spark ermöglicht es Ihnen, die Daten zu ändern und zu verarbeiten. Bei gemeinsamer Verwendung kann Spark kleine Batches oder kontinuierliche Datenströme aus Kafka erfassen und in Echtzeit mit dem sogenannten strukturierten Streaming verarbeiten. Wenn Unternehmen strukturiertes Streaming implementieren, können sie in einer einzelnen Architektur Batchdaten, Echtzeitstreamingdaten oder eine Kombination aus beidem verwenden. Dies bietet Unternehmen die Möglichkeit, ihre Anwendungen bei der Umstellung von der Batch- auf die Echtzeitverarbeitung upzugraden, ohne andere Frameworks erlernen oder implementieren zu müssen.

Mithilfe von Apache Kafka und Apache Spark in Azure HDInsight können Sie diese Architektur innerhalb weniger Minuten erstellen und von der Skalierbarkeit und Hochverfügbarkeit eines Onlinecloudanbieters profitieren. Dies ermöglicht es Unternehmen, die lokale Kafka- und Spark-Anwendungen erstellt haben, diese Workloads leichter in die Cloud migrieren.

Als Data Engineer im Bankwesen müssen Sie in der Lage sein, die Verarbeitung eingehender Streaming- und Batchdaten mit sehr geringer Latenz zu starten, und Sie glauben, dass Apache Spark und Apache Kafka die richtigen Tools dafür sein können.

Lernziele

In diesem Modul lernen Sie Folgendes:

Verwenden von HDInsight
Streamen von Daten mit Apache Kafka
Beschreiben von Spark Structured Streaming
Erstellen einer Kafka-Spark-Architektur
Bereitstellen von HDInsight zum Durchführen von Datentransformationen
Erstellen eines Kafka-Producers
Streamen von Kafka-Daten an eine Jupyter Notebook-Instanz
Replizieren von Daten in einem sekundären Cluster

Einführung

Lernziele

Feedback