Einführung
Dank der Kombination aus Azure HDInsight, Apache Kafka und Apache Spark können Sie Pipelines und Anwendungen für Streamingdatenanalysen in Echtzeit in der Cloud erstellen.
Apache Kafka ist ein verteiltes Messagingsystem, das eingehende Streamingdaten von mehreren Systemen empfängt und diese in Echtzeit für andere Anwendungen verfügbar macht. Apache Kafka erstellt eine Warteschlange mit geordneten Daten und repliziert diese auf mehreren Computern, um einen Single Point of Failure zu vermeiden und die Daten für Verleger oder Consumer verfügbar zu machen. Verleger sind die Clients, die die Nachrichten erstellen und der Kafka-Warteschlange hinzufügen. Consumer empfangen die Nachrichten auf Basis ihrer Abonnements.
Apache Spark ist ein Parallelverarbeitungssystem, das es Ihnen ermöglicht, Daten aus Systemen wie Apache Kafka zu transformieren und darauf zu reagieren. Mit Apache Kafka können Sie die Daten nutzen und speichern. Apache Spark ermöglicht es Ihnen, die Daten zu ändern und zu verarbeiten. Bei gemeinsamer Verwendung kann Spark kleine Batches oder kontinuierliche Datenströme aus Kafka erfassen und in Echtzeit mit dem sogenannten strukturierten Streaming verarbeiten. Wenn Unternehmen strukturiertes Streaming implementieren, können sie in einer einzelnen Architektur Batchdaten, Echtzeitstreamingdaten oder eine Kombination aus beidem verwenden. Dies bietet Unternehmen die Möglichkeit, ihre Anwendungen bei der Umstellung von der Batch- auf die Echtzeitverarbeitung upzugraden, ohne andere Frameworks erlernen oder implementieren zu müssen.
Mithilfe von Apache Kafka und Apache Spark in Azure HDInsight können Sie diese Architektur innerhalb weniger Minuten erstellen und von der Skalierbarkeit und Hochverfügbarkeit eines Onlinecloudanbieters profitieren. Dies ermöglicht es Unternehmen, die lokale Kafka- und Spark-Anwendungen erstellt haben, diese Workloads leichter in die Cloud migrieren.
Als Data Engineer im Bankwesen müssen Sie in der Lage sein, die Verarbeitung eingehender Streaming- und Batchdaten mit sehr geringer Latenz zu starten, und Sie glauben, dass Apache Spark und Apache Kafka die richtigen Tools dafür sein können.
Lernziele
In diesem Modul lernen Sie Folgendes:
- Verwenden von HDInsight
- Streamen von Daten mit Apache Kafka
- Beschreiben von Spark Structured Streaming
- Erstellen einer Kafka-Spark-Architektur
- Bereitstellen von HDInsight zum Durchführen von Datentransformationen
- Erstellen eines Kafka-Producers
- Streamen von Kafka-Daten an eine Jupyter Notebook-Instanz
- Replizieren von Daten in einem sekundären Cluster