Introduction
En utilisant Azure HDInsight avec Apache Kafka et Apache Spark, vous pouvez créer des pipelines et des applications d’analytique des données de diffusion en continu en temps réel sur le Cloud.
Apache Kafka est un système de messagerie distribué qui utilise des données de streaming entrantes provenant de plusieurs systèmes et les met à la disposition d’autres applications en temps réel. Apache Kafka permet de créer une file d’attente de données ordonnées, puis de répliquer les données sur plusieurs ordinateurs afin qu’il n’y ait pas de point de défaillance unique et de les rendre disponibles pour les serveurs de publication ou les consommateurs. Les serveurs de publication sont les clients qui créent les messages et les ajoutent à la file d’attente Kafka, et les consommateurs reçoivent les messages en fonction de leurs abonnements.
Apache Spark est un système de traitement parallèle qui vous permet de prendre des données à partir de systèmes tels que des Apache Kafka et de transformer et de réagir aux données. Apache Kafka vous permet d’exploiter et d’enregistrer les données, et Apache Spark vous permet de modifier et de traiter les données. Lorsqu’ils sont utilisés ensemble, Spark peut ingérer de petits lots ou des flux continus de données à partir de Kafka et le traiter en temps réel à l’aide de ce que l’on appelle la diffusion structurée. Lorsque les entreprises implémentent la diffusion structurée, elles peuvent utiliser une architecture unique pour traiter les données de traitement par lots, les données de diffusion en continu en temps réel ou une combinaison des deux, ce qui permet aux entreprises de mettre au niveau leurs applications au fur et à mesure qu’elles passent du traitement par lots pour inclure le traitement en temps réel, sans avoir à apprendre ou à implémenter des infrastructures.
En utilisant Apache Kafka et Apache Spark sur Azure HDInsight, vous pouvez créer cette architecture en quelques minutes et tirer parti de l’extensibilité et de la haute disponibilité d’un fournisseur de Cloud en ligne. Cela permet également aux entreprises qui ont créé des applications Kafka et Spark locales de migrer plus facilement ces charges de travail vers le Cloud.
Avec votre travail en tant qu’ingénieur de données dans le secteur bancaire, vous devez être en mesure de commencer à traiter les données de diffusion en continu et de traitement par lots avec une très faible latence et pour vous, Apache Spark et Apache Kafka sont potentiellement les bons outils pour ce travail.
Objectifs d’apprentissage
À la fin de ce module, vous serez en mesure de :
- Utiliser HDInsight
- Diffuser en continu des données avec Apache Kafka
- Décrire Spark Structured Streaming
- Créer une architecture Kafka Spark
- Approvisionner HDInsight pour effectuer des transformations de données
- Créé un producteur Kafka
- Diffuser en continu des données Kafka vers un Jupyter Notebook
- Répliquer des données vers un cluster secondaire