Présentation de HDInsight

Effectué

Les énormes volumes, la diversité et la vitesse à laquelle les données sont générées aujourd’hui ont révélé la nécessité d’utiliser des systèmes capables de fonctionner efficacement avec les données semi-structurées et non structurées générées. Les systèmes de gestion de base de données relationnelle (SGBDR) classiques ont bien tenté de traiter, stocker et analyser les « Big Data ». Mais c’est le monde des logiciels open source (OSS) qui a réellement créé une révolution. Les OSS utilisent le matériel courant de manière distribuée, en le combinant à des logiciels pour mettre à l’échelle les données et les analyses au-delà des limites imposées à des serveurs uniques.

Les OSS sont disponibles gratuitement pour les organisations et les particuliers. Le manque de gouvernance et de prise en charge des OSS dans le passé a rendu difficile leur adoption par certaines entreprises. Avec l’avènement du cloud, de nombreux fournisseurs de cloud hébergent ces services et fournissent un support managé aux organisations qui utilisent les technologies OSS. Cette proposition est intéressante pour les entreprises qui tirent parti des avantages des OSS sans supporter le coût associé à leur gestion et à leur prise en charge. Les OSS envahissent souvent l’espace du Big Data. Cet espace regorge de technologies conçues non seulement pour traiter et stocker des données, mais aussi pour effectuer des analyses. L’analytique OSS permet une stratégie d’application multi-cloud ouverte qui n’est pas liée à un fournisseur de cloud unique. Elle procure une portabilité, que vous deviez déplacer des solutions locales vers le cloud ou entre différents fournisseurs de cloud.

Hadoop est l’une des principales technologies d’analytique OSS utilisées dans les solutions Big Data. Cette solution stocke généralement les données dans un système de fichiers DFS Hadoop (HDFS) et utilise un cluster d’ordinateurs courants, avec un modèle de programmation appelé MapReduce. Ce modèle de programmation permet un traitement distribué de jeux de données volumineux dans un flux de données linéaire. Pour améliorer les performances, Apache Spark s’appuie sur les fonctionnalités architecturales de Hadoop, mais remplace le paradigme MapReduce par le modèle RDD (Resilient Distributed Dataset). RDD fournit un moteur de données en mémoire bien plus rapide.

Il est intéressant de noter que l’analytique OSS a dépassé l’application traditionnelle des solutions Big Data avec Hadoop et Spark. L’analytique OSS intègre désormais une large gamme de logiciels, notamment les suivants :

  • Kafka et Flink pour les scénarios de diffusion en continu
  • Presto et Kylin en tant que couches d’abstraction SQL
  • Couches AI ajoutées avec H20.ai et Dataiku

Azure HDInsight est un service cloud d’analyse managé, complet et open source pour les entreprises. Chez Microsoft, l’analytique OSS est implémentée dans Azure HDInsight. Vous pouvez utiliser des frameworks open source tels que Hadoop, Apache Spark, Apache Hive, LLAP et Apache Kafka. Vous bénéficiez également des avantages en termes de sécurité de niveau entreprise, de fonctionnalités de monitoring et d’options de haute disponibilité normalement offerts par un service hébergé sur Azure. Azure HDInsight est également extensible et personnalisable pour gérer un large éventail de scénarios client.