Utiliser des critères de décision pour sélectionner l’option de configuration HDInsight appropriée
Différentes configurations du service HDInsight peuvent être utilisées pour différents scénarios d’analyse. En fait, HDInsight contient un si grand nombre de technologies d’analytique OSS qu’il peut être considéré comme un guichet unique pour répondre à vos besoins analytiques avancés. Tous les différents types de cluster disponibles peuvent répondre aux besoins des scénarios d’entreprise décrits ci-dessous. Chaque type de cluster vous procure un contrôle total sur la façon dont vous gérez chacun de ces scénarios dans HDInsight.
De nombreuses entreprises ont des besoins similaires concernant les scénarios de traitement et d’analyse des données pour en faire dériver une valeur métier. Voici quelques exemples d’exigences :
Traitement par lots
HDInsight peut être utilisé pour effectuer des opérations d’extraction, de transformation et de chargement (ETL) ou des opérations d’extraction, de chargement et de transformation (ELT) sur des données structurées et non structurées à l’aide d’Hadoop ou de Spark ainsi que les frameworks de traitement de données, parmi lesquels Hive et Sqoop.
Entrepôt de données
Traditionnellement effectué par des bases de données relationnelles locales, telles que SQL Server, et plus récemment avec Azure SQL Data Warehouse sur des données structurées de l’ordre de plusieurs pétaoctets. HDInsight permet d’effectuer des requêtes interactives à l’échelle du pétaoctet sur des données structurées ou non structurées dans de nombreux formats. Cette fonctionnalité peut être très utile si vous gérez vos opérations de données et vos impératifs de création de rapports à l’aide d’HDInsight Hadoop avec Hive.
Diffusion de données
Les données de streaming peuvent être ingérées à partir de diverses sources à l’aide de HDInsight via un hub d’événements ou un hub IoT avec Spark Streaming.
Hybride
Certaines organisations disposent déjà d’infrastructures Big Data locales. Vous pouvez étendre la fonctionnalité au cloud à l’aide de HDInsight.
Le choix de l’option de configuration de cluster HDInsight appropriée dépend de la charge de travail que le cluster HDInsight va traiter. Si votre organisation gère plusieurs charges de travail, il n’est pas rare de basculer vers différentes configurations HDInsight pour choisir celle qui correspond à la charge de travail qui nécessite un traitement.
Type de charge de travail | Type de cluster |
---|---|
Déplacement de données par lots | Apache Hadoop |
Science des données – Lot et diffusion en continu | Apache Spark |
Charges de travail transactionnelles | hbase |
Analyse/entreposage de données ad hoc | Requête interactive Apache |
Analyse de la diffusion en continu | Apache Kafka |
Important
Les clusters HDInsight sont disponibles dans différents types, chacun d’eux pour une charge de travail ou une technologie unique. Aucune méthode ne permet de créer un cluster combinant plusieurs types, comme Storm et HBase sur un seul cluster. Si votre solution a besoin de technologies réparties sur plusieurs types de clusters HDInsight, un réseau virtuel Azure peut connecter les types de cluster nécessaires.