Entscheidungskriterien für die Auswahl der richtigen HDInsight-Konfigurationsoption
Es gibt verschiedene Konfigurationen des HDInsight-Diensts, die für verschiedene Analyseszenarios verwendet werden können. Tatsächlich enthält HDInsight so viele OSS-Analysetechnologien, dass Sie diesen Dienst als Komplettlösung verwenden können, die alle Ihre erweiterten Analyseanforderungen erfüllt. Alle verfügbaren Clustertypen erfüllen die Anforderungen der unten beschriebenen Geschäftsszenarios. Jeder Clustertyp bietet Ihnen vollständige Kontrolle darüber, wie Sie die einzelnen Szenarios in HDInsight verwalten können.
Viele Unternehmen haben ähnliche Anforderungen bezüglich der Gewinnung eines Geschäftswerts aus der Verarbeitung und Analyse von Daten. Dies kann die folgenden Anforderungen umfassen:
Batchverarbeitung
HDInsight kann für ETL- (Extract, Transform and Load = Extrahieren, Transformieren und Laden) und ELT-Vorgänge (Extract, Load and Transform) bei strukturierten und unstrukturierten Daten verwendet werden, wenn Hadoop oder Spark und die Datenverarbeitungsframeworks (einschließlich Hive und Sqoop) verwendet werden.
Data Warehousing
Hierfür werden traditionell lokale relationale Datenbanken wie SQL Server verwendet, und in letzter Zeit wurde häufiger Azure SQL Data Warehouse für strukturierte Daten im Petabytebereich eingesetzt. HDInsight ermöglicht interaktive Abfragen von strukturierten und unstrukturierten Daten in verschiedenen Formaten im Petabytebereich. Dies kann gut funktionieren, wenn Sie Ihre Datenvorgänge und Berichterstellungsanforderungen mithilfe von HDInsight Hadoop mit Hive verwalten.
Streamingdaten
Streamingdaten können unter Verwendung von Spark Streaming aus einer Vielzahl von Quellen mithilfe von HDInsight über eine Event Hubs- oder IoT Hub-Instanz erfasst werden.
Hybrid
Einige Organisationen verfügen bereits über lokale Big Data-Infrastrukturen. Mithilfe von HDInsight können Sie diese Funktionalität auf die Cloud ausweiten.
Der Hauptentscheidungspunkt für die Auswahl der richtigen HDInsight-Clusterkonfiguration basiert auf der Workload, die für den HDInsight-Cluster verwendet wird. Wenn Ihre Organisation mit mehreren Workloads arbeitet, können Sie zu anderen HDInsight-Konfigurationen wechseln, die zu der zu verarbeitenden Workload passen.
Workloadtyp | Clustertyp |
---|---|
Batchverschiebung von Daten | Apache Hadoop |
Data Science – Batch und Streaming | Apache Spark |
Transaktionale Workloads | hbase |
Ad-hoc-Analysen/Data Warehousing | Interaktive Apache-Abfrage |
Streaminganalysen | Apache Kafka |
Wichtig
HDInsight-Cluster sind jeweils für einzelne Workloads oder Technologien in verschiedenen Typen verfügbar. Es gibt keine unterstützte Methode zum Erstellen von Clustern, bei denen mehrere Typen unterstützt werden, z. B. Hadoop und HBase auf einem Cluster. Wenn für Ihre Lösung Technologien erforderlich sind, die auf mehrere HDInsight-Clustertypen verteilt sind, können Sie die unterschiedlichen erforderlichen Clustertypen über ein virtuelles Azure-Netzwerk miteinander verbinden.