Entscheidungskriterien für die Auswahl der richtigen HDInsight-Konfigurationsoption

7 Minuten

Es gibt verschiedene Konfigurationen des HDInsight-Diensts, die für verschiedene Analyseszenarios verwendet werden können. Tatsächlich enthält HDInsight so viele OSS-Analysetechnologien, dass Sie diesen Dienst als Komplettlösung verwenden können, die alle Ihre erweiterten Analyseanforderungen erfüllt. Alle verfügbaren Clustertypen erfüllen die Anforderungen der unten beschriebenen Geschäftsszenarios. Jeder Clustertyp bietet Ihnen vollständige Kontrolle darüber, wie Sie die einzelnen Szenarios in HDInsight verwalten können. 

Viele Unternehmen haben ähnliche Anforderungen bezüglich der Gewinnung eines Geschäftswerts aus der Verarbeitung und Analyse von Daten. Dies kann die folgenden Anforderungen umfassen:

Batchverarbeitung

HDInsight kann für ETL- (Extract, Transform and Load = Extrahieren, Transformieren und Laden) und ELT-Vorgänge (Extract, Load and Transform) bei strukturierten und unstrukturierten Daten verwendet werden, wenn Hadoop oder Spark und die Datenverarbeitungsframeworks (einschließlich Hive und Sqoop) verwendet werden.  

Data Warehousing

Hierfür werden traditionell lokale relationale Datenbanken wie SQL Server verwendet, und in letzter Zeit wurde häufiger Azure SQL Data Warehouse für strukturierte Daten im Petabytebereich eingesetzt. HDInsight ermöglicht interaktive Abfragen von strukturierten und unstrukturierten Daten in verschiedenen Formaten im Petabytebereich. Dies kann gut funktionieren, wenn Sie Ihre Datenvorgänge und Berichterstellungsanforderungen mithilfe von HDInsight Hadoop mit Hive verwalten. 

Streamingdaten

Streamingdaten können unter Verwendung von Spark Streaming aus einer Vielzahl von Quellen mithilfe von HDInsight über eine Event Hubs- oder IoT Hub-Instanz erfasst werden.  

Hybrid

Einige Organisationen verfügen bereits über lokale Big Data-Infrastrukturen. Mithilfe von HDInsight können Sie diese Funktionalität auf die Cloud ausweiten.

Der Hauptentscheidungspunkt für die Auswahl der richtigen HDInsight-Clusterkonfiguration basiert auf der Workload, die für den HDInsight-Cluster verwendet wird. Wenn Ihre Organisation mit mehreren Workloads arbeitet, können Sie zu anderen HDInsight-Konfigurationen wechseln, die zu der zu verarbeitenden Workload passen.

Workloadtyp	Clustertyp
Batchverschiebung von Daten	Apache Hadoop
Data Science – Batch und Streaming	Apache Spark
Transaktionale Workloads	hbase
Ad-hoc-Analysen/Data Warehousing	Interaktive Apache-Abfrage
Streaminganalysen	Apache Kafka

Wichtig

HDInsight-Cluster sind jeweils für einzelne Workloads oder Technologien in verschiedenen Typen verfügbar. Es gibt keine unterstützte Methode zum Erstellen von Clustern, bei denen mehrere Typen unterstützt werden, z. B. Hadoop und HBase auf einem Cluster. Wenn für Ihre Lösung Technologien erforderlich sind, die auf mehrere HDInsight-Clustertypen verteilt sind, können Sie die unterschiedlichen erforderlichen Clustertypen über ein virtuelles Azure-Netzwerk miteinander verbinden.

Entscheidungskriterien für die Auswahl der richtigen HDInsight-Konfigurationsoption

Batchverarbeitung

Data Warehousing

Streamingdaten

Hybrid

Feedback