Was ist HDInsight?
Die Geschwindigkeit, mit der riesige Datenmengen unterschiedlichster Art heutzutage generiert werden, macht Systeme notwendig, die diese generierten teil- und unstrukturierten Daten effizient verarbeiten können. Es wurde versucht, „Big Data“ mit herkömmlichen Managementsystemen für relationale Datenbanken (RDBMS) zu verarbeiten, zu speichern und zu analysieren. Am Ende brachte den Durchbruch jedoch die Welt der Open-Source-Software (OSS). OSS nutzt Standardhardware auf verteilte Weise in Kombination mit Software zum Skalieren von Daten und Analysen über die Grenzen einzelner Server hinaus.
OSS kann kostenlos von Organisationen und Einzelpersonen genutzt werden. Das Fehlen von Governance und Support für OSS hat den Einsatz für einige Unternehmen in der Vergangenheit jedoch schwierig gemacht. Mit der Einführung der Cloud konnten viele Cloudanbieter diese Dienste hosten und Unternehmen einen verwalteten Support für die Verwendung von OSS-Technologien bieten. Dieses Angebot ist für viele Unternehmen attraktiv, da sie so die Vorteile von OSS nutzen können, ohne dass Kosten für Verwaltung und Support anfallen. Gerade auf dem Gebiet von Big Data ist OSS sehr häufig anzutreffen. Für diesen Bereich gibt es nicht nur viele Technologien für die Verarbeitung und Speicherung von Daten, sondern auch für die Durchführung von Analysen. OSS-Analysen ermöglichen eine Multicloudstrategie mit offenen Anwendungen, die nicht an einen einzelnen Cloudanbieter gebunden ist. So erzielen Sie Portabilität, selbst wenn Sie Ihre Lösungen von einem lokalen Standort in die Cloud oder zwischen verschiedenen Cloudanbietern verschieben.
Eine der zentralen OSS-Analysetechnologien, die für Big Data-Lösungen verwendet wird, ist Hadoop. In der Regel werden Daten in einem verteilten Hadoop-Dateisystem (Hadoop Distributed File System, HDFS) gespeichert. Außerdem kommt ein Cluster von Standardcomputern mit einem Programmiermodell namens MapReduce zur Anwendung. Dieses Programmiermodell ermöglicht die verteilte Verarbeitung großer Datenmengen in einem linearen Dataflow. Zur Verbesserung der Leistung baut Apache Spark auf die Architekturfunktionen von Hadoop auf, ersetzt aber das MapReduce-Paradigma durch RDD (Resilient Distributed Dataset, resilientes verteiltes Dataset). RDD bietet eine speicherinterne Daten-Engine, die deutlich schneller ist.
Beachten Sie in dem Zusammenhang auch, dass OSS-Analysen weit über die herkömmliche Anwendung von Big Data-Lösungen mit Hadoop und Spark hinaus gehen. OSS-Analysen umfassen jetzt eine große Bandbreite von Software, einschließlich der folgenden:
- Kafka und Flink für Streamingszenarien
- Presto und Kylin als SQL-Abstraktionsschichten
- KI-Schichten mit H20.ai und Dataiku
Azure HDInsight ist ein umfassender, verwalteter Open-Source-Analysedienst in der Cloud für Unternehmen. Bei Microsoft werden OSS-Analysen über Azure HDInsight implementiert. Sie können Open-Source-Frameworks wie Hadoop, Apache Spark, Apache Hive, LLAP und Apache Kafka verwenden. Außerdem profitieren Sie von den Sicherheits- und Überwachungsfunktionen auf Unternehmensniveau und den Optionen für Hochverfügbarkeit, die Sie von einem in Azure gehosteten Dienst erwartet können. Azure HDInsight ist darüber hinaus erweiterbar und anpassbar, um verschiedenste Kundenszenarien zu bewältigen.