Auswählen einer Big Data-Speichertechnologie in Azure

Artikel
10/14/2024

In diesem Artikel werden Datenspeicheroptionen für Big Data-Lösungen verglichen – insbesondere Datenspeicher für die Massendatenerfassung und Batchverarbeitung (im Gegensatz zu Analysedatenspeichern oder Streamingerfassung in Echtzeit).

Welche Datenspeicheroptionen stehen in Azure zur Verfügung?

Daten können auf verschiedene Arten in Azure erfasst werden. Für welche Option Sie sich entscheiden, hängt ganz von Ihren Anforderungen ab.

Einheitlicher logischer Data Lake:

OneLake in Microsoft Fabric

Dateispeicher:

NoSQL-Datenbanken:

Analytische Datenbanken:

Azure Data Explorer

OneLake in Fabric

OneLake in Fabric ist ein einheitlicher und logischer Data Lake, der auf die gesamte Organisation zugeschnitten ist. Er dient als zentraler Hub für alle Analysedaten und ist in jedem Microsoft Fabric-Mandanten enthalten. OneLake in Fabric basiert auf der Grundlage von Data Lake Storage Gen2.

OneLake in Fabric:

unterstützt strukturierte und unstrukturierte Dateitypen.
speichert alle tabellarischen Daten im Delta Parquet-Format.
stellt einen einzelnen Data Lake innerhalb von Mandantengrenzen bereit, der standardmäßig gesteuert wird.
unterstützt die Erstellung von Arbeitsbereichen innerhalb eines Mandanten, sodass eine Organisation Besitz- und Zugriffsrichtlinien verteilen kann.
unterstützt die Erstellung verschiedener Datenelemente, z. B. Lakehouses und Warehouses, über die Sie auf Daten zugreifen können.

OneLake in Fabric dient als gemeinsamer Speicherort für Erfassung, Transformation, Echtzeiterkenntnisse und Business Intelligence-Visualisierungen. Er zentralisiert verschiedene Fabric-Dienste und speichert Datenelemente, die von allen Workloads in Fabric verwendet werden. Informationen dazu, wie Sie den passenden Datenspeicher für Ihre Fabric-Workloads auswählen, finden Sie unter Microsoft Fabric-Entscheidungsleitfaden: Auswählen eines Datenspeichers.

Azure Storage-Blobs

Azure Storage ist ein verwalteter, hochverfügbarer, sicherer, stabiler, skalierbarer und redundanter Speicherdienst. Microsoft übernimmt die Wartung und behandelt kritische Probleme für Sie. Die große Menge von Diensten und Tools, die mit dieser Lösung verwendet werden können, macht Azure Storage zur am weitesten verbreiteten Speicherlösung von Azure.

Für die Datenspeicherung stehen verschiedene Azure Storage-Dienste zur Verfügung. Die flexibelste Option zum Speichern von Blobs aus vielen Datenquellen ist Blob Storage. Blobs sind im Grunde Dateien. Sie eignen sich unter anderem zum Speichern von Bildern, Dokumenten, HTML-Dateien, virtuellen Festplatten (Virtual Hard Disks, VHDs) und Big Data wie Protokollen und Datenbanksicherungen. Blobs werden in Containern gespeichert, die Ordnern ähneln. Ein Container stellt eine Gruppierung eines Blob-Satzes bereit. Ein Speicherkonto kann eine unbegrenzte Anzahl von Containern enthalten, und in einem Container kann eine unbegrenzte Anzahl von Blobs gespeichert werden.

Azure Storage ist flexibel, hochverfügbar und kostengünstig – und somit eine gute Wahl für Big Data- und Analyselösungen. Die Lösung bietet eine heiße und eine kalte Speicherebene sowie eine Archivspeicherebene für verschiedene Anwendungsfälle. Weitere Informationen finden Sie unter Azure Blob Storage: Speicherebenen „Heiß“ (Hot), „Kalt“ (Cool) und „Archiv“.

Auf Azure Blob Storage kann über Hadoop (verfügbar über HDInsight) zugegriffen werden. In HDInsight kann ein Blobcontainer in Azure Storage als Standarddateisystem für den Cluster verwendet werden. Über eine durch einen WASB-Treiber bereitgestellte Hadoop Distributed File System (HDFS)-Schnittstelle können sämtliche Komponenten in HDInsight direkt mit strukturierten oder unstrukturierten Daten arbeiten, die als Blobs gespeichert sind. Auf Azure Blob Storage kann auch über das PolyBase-Feature von Azure Synapse Analytics zugegriffen werden.

Darüber hinaus sprechen folgende Features für Azure Storage:

Mehrere Parallelitätsstrategien
Optionen für Notfallwiederherstellung und Hochverfügbarkeit
Verschlüsselung ruhender Daten
Rollenbasierte Zugriffssteuerung in Azure (RBAC) zum Steuern des Zugriffs mithilfe von Microsoft Entra-Benutzern und -Gruppen

Data Lake Storage Gen2

Data Lake Storage Gen2 ist ein einzelnes, zentralisiertes Repository, in dem Sie alle Ihre Daten speichern können, sowohl strukturierte als auch unstrukturierte. Mit einem Data Lake kann Ihre Organisation eine Vielzahl von Daten schnell und einfach an einem zentralen Ort speichern, darauf zugreifen und sie analysieren. Mit einem Data Lake müssen Sie Ihre Daten nicht an eine vorhandene Struktur anpassen. Stattdessen können Sie Ihre Daten im Rohformat oder nativen Format speichern, in der Regel als Dateien oder als Binary Large Objects (Blobs).

Data Lake Storage Gen2 vereint die Funktionen von Azure Data Lake Storage Gen1 und Azure Blob Storage. Beispielsweise bietet Data Lake Storage Gen2 Dateisystemsemantik, Sicherheit auf Dateiebene und Skalierung. Da diese Funktionen auf Blob Storage basieren, profitieren Sie gleichzeitig von kostengünstigem, mehrstufigem Speicher mit Hochverfügbarkeit und Notfallwiederherstellungsfunktionen.

Mit Data Lake Storage Gen2 wird Azure Storage zur Grundlage für das Erstellen von Enterprise Data Lakes in Azure. Data Lake Storage Gen2 wurde eigens für die Verarbeitung mehrerer Petabyte an Informationen bei gleichzeitiger Unterstützung eines Durchsatzes von Hunderten von Gigabit konzipiert und bietet Ihnen eine einfache Möglichkeit, riesige Datenmengen zu verwalten.

Azure Cosmos DB

Azure Cosmos DB ist eine global verteilte Datenbank von Microsoft mit mehreren Modellen. Azure Cosmos DB garantiert Wartezeiten im einstelligen Millisekundenbereich im 99. Perzentil an jedem Ort der Welt, bietet mehrere gut definierte Konsistenzmodelle zur Optimierung der Leistung und garantiert Hochverfügbarkeit mit Multihostingfunktionen.

Azure Cosmos DB ist schemaunabhängig. Die Lösung indiziert automatisch alle Daten, sodass Sie sich nicht mit der Schema- und Indexverwaltung befassen müssen. Außerdem unterstützt sie nativ mehrere Datenmodelle wie Dokumente, Schlüssel-Wert-Paare, Diagramme und spaltenbasierte Daten.

Features von Azure Cosmos DB:

HBase in HDInsight

Apache HBase ist eine Open-Source-NoSQL-Datenbank, die auf Hadoop basiert und nach dem Vorbild von Google BigTable erstellt wurde. HBase bietet wahlfreien Zugriff und starke Konsistenz für große Mengen unstrukturierter und teilweise strukturierter Daten in einer schemalosen Datenbank, die nach Spaltenfamilien gegliedert ist.

Daten werden in den Zeilen einer Tabelle gespeichert und die Daten in einer Zeile zu einer Spaltenfamilie zusammengefasst. HBase ist insofern schemalos, als weder die Spalten noch der Typ der darin gespeicherten Daten vor der Verwendung definiert werden müssen. Der Open-Source-Code lässt sich linear skalieren, sodass Petabytes von Daten auf Tausenden von Knoten verarbeitet werden können. HBase nutzt Datenredundanz, Stapelverarbeitung und andere Funktionen, die von verteilten Anwendungen im Hadoop-Ökosystem zur Verfügung gestellt werden.

Die HDInsight-Implementierung verwendet die horizontal skalierte Architektur von HBase für ein automatisches Sharding von Tabellen, eine robuste Konsistenz bei Lese- und Schreibvorgängen sowie ein automatisches Failover. Die Leistung wird durch speicherinterne Zwischenspeicherung für Lesevorgänge und Schreibvorgänge mit hohem Durchsatz optimiert. In den meisten Fällen sollten Sie den HBase-Cluster in einem virtuellen Netzwerk erstellen, damit andere HDInsight-Cluster und Anwendungen direkt auf die Tabellen zugreifen können.

Azure-Daten-Explorer

Azure Data Explorer ist ein schneller und hochgradig skalierbarer Dienst zur Untersuchung von Protokoll- und Telemetriedaten. Er bietet die Möglichkeit, zahlreiche Datenströme moderner Software zu verarbeiten, um Daten zu sammeln, zu speichern und zu analysieren. Azure-Daten-Explorer ist ideal zum Analysieren von großen Mengen unterschiedlicher Daten aus beliebigen Datenquellen geeignet, z.B. Websites, Anwendungen, IoT-Geräte und mehr. Diese Daten werden für die Diagnose, Überwachung, Berichterstellung, Machine Learning und weitere Analysefunktionen verwendet. Azure Data Explorer ermöglicht das einfache Erfassen dieser Daten, und Sie können komplexe ungeplante Abfragen der Daten innerhalb von Sekunden ausführen.

Azure Data Explorer kann linear aufskaliert werden, um den Durchsatz bei der Erfassung und Abfrageverarbeitung zu erhöhen. Ein Azure Data Explorer-Cluster kann in einem virtuellen Netzwerk bereitgestellt werden, um private Netzwerke zu unterstützen.

Wichtige Auswahlkriterien

Beantworten Sie die folgenden Fragen, um die Auswahl einzuschränken:

Benötigen Sie einen einheitlichen Data Lake mit Multicloudunterstützung, stabiler Governance und nahtloser Integration in Analysetools? Falls ja, entscheiden Sie sich für OneLake in Fabric für vereinfachte Datenverwaltung und verbesserte Zusammenarbeit.
Benötigen Sie verwalteten, cloudbasierten Hochgeschwindigkeitsspeicher für Text- oder Binärdaten? Falls ja, entscheiden Sie sich für eine der Dateispeicher- oder Analyseoptionen.
Benötigen Sie Dateispeicher, der für parallele Analyseworkloads und hohen Durchsatz/hohe IOPS optimiert ist? Falls ja, entscheiden Sie sich für eine Option, deren Leistung für Analyseworkloads optimiert ist.
Müssen Sie unstrukturierte oder teilweise strukturierte Daten in einer schemalosen Datenbank speichern? Falls ja, entscheiden Sie sich für eine der nicht relationalen Optionen oder Analyseoptionen. Vergleichen Sie die Optionen für die Indizierung und die Datenbankmodelle. Abhängig von der Art der Daten, die Sie speichern möchten, sind die primären Datenbankmodelle unter Umständen der wichtigste Faktor.
Können Sie den Dienst in Ihrer Region verwenden? Überprüfen Sie die regionale Verfügbarkeit der einzelnen Azure-Dienste. Weitere Informationen finden Sie unter Verfügbare Produkte nach Region.

Funktionsmatrix

In den folgenden Tabellen sind die Hauptunterschiede der Funktionen zusammengefasst:

OneLake in Fabric-Funktionen

Funktion	OneLake in Fabric
Einheitlicher Data Lake	Bereitstellung eines einzigen, einheitlichen Data Lakes für die gesamte Organisation, wodurch Datensilos eliminiert werden
Multicloudunterstützung	Unterstützung von Integration in und Kompatibilität mit verschiedenen Cloudplattformen
Datengovernance	Features wie Datenherkunft, Datenschutz, Zertifizierung und Katalogintegration
Zentraler Datenhub	Zentraler Hub für die Datenermittlung und -verwaltung
Unterstützung für die Analyse-Engine	Kompatibilität mit mehreren Analyse-Engines. Diese Kompatibilität ermöglicht es verschiedenen Tools und Technologien, dieselben Daten zu verarbeiten.
Sicherheit und Konformität	Sorgt dafür, dass vertrauliche Daten geschützt bleiben und der Zugriff nur auf autorisierte Benutzer beschränkt ist
Einfache Bedienung	Stellt ein benutzerfreundliches Design bereit, das automatisch für jeden Fabric-Mandanten verfügbar ist und keine Einrichtung erfordert
Skalierbarkeit	Kann große Datenmengen aus verschiedenen Quellen verarbeiten

Dateispeicherfunktionen

Funktion	Data Lake Storage Gen2	Azure Blob Storage-Container
Zweck	Optimierter Speicher für Big Data-Analyseworkloads	Universell einsetzbarer Objektspeicher für eine Vielzahl von Speicherszenarien
Anwendungsfälle	Batch-, Streaming Analytics- und Machine Learning-Daten wie Protokolldateien, IoT-Daten, Clickstreams, große Datasets	Jede Art von Text- oder Binärdaten, beispielsweise Daten des Anwendungs-Back-Ends, Sicherungsdaten, Medienspeicher für Streaming und universelle Daten
Struktur	Hierarchisches Dateisystem	Objektspeicher mit flachem Namespace
Authentifizierung	Basierend auf Microsoft Entra-Identitäten	Basierend auf gemeinsam genutzten Geheimnissen – Kontozugriffsschlüssel, Shared Access Signature-Schlüssel und rollenbasierte Zugriffssteuerung in Azure (Azure Role-Based Access Control, Azure RBAC)
Authentifizierungsprotokoll	Open Authorization (OAuth) 2.0. Aufrufe müssen ein gültiges, über Microsoft Entra ID ausgestelltes JSON Web Token (JWT) enthalten.	Hash-based Message Authentication Code (HMAC). Aufrufe müssen einen Base64-codierten SHA-256-Hash über einen Teil der HTTP-Anforderung enthalten.
Autorisierung	Zugriffssteuerungslisten (ACLs) für Portable Operating System Interface (POSIX). Auf Microsoft Entra-Identitäten basierende Zugriffssteuerungslisten (Access Control List, ACL) können auf Datei- und Ordnerebene festgelegt werden.	Verwenden Sie Zugriffsschlüssel für die Autorisierung auf Kontoebene. Verwenden Sie Shared Access Signature-Schlüssel für die Konto-, Container- oder Blobautorisierung.
Überwachung	Verfügbar.	Verfügbar
Verschlüsselung ruhender Daten	Transparent, serverseitig	Transparent, serverseitig; clientseitige Verschlüsselung
Entwickler-SDKs	.NET, Java, Python, Node.js	.NET, Java, Python, Node.js, C++, Ruby
Leistung von Analyseworkloads	Optimierte Leistung für parallele Analyseworkloads, hohen Durchsatz und hohe IOPS	Nicht für Analyseworkloads optimiert.
Größenbeschränkungen	Keine Beschränkungen für Kontogrößen, Dateigrößen oder die Anzahl von Dateien.	Die geltenden Einschränkungen sind hier
Georedundanz	Lokal redundant (lokal redundanter Speicher (LRS)), global redundant (georedundanter Speicher (GRS)), global redundanter Lesezugriff (georedundanter Speicher mit Lesezugriff (RA-GRS)), zonenredundant (zonenredundanter Speicher (ZRS))	Lokal redundant (LRS), global redundant (GRS), global redundant mit Lesezugriff (RA-GRS), zonenredundant (ZRS). Weitere Informationen finden Sie unter Azure Storage-Redundanz.

NoSQL-Datenbankfunktionen

Funktion	Azure Cosmos DB	HBase in HDInsight
Primäres Datenbankmodell	Dokumentspeicher, Diagramm, Schlüssel-Wert-Speicherung, Wide Columnstore	Wide Columnstore
Sekundäre Indizes	Ja	Nein
SQL-Sprachunterstützung	Ja	Ja (mit dem Phoenix-JDBC-Treiber)
Konsistenz	Stark, begrenzte Veraltung, Sitzung, Präfixkonsistenz, letztlich	STARK (Strong)
Native Azure Functions-Integration	Ja	Nein
Automatische globale Verteilung	Ja	Nein. Die HBase-Clusterreplikation kann regionsübergreifend mit letztlicher Konsistenz konfiguriert werden.
Preismodell	Flexibel skalierbare Anforderungseinheiten (Request Units, RUs), die nach Bedarf pro Sekunde berechnet werden; flexibel skalierbarer Speicher	Minutenpreise für HDInsight-Cluster (horizontale Skalierung von Knoten), Speicher

Funktionen analytischer Datenbanken

Funktion	Azure-Daten-Explorer
Primäres Datenbankmodell	Relationaler Speicher (Spaltenspeicher), Telemetrie- und Zeitreihenspeicher
SQL-Sprachunterstützung	Ja
Preismodell	Elastisch skalierbare Clusterinstanzen
Authentifizierung	Basierend auf Microsoft Entra-Identitäten
Verschlüsselung ruhender Daten	Unterstützt, kundenseitig verwaltete Schlüssel
Leistung von Analyseworkloads	Optimierte Leistung für parallele Analyseworkloads
Größenbeschränkungen	Linear skalierbar

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

Zoiner Tejada | CEO und Architekt

Freigeben über

Auswählen einer Big Data-Speichertechnologie in Azure

Welche Datenspeicheroptionen stehen in Azure zur Verfügung?

OneLake in Fabric

Azure Storage-Blobs

Data Lake Storage Gen2

Azure Cosmos DB

HBase in HDInsight

Azure-Daten-Explorer

Wichtige Auswahlkriterien

Funktionsmatrix

OneLake in Fabric-Funktionen

Dateispeicherfunktionen

NoSQL-Datenbankfunktionen

Funktionen analytischer Datenbanken

Beitragende

Nächste Schritte

Feedback

Zusätzliche Ressourcen

Freigeben über

Auswählen einer Big Data-Speichertechnologie in Azure

Welche Datenspeicheroptionen stehen in Azure zur Verfügung?

OneLake in Fabric

Azure Storage-Blobs

Data Lake Storage Gen2

Azure Cosmos DB

HBase in HDInsight

Azure-Daten-Explorer

Wichtige Auswahlkriterien

Funktionsmatrix

OneLake in Fabric-Funktionen

Dateispeicherfunktionen

NoSQL-Datenbankfunktionen

Funktionen analytischer Datenbanken

Beitragende

Nächste Schritte

Zugehörige Ressourcen

Feedback

Zusätzliche Ressourcen