Auswählen einer Big Data-Speichertechnologie in Azure
In diesem Artikel werden Datenspeicheroptionen für Big Data-Lösungen verglichen – insbesondere Datenspeicher für die Massendatenerfassung und Batchverarbeitung (im Gegensatz zu Analysedatenspeichern oder Streamingerfassung in Echtzeit).
Welche Datenspeicheroptionen stehen in Azure zur Verfügung?
Daten können auf verschiedene Arten in Azure erfasst werden. Für welche Option Sie sich entscheiden, hängt ganz von Ihren Anforderungen ab.
Einheitlicher logischer Data Lake:
Dateispeicher:
NoSQL-Datenbanken:
Analytische Datenbanken:
OneLake in Fabric
OneLake in Fabric ist ein einheitlicher und logischer Data Lake, der auf die gesamte Organisation zugeschnitten ist. Er dient als zentraler Hub für alle Analysedaten und ist in jedem Microsoft Fabric-Mandanten enthalten. OneLake in Fabric basiert auf der Grundlage von Data Lake Storage Gen2.
OneLake in Fabric:
- unterstützt strukturierte und unstrukturierte Dateitypen.
- speichert alle tabellarischen Daten im Delta Parquet-Format.
- stellt einen einzelnen Data Lake innerhalb von Mandantengrenzen bereit, der standardmäßig gesteuert wird.
- unterstützt die Erstellung von Arbeitsbereichen innerhalb eines Mandanten, sodass eine Organisation Besitz- und Zugriffsrichtlinien verteilen kann.
- unterstützt die Erstellung verschiedener Datenelemente, z. B. Lakehouses und Warehouses, über die Sie auf Daten zugreifen können.
OneLake in Fabric dient als gemeinsamer Speicherort für Erfassung, Transformation, Echtzeiterkenntnisse und Business Intelligence-Visualisierungen. Er zentralisiert verschiedene Fabric-Dienste und speichert Datenelemente, die von allen Workloads in Fabric verwendet werden. Informationen dazu, wie Sie den passenden Datenspeicher für Ihre Fabric-Workloads auswählen, finden Sie unter Microsoft Fabric-Entscheidungsleitfaden: Auswählen eines Datenspeichers.
Azure Storage-Blobs
Azure Storage ist ein verwalteter, hochverfügbarer, sicherer, stabiler, skalierbarer und redundanter Speicherdienst. Microsoft übernimmt die Wartung und behandelt kritische Probleme für Sie. Die große Menge von Diensten und Tools, die mit dieser Lösung verwendet werden können, macht Azure Storage zur am weitesten verbreiteten Speicherlösung von Azure.
Für die Datenspeicherung stehen verschiedene Azure Storage-Dienste zur Verfügung. Die flexibelste Option zum Speichern von Blobs aus vielen Datenquellen ist Blob Storage. Blobs sind im Grunde Dateien. Sie eignen sich unter anderem zum Speichern von Bildern, Dokumenten, HTML-Dateien, virtuellen Festplatten (Virtual Hard Disks, VHDs) und Big Data wie Protokollen und Datenbanksicherungen. Blobs werden in Containern gespeichert, die Ordnern ähneln. Ein Container stellt eine Gruppierung eines Blob-Satzes bereit. Ein Speicherkonto kann eine unbegrenzte Anzahl von Containern enthalten, und in einem Container kann eine unbegrenzte Anzahl von Blobs gespeichert werden.
Azure Storage ist flexibel, hochverfügbar und kostengünstig – und somit eine gute Wahl für Big Data- und Analyselösungen. Die Lösung bietet eine heiße und eine kalte Speicherebene sowie eine Archivspeicherebene für verschiedene Anwendungsfälle. Weitere Informationen finden Sie unter Azure Blob Storage: Speicherebenen „Heiß“ (Hot), „Kalt“ (Cool) und „Archiv“.
Auf Azure Blob Storage kann über Hadoop (verfügbar über HDInsight) zugegriffen werden. In HDInsight kann ein Blobcontainer in Azure Storage als Standarddateisystem für den Cluster verwendet werden. Über eine durch einen WASB-Treiber bereitgestellte Hadoop Distributed File System (HDFS)-Schnittstelle können sämtliche Komponenten in HDInsight direkt mit strukturierten oder unstrukturierten Daten arbeiten, die als Blobs gespeichert sind. Auf Azure Blob Storage kann auch über das PolyBase-Feature von Azure Synapse Analytics zugegriffen werden.
Darüber hinaus sprechen folgende Features für Azure Storage:
- Mehrere Parallelitätsstrategien
- Optionen für Notfallwiederherstellung und Hochverfügbarkeit
- Verschlüsselung ruhender Daten
- Rollenbasierte Zugriffssteuerung in Azure (RBAC) zum Steuern des Zugriffs mithilfe von Microsoft Entra-Benutzern und -Gruppen
Data Lake Storage Gen2
Data Lake Storage Gen2 ist ein einzelnes, zentralisiertes Repository, in dem Sie alle Ihre Daten speichern können, sowohl strukturierte als auch unstrukturierte. Mit einem Data Lake kann Ihre Organisation eine Vielzahl von Daten schnell und einfach an einem zentralen Ort speichern, darauf zugreifen und sie analysieren. Mit einem Data Lake müssen Sie Ihre Daten nicht an eine vorhandene Struktur anpassen. Stattdessen können Sie Ihre Daten im Rohformat oder nativen Format speichern, in der Regel als Dateien oder als Binary Large Objects (Blobs).
Data Lake Storage Gen2 vereint die Funktionen von Azure Data Lake Storage Gen1 und Azure Blob Storage. Beispielsweise bietet Data Lake Storage Gen2 Dateisystemsemantik, Sicherheit auf Dateiebene und Skalierung. Da diese Funktionen auf Blob Storage basieren, profitieren Sie gleichzeitig von kostengünstigem, mehrstufigem Speicher mit Hochverfügbarkeit und Notfallwiederherstellungsfunktionen.
Mit Data Lake Storage Gen2 wird Azure Storage zur Grundlage für das Erstellen von Enterprise Data Lakes in Azure. Data Lake Storage Gen2 wurde eigens für die Verarbeitung mehrerer Petabyte an Informationen bei gleichzeitiger Unterstützung eines Durchsatzes von Hunderten von Gigabit konzipiert und bietet Ihnen eine einfache Möglichkeit, riesige Datenmengen zu verwalten.
Azure Cosmos DB
Azure Cosmos DB ist eine global verteilte Datenbank von Microsoft mit mehreren Modellen. Azure Cosmos DB garantiert Wartezeiten im einstelligen Millisekundenbereich im 99. Perzentil an jedem Ort der Welt, bietet mehrere gut definierte Konsistenzmodelle zur Optimierung der Leistung und garantiert Hochverfügbarkeit mit Multihostingfunktionen.
Azure Cosmos DB ist schemaunabhängig. Die Lösung indiziert automatisch alle Daten, sodass Sie sich nicht mit der Schema- und Indexverwaltung befassen müssen. Außerdem unterstützt sie nativ mehrere Datenmodelle wie Dokumente, Schlüssel-Wert-Paare, Diagramme und spaltenbasierte Daten.
Features von Azure Cosmos DB:
- Georeplikation
- Flexible Skalierung für Durchsatz und Speicher weltweit
- Fünf wohl definierte Konsistenzebenen
HBase in HDInsight
Apache HBase ist eine Open-Source-NoSQL-Datenbank, die auf Hadoop basiert und nach dem Vorbild von Google BigTable erstellt wurde. HBase bietet wahlfreien Zugriff und starke Konsistenz für große Mengen unstrukturierter und teilweise strukturierter Daten in einer schemalosen Datenbank, die nach Spaltenfamilien gegliedert ist.
Daten werden in den Zeilen einer Tabelle gespeichert und die Daten in einer Zeile zu einer Spaltenfamilie zusammengefasst. HBase ist insofern schemalos, als weder die Spalten noch der Typ der darin gespeicherten Daten vor der Verwendung definiert werden müssen. Der Open-Source-Code lässt sich linear skalieren, sodass Petabytes von Daten auf Tausenden von Knoten verarbeitet werden können. HBase nutzt Datenredundanz, Stapelverarbeitung und andere Funktionen, die von verteilten Anwendungen im Hadoop-Ökosystem zur Verfügung gestellt werden.
Die HDInsight-Implementierung verwendet die horizontal skalierte Architektur von HBase für ein automatisches Sharding von Tabellen, eine robuste Konsistenz bei Lese- und Schreibvorgängen sowie ein automatisches Failover. Die Leistung wird durch speicherinterne Zwischenspeicherung für Lesevorgänge und Schreibvorgänge mit hohem Durchsatz optimiert. In den meisten Fällen sollten Sie den HBase-Cluster in einem virtuellen Netzwerk erstellen, damit andere HDInsight-Cluster und Anwendungen direkt auf die Tabellen zugreifen können.
Azure-Daten-Explorer
Azure Data Explorer ist ein schneller und hochgradig skalierbarer Dienst zur Untersuchung von Protokoll- und Telemetriedaten. Er bietet die Möglichkeit, zahlreiche Datenströme moderner Software zu verarbeiten, um Daten zu sammeln, zu speichern und zu analysieren. Azure-Daten-Explorer ist ideal zum Analysieren von großen Mengen unterschiedlicher Daten aus beliebigen Datenquellen geeignet, z.B. Websites, Anwendungen, IoT-Geräte und mehr. Diese Daten werden für die Diagnose, Überwachung, Berichterstellung, Machine Learning und weitere Analysefunktionen verwendet. Azure Data Explorer ermöglicht das einfache Erfassen dieser Daten, und Sie können komplexe ungeplante Abfragen der Daten innerhalb von Sekunden ausführen.
Azure Data Explorer kann linear aufskaliert werden, um den Durchsatz bei der Erfassung und Abfrageverarbeitung zu erhöhen. Ein Azure Data Explorer-Cluster kann in einem virtuellen Netzwerk bereitgestellt werden, um private Netzwerke zu unterstützen.
Wichtige Auswahlkriterien
Beantworten Sie die folgenden Fragen, um die Auswahl einzuschränken:
Benötigen Sie einen einheitlichen Data Lake mit Multicloudunterstützung, stabiler Governance und nahtloser Integration in Analysetools? Falls ja, entscheiden Sie sich für OneLake in Fabric für vereinfachte Datenverwaltung und verbesserte Zusammenarbeit.
Benötigen Sie verwalteten, cloudbasierten Hochgeschwindigkeitsspeicher für Text- oder Binärdaten? Falls ja, entscheiden Sie sich für eine der Dateispeicher- oder Analyseoptionen.
Benötigen Sie Dateispeicher, der für parallele Analyseworkloads und hohen Durchsatz/hohe IOPS optimiert ist? Falls ja, entscheiden Sie sich für eine Option, deren Leistung für Analyseworkloads optimiert ist.
Müssen Sie unstrukturierte oder teilweise strukturierte Daten in einer schemalosen Datenbank speichern? Falls ja, entscheiden Sie sich für eine der nicht relationalen Optionen oder Analyseoptionen. Vergleichen Sie die Optionen für die Indizierung und die Datenbankmodelle. Abhängig von der Art der Daten, die Sie speichern möchten, sind die primären Datenbankmodelle unter Umständen der wichtigste Faktor.
Können Sie den Dienst in Ihrer Region verwenden? Überprüfen Sie die regionale Verfügbarkeit der einzelnen Azure-Dienste. Weitere Informationen finden Sie unter Verfügbare Produkte nach Region.
Funktionsmatrix
In den folgenden Tabellen sind die Hauptunterschiede der Funktionen zusammengefasst:
OneLake in Fabric-Funktionen
Funktion | OneLake in Fabric |
---|---|
Einheitlicher Data Lake | Bereitstellung eines einzigen, einheitlichen Data Lakes für die gesamte Organisation, wodurch Datensilos eliminiert werden |
Multicloudunterstützung | Unterstützung von Integration in und Kompatibilität mit verschiedenen Cloudplattformen |
Datengovernance | Features wie Datenherkunft, Datenschutz, Zertifizierung und Katalogintegration |
Zentraler Datenhub | Zentraler Hub für die Datenermittlung und -verwaltung |
Unterstützung für die Analyse-Engine | Kompatibilität mit mehreren Analyse-Engines. Diese Kompatibilität ermöglicht es verschiedenen Tools und Technologien, dieselben Daten zu verarbeiten. |
Sicherheit und Konformität | Sorgt dafür, dass vertrauliche Daten geschützt bleiben und der Zugriff nur auf autorisierte Benutzer beschränkt ist |
Einfache Bedienung | Stellt ein benutzerfreundliches Design bereit, das automatisch für jeden Fabric-Mandanten verfügbar ist und keine Einrichtung erfordert |
Skalierbarkeit | Kann große Datenmengen aus verschiedenen Quellen verarbeiten |
Dateispeicherfunktionen
Funktion | Data Lake Storage Gen2 | Azure Blob Storage-Container |
---|---|---|
Zweck | Optimierter Speicher für Big Data-Analyseworkloads | Universell einsetzbarer Objektspeicher für eine Vielzahl von Speicherszenarien |
Anwendungsfälle | Batch-, Streaming Analytics- und Machine Learning-Daten wie Protokolldateien, IoT-Daten, Clickstreams, große Datasets | Jede Art von Text- oder Binärdaten, beispielsweise Daten des Anwendungs-Back-Ends, Sicherungsdaten, Medienspeicher für Streaming und universelle Daten |
Struktur | Hierarchisches Dateisystem | Objektspeicher mit flachem Namespace |
Authentifizierung | Basierend auf Microsoft Entra-Identitäten | Basierend auf gemeinsam genutzten Geheimnissen – Kontozugriffsschlüssel, Shared Access Signature-Schlüssel und rollenbasierte Zugriffssteuerung in Azure (Azure Role-Based Access Control, Azure RBAC) |
Authentifizierungsprotokoll | Open Authorization (OAuth) 2.0. Aufrufe müssen ein gültiges, über Microsoft Entra ID ausgestelltes JSON Web Token (JWT) enthalten. | Hash-based Message Authentication Code (HMAC). Aufrufe müssen einen Base64-codierten SHA-256-Hash über einen Teil der HTTP-Anforderung enthalten. |
Autorisierung | Zugriffssteuerungslisten (ACLs) für Portable Operating System Interface (POSIX). Auf Microsoft Entra-Identitäten basierende Zugriffssteuerungslisten (Access Control List, ACL) können auf Datei- und Ordnerebene festgelegt werden. | Verwenden Sie Zugriffsschlüssel für die Autorisierung auf Kontoebene. Verwenden Sie Shared Access Signature-Schlüssel für die Konto-, Container- oder Blobautorisierung. |
Überwachung | Verfügbar. | Verfügbar |
Verschlüsselung ruhender Daten | Transparent, serverseitig | Transparent, serverseitig; clientseitige Verschlüsselung |
Entwickler-SDKs | .NET, Java, Python, Node.js | .NET, Java, Python, Node.js, C++, Ruby |
Leistung von Analyseworkloads | Optimierte Leistung für parallele Analyseworkloads, hohen Durchsatz und hohe IOPS | Nicht für Analyseworkloads optimiert. |
Größenbeschränkungen | Keine Beschränkungen für Kontogrößen, Dateigrößen oder die Anzahl von Dateien. | Die geltenden Einschränkungen sind hier |
Georedundanz | Lokal redundant (lokal redundanter Speicher (LRS)), global redundant (georedundanter Speicher (GRS)), global redundanter Lesezugriff (georedundanter Speicher mit Lesezugriff (RA-GRS)), zonenredundant (zonenredundanter Speicher (ZRS)) | Lokal redundant (LRS), global redundant (GRS), global redundant mit Lesezugriff (RA-GRS), zonenredundant (ZRS). Weitere Informationen finden Sie unter Azure Storage-Redundanz. |
NoSQL-Datenbankfunktionen
Funktion | Azure Cosmos DB | HBase in HDInsight |
---|---|---|
Primäres Datenbankmodell | Dokumentspeicher, Diagramm, Schlüssel-Wert-Speicherung, Wide Columnstore | Wide Columnstore |
Sekundäre Indizes | Ja | Nein |
SQL-Sprachunterstützung | Ja | Ja (mit dem Phoenix-JDBC-Treiber) |
Konsistenz | Stark, begrenzte Veraltung, Sitzung, Präfixkonsistenz, letztlich | STARK (Strong) |
Native Azure Functions-Integration | Ja | Nein |
Automatische globale Verteilung | Ja | Nein. Die HBase-Clusterreplikation kann regionsübergreifend mit letztlicher Konsistenz konfiguriert werden. |
Preismodell | Flexibel skalierbare Anforderungseinheiten (Request Units, RUs), die nach Bedarf pro Sekunde berechnet werden; flexibel skalierbarer Speicher | Minutenpreise für HDInsight-Cluster (horizontale Skalierung von Knoten), Speicher |
Funktionen analytischer Datenbanken
Funktion | Azure-Daten-Explorer |
---|---|
Primäres Datenbankmodell | Relationaler Speicher (Spaltenspeicher), Telemetrie- und Zeitreihenspeicher |
SQL-Sprachunterstützung | Ja |
Preismodell | Elastisch skalierbare Clusterinstanzen |
Authentifizierung | Basierend auf Microsoft Entra-Identitäten |
Verschlüsselung ruhender Daten | Unterstützt, kundenseitig verwaltete Schlüssel |
Leistung von Analyseworkloads | Optimierte Leistung für parallele Analyseworkloads |
Größenbeschränkungen | Linear skalierbar |
Beitragende
Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:
Hauptautor:
- Zoiner Tejada | CEO und Architekt
Nächste Schritte
- Was ist Fabric?
- Einführung in End-to-End-Analysen mit Microsoft Fabric
- Azure Cloud Storage-Lösungen und -Dienste
- Überprüfen Ihrer Speicheroptionen
- Einführung in Azure Storage
- Einführung in Azure Data Explorer