Grundlagen zu Analysedatenspeichern

8 Minuten

Es gibt zwei gängige Arten von Analysedatenspeichern.

Data Warehouses

Diagramm: Data Warehouse mit einem Sternschema

Ein Data Warehouse ist eine relationale Datenbank, in der die Daten in einem Schema gespeichert werden, das für Datenanalysen und nicht für Transaktionsworkloads optimiert ist. In der Regel werden die Daten aus einem Transaktionsspeicher in ein Schema transformiert, in dem numerische Werte in zentralen Faktentabellen gespeichert werden, die mit mindestens einer Dimensionstabelle verknüpft sind, die Entitäten darstellen, anhand derer die Daten aggregiert werden können. Eine Faktentabelle kann beispielsweise Auftragsdaten enthalten, die nach Kunden-, Produkt-, Geschäfts- und Zeitdimensionen aggregiert werden können (sodass Sie beispielsweise den monatlichen Gesamtumsatz nach Produkt für jedes Geschäft leicht ermitteln können). Diese Art von Fakten- und Dimensionstabellenschema wird als Sternschema bezeichnet; es wird jedoch häufig zu einem Schneeflockenschema erweitert, indem zur Darstellung von Dimensionshierarchien zusätzliche Tabellen hinzugefügt werden, die mit den Dimensionstabellen verknüpft sind (so kann z. B. Produkt mit Produktkategorien verknüpft sein). Ein Data Warehouse ist eine gute Wahl, wenn Sie über Transaktionsdaten verfügen, die in einem strukturierten Schema von Tabellen organisiert werden können, und Sie SQL verwenden möchten, um sie abzufragen.

Data Lakes

Diagramm: Data Lake, in dem Dateien von Tabellen abstrahiert werden

Ein Data Lake ist ein Dateispeicher (meist in einem verteilten Dateisystem) für Hochleistungsdatenzugriff. Häufig werden Technologien wie Spark oder Hadoop verwendet, um Abfragen für die gespeicherten Dateien zu verarbeiten und Daten für Berichte und Analysen zurückzugeben. Bei diesen Systemen wird häufig ein Schema-on-Read-Ansatz angewendet, um tabellarische Schemas für teilweise strukturierte Datendateien zu dem Zeitpunkt zu definieren, an dem die Daten für die Analyse gelesen werden, ohne dass beim Speichern Einschränkungen angewendet werden. Data Lakes eignen sich besonders gut zur Unterstützung von strukturierten, teilweise strukturierten und sogar unstrukturierten Daten, die analysiert werden sollen, ohne dass beim Schreiben der Daten in den Speicher eine Schemaerzwingung erforderlich ist.

Hybridansätze

Sie können einen Hybridansatz verwenden, bei dem Features von Data Lakes und Data Warehouses in einem Data Lakehouse kombiniert werden. Die Rohdaten werden als Dateien in einem Data Lake gespeichert, und SQL-Analyseendpunkte in Microsoft Fabric machen sie als Tabellen verfügbar, die mit SQL abgefragt werden können. Wenn Sie ein Lakehouse mit Microsoft Fabric erstellen, wird automatisch ein SQL-Analyseendpunkt erstellt. Data Lakehouses sind ein relativ neuer Ansatz in Spark-basierten Systemen und werden durch Technologien wie Delta Lake ermöglicht. Dies fügt Spark relationale Speicherfunktionen hinzu, sodass Sie Tabellen definieren können, die Schemas und Transaktionskonsistenz erzwingen, batchgeladene und Streamingdatenquellen unterstützen und eine SQL-API für Abfragen bereitstellen können.

Azure-Dienste für Analysespeicher

In Azure gibt es mehrere Dienste, mit denen Sie einen umfangreichen Analysespeicher implementieren können, u. a.:

Microsoft Fabric ist eine einheitliche End-to-End-Lösung für umfangreiche Datenanalysen. Die Lösung vereint mehrere Technologien und Fähigkeiten und kombiniert damit die Datenintegrität und Zuverlässigkeit eines skalierbaren, hochleistungsfähigen relationalen Data Warehouse auf der Basis von SQL Server mit der Flexibilität eines Data Lake und Open-Source Apache Spark. Außerdem bietet sie native Unterstützung für Protokoll- und Telemetrieanalysen mit Microsoft Fabric-Echtzeitintelligenz sowie integrierte Datenpipelines für die Datenerfassung und -transformation. Jede Microsoft Fabric-Produktoberfläche verfügt über eine eigene Startseite, z. B. Data Factory-Startseite. Jede Fabric-Startseite zeigt die Elemente an, die Sie erstellen und für die Sie die Berechtigung haben, sie aus allen Arbeitsbereichen zu verwenden, auf die Sie zugreifen. Microsoft Fabric ist eine gute Wahl, wenn Sie eine einzelne, vereinheitlichte Analyselösung erstellen möchten.

Screenshot: Azure Databricks-Logo Azure Databricks ist eine Azure-Implementierung der beliebten Databricks-Plattform. Databricks ist eine umfassende Datenanalyselösung, die auf Apache Spark basiert und native SQL-Funktionen sowie workloadoptimierte Spark-Cluster für Datenanalysen und Data Science bereitstellt. Databricks bietet eine interaktive Benutzeroberfläche, über die das System verwaltet und Daten in interaktiven Notebooks analysiert werden können. Da Azure Databricks gerne auf verschiedenen Cloud-Plattformen verwendet wird, sollten Sie überlegen, ob es sinnvoll ist, Azure Databricks als Analysespeicher zu verwenden, wenn Sie bereits vorhandenes Fachwissen über die Plattform nutzen möchten oder wenn Sie in einer Umgebung mit mehreren Clouds arbeiten müssen oder eine cloudportierbare Lösung unterstützt werden soll.

Hinweis

Jeder dieser Dienste kann als Analysedatenspeicher bezeichnet werden, da er ein Schema und eine Schnittstelle bereitstellt, über die die Daten abgefragt werden können. Häufig werden die Daten jedoch in einem Data Lake gespeichert, und der Dienst wird zur Verarbeitung der Daten und zur Ausführung von Abfragen verwendet. Bei einigen Lösungen wird möglicherweise sogar die Verwendung dieser Dienste kombiniert. Mit einem ELT-Erfassungsprozess (Extrahieren, Laden und Transformieren) können Daten in den Data Lake kopiert werden, wobei einer dieser Dienste zur Transformation der Daten und ein anderer zur Abfrage verwendet wird. So kann beispielsweise eine Pipeline ein Notebook in Azure Databricks verwenden, um eine große Datenmenge im Data Lake zu verarbeiten und sie dann in Tabellen in einem Microsoft Fabric Warehouse zu laden.

Grundlagen zu Analysedatenspeichern

Data Warehouses

Data Lakes

Hybridansätze

Azure-Dienste für Analysespeicher

Feedback