In diesem Beispielszenario wird eine Datenpipeline veranschaulicht, die große Datenmengen aus mehreren Quellen in eine einheitliche Analyseplattform in Azure integriert. Dieses spezielle Szenario basiert zwar auf einer Lösung für Vertrieb und Marketing, die Entwurfsmuster sind jedoch für viele Branchen relevant, in denen erweiterte Analysen von umfangreichen Datasets benötigt werden. Hierzu zählen beispielsweise E-Commerce, Einzelhandel und Gesundheitswesen.
Aufbau
Laden Sie eine Visio-Datei dieser Architektur herunter.
Datenfluss
Die Daten durchlaufen die Lösung wie folgt:
- Aktualisierungen der einzelnen Datenquellen werden in regelmäßigen Abständen in einen Stagingbereich in Azure Data Lake Storage exportiert.
- Azure Data Factory lädt die Daten inkrementell aus Azure Data Lake Storage in Stagingtabellen in Azure Synapse Analytics. Dabei werden die Daten bereinigt und transformiert. PolyBase kann den Prozess für umfangreiche Datasets parallelisieren.
- Nachdem ein neuer Datenbatch in das Warehouse geladen wurde, wird ein zuvor erstelltes Azure Analysis Services-Tabellenmodell aktualisiert. Dieses Semantikmodell vereinfacht die Analyse von Geschäftsdaten und -beziehungen.
- Business Analysts verwenden Microsoft Power BI, um Warehouse-Daten unter Verwendung des Analysis Services-Semantikmodells zu analysieren.
Komponenten
Das Unternehmen verfügt über Datenquellen auf vielen verschiedenen Plattformen:
- SQL Server (lokal)
- Oracle (lokal)
- Azure SQL-Datenbank
- Azure Table Storage
- Azure Cosmos DB
Daten werden aus diesen unterschiedlichen Datenquellen unter Verwendung verschiedener Azure-Komponenten geladen:
- Azure Data Lake Storage wird verwendet, um Quelldaten vor dem Laden in Azure Synapse bereitzustellen.
- Data Factory orchestriert die Transformation der bereitgestellten Daten in eine allgemeine Struktur in Azure Synapse. Data Factory verwendet PolyBase beim Laden von Daten in Azure Synapse, um den Durchsatz zu maximieren.
- Azure Synapse ist ein verteiltes System zum Speichern und Analysieren umfangreicher Datasets. Dank MPP (Massive Parallel Processing) eignet sich diese Komponente für Hochleistungsanalysen. In Kombination mit PolyBase kann Azure Synapse Daten mit hoher Geschwindigkeit aus Azure Data Lake Storage laden.
- Analysis Services bietet ein Semantikmodell für Ihre Daten. Darüber hinaus kann die Komponente die Systemleistung beim Analysieren Ihrer Daten erhöhen.
- Power BI ist eine Suite aus Business Analytics-Tools zum Analysieren von Daten und Teilen von Einblicken. Power BI kann ein in Analysis Services gespeichertes Semantikmodell oder direkt Azure Synapse abfragen.
- Microsoft Entra ID authentifiziert Benutzer*innen, die über Power BI eine Verbindung mit dem Analysis Services-Server herstellen. Data Factory kann auch Microsoft Entra ID für die Authentifizierung bei Azure Synapse verwenden – entweder über einen Dienstprinzipal oder über eine verwaltete Identität für Azure-Ressourcen.
Alternativen
Die Beispielpipeline enthält verschiedene Arten von Datenquellen. Diese Architektur eignet sich für ein breites Spektrum an relationalen und nicht relationalen Datenquellen.
Data Factory orchestriert die Workflows für Ihre Datenpipeline. Wenn Sie Daten nur einmalig oder bei Bedarf laden möchten, können Sie beispielsweise das SQL Server-Tool zum Massenkopieren (bcp) oder AzCopy verwenden, um Daten in Azure Data Lake Storage zu kopieren. Anschließend können Sie die Daten mithilfe von PolyBase direkt in Azure Synapse laden.
Wenn Sie über sehr große Datasets verfügen, empfiehlt sich unter Umständen die Verwendung von Data Lake Storage, da Ihnen hier unbegrenzter Speicher für Analysedaten zur Verfügung steht.
Azure Synapse ist nicht ideal für OLTP-Workloads oder Datasets mit einer Größe von weniger als 250 GB geeignet. In diesen Fällen empfiehlt sich die Verwendung von Azure SQL-Datenbank oder SQL Server.
Vergleiche mit anderen Alternativen finden Sie hier:
Szenariodetails
Das Unternehmen in diesem Beispiel ist im Bereich Vertrieb und Marketing tätig und entwickelt Anreizprogramme. Diese Programme dienen zur Belohnung von Kunden, Lieferanten, Verkäufern und Mitarbeitern. Die Programme sind auf Daten angewiesen, und das Unternehmen möchte mit Azure die per Datenanalyse gewonnenen Erkenntnisse verbessern.
Das Unternehmen benötigt einen modernen Ansatz für die Datenanalyse, um Entscheidungen zur richtigen Zeit und auf der Grundlage der richtigen Daten treffen zu können. Das Unternehmen hat folgende Ziele:
- Kombinieren verschiedene Arten von Datenquellen in einer Cloudplattform
- Transformieren von Quelldaten in eine allgemeine Taxonomie und Struktur, um die Daten konsistent zu machen und einfach vergleichen zu können
- Laden von Daten unter Verwendung eines hochgradig parallelisierten Ansatzes, der Tausende von Anreizprogrammen unterstützt, aber ohne die hohen Kosten für die Bereitstellung und Pflege einer lokalen Infrastruktur
- Deutliches Beschleunigen der Datenerfassung und -transformation, um sich auf die Analyse der Daten konzentrieren zu können
Mögliche Anwendungsfälle
Dieser Ansatz kann auch für folgende Zwecke verwendet werden:
- Einrichten eines Data Warehouse als alleingültige Quelle für Ihre Daten
- Integrieren relationaler Datenquellen in andere unstrukturierte Datasets
- Verwenden von Semantikmodellen und leistungsstarken Visualisierungstools zur Vereinfachung der Datenanalyse
Überlegungen
Diese Überlegungen beruhen auf den Säulen des Azure Well-Architected Frameworks, d. h. einer Reihe von Grundsätzen, mit denen die Qualität von Workloads verbessert werden kann. Weitere Informationen finden Sie unter Microsoft Azure Well-Architected Framework.
Die Technologien in dieser Architektur wurden gewählt, da sie die Skalier- und Verfügbarkeitsanforderungen des Unternehmens erfüllen und das Unternehmen bei der Kostenkontrolle unterstützen.
- Die MPP-Architektur (Massively Parallel Processing) von Azure Synapse zeichnet sich durch Skalierbarkeit und hohe Leistung aus.
- Azure Synapse verfügt über SLA-Garantien (Service-Level Agreement, Vereinbarung zum Servicelevel) und empfohlene Vorgehensweisen zum Erzielen von Hochverfügbarkeit.
- Bei geringer Analyseaktivität kann das Unternehmen Azure Synapse nach Bedarf skalieren und die Computeressourcen verringern oder sogar anhalten, um Kosten zu sparen.
- Azure Analysis Services kann horizontal hochskaliert werden, um die Antwortzeiten bei einem hohen Aufkommen von Abfrageworkloads zu verkürzen. Darüber hinaus kann die Verarbeitung vom Abfragepool getrennt werden, sodass Clientabfragen nicht durch Verarbeitungsvorgänge verlangsamt werden.
- Azure Analysis Services verfügt ebenfalls über SLA-Garantien und empfohlene Vorgehensweisen zur Erreichung von Hochverfügbarkeit.
- Das Sicherheitsmodell von Azure Synapse bietet Verbindungssicherheit, Authentifizierung und Autorisierung mittels Microsoft Entra ID- oder SQL Server-Authentifizierung sowie Verschlüsselung. Azure Analysis Services verwendet Microsoft Entra ID zur Identitätsverwaltung und Benutzerauthentifizierung.
Kostenoptimierung
Bei der Kostenoptimierung geht es um die Suche nach Möglichkeiten, unnötige Ausgaben zu reduzieren und die Betriebseffizienz zu verbessern. Weitere Informationen finden Sie unter Übersicht über die Säule „Kostenoptimierung“.
Sehen Sie sich über den Azure-Preisrechner ein Preisbeispiel für ein Data Warehouse-Szenario an. Passen Sie die Werte an, um zu ermitteln, wie sich Ihre Anforderungen auf die Kosten auswirken.
- Mit Azure Synapse können Sie Ihre Compute- und Ihre Speicherebene unabhängig voneinander skalieren. Computeressourcen werden auf Stundenbasis abgerechnet und können nach Bedarf skaliert oder angehalten werden. Speicherressourcen werden nach Terabyte abgerechnet. Ihre Kosten steigen also, wenn Sie mehr Daten erfassen.
- Die Kosten für Data Factory basieren auf der Anzahl von Lese-/Schreibvorgängen, Überwachungsvorgängen und Orchestrierungsaktivitäten, die in einer Workload ausgeführt werden. Die Kosten für Ihre Data Factory erhöhen sich mit jedem weiteren Datenstrom und der jeweils verarbeiteten Datenmenge.
- Analysis Services ist in den Tarifen „Developer“, „Basic“ und „Standard“ erhältlich. Die Preise der Instanzen basieren auf QPUs (Query Processing Units) und auf dem verfügbaren Arbeitsspeicher. Minimieren Sie die Anzahl ausgeführter Abfragen, den Umfang der durch die Abfragen verarbeiteten Daten sowie die Ausführungshäufigkeit dieser Abfragen, um die Kosten gering zu halten.
- Power BI bietet verschiedene Produktoptionen für unterschiedliche Anforderungen. Power BI Embedded bietet eine Azure-basierte Option zum Einbetten von Power BI-Funktionen in Ihre Anwendungen. Eine Power BI Embedded-Instanz ist im obigen Preisbeispiel enthalten.
Beitragende
Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben.
Hauptautor:
- Alex Buck | Senior Content Developer
Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.
Nächste Schritte
Sehen Sie sich die Azure-Referenzarchitektur für die automatisierte Enterprise BI-Instanz an. Hier finden Sie auch eine Anleitung für die Bereitstellung einer Instanz dieser Architektur in Azure.
Weitere Informationen zu den in diesem Szenario verwendeten Diensten erhalten Sie unter: