Mehrere Datenzonen für Cloud-Skalierungsanalysen in Azure
Diese Referenzarchitektur richtet sich an Organisationen, die eine grundlegende Version von Cloud-Skalierungsanalysen implementiert haben und jetzt bereit sind, neue Geschäftseinheiten zu hosten, um ihre Analysevorgänge zu modernisieren. In diesem komplexeren Szenario werden mehrere Landezonen, Datenanwendungen und Datenprodukte verwendet.
Apache Hive und das Hive-Logo sind entweder eingetragene Marken oder Marken der Apache Software Foundation in den USA und/oder anderen Ländern. Es wird nicht impliziert, dass eine Unterstützung der Apache Software Foundation vorliegt, wenn diese Marken verwendet werden.
Problemstellung
Relecloud, das fiktive Unternehmen in diesem Beispiel, ist ein privater Cloudanbieter, der gemeinsam genutzte Computing- und Speicherressourcen für globale Organisationen bietet. Obwohl Relecloud Computeressourcen bereitstellt, möchten sie ihre Plattform nicht mit ihren eigenen internen Vorgängen einschränken. Daher verlassen sie sich auf Microsoft Azure für ihre internen Computeranforderungen.
Datenanalysten in der Betriebsgruppe verwenden Telemetriedaten aus Clouddiensten, um zu verstehen, wie ihre Kunden die Plattform nutzen. Ein separates Team von Analysten in der Abrechnungsabteilung untersucht Rechnungsdaten, um herauszufinden, welche Dienste den meisten Umsatz generieren.
Im letzten Quartal hat das Operationsteam seine Analyseplattform modernisiert, indem es zu Azure migriert wurde. Ein Ziel bei der Implementierung von Cloud-Skalierungsanalysen bestand darin, das Potenzial für die Skalierung der Plattform zu maximieren und neue Organisationsworkloads hinzuzufügen.
Heute ist die Abrechnungsgruppe ihrer aktuellen Analyselösung entwachsen. Das zu analysierende Rechnungsvolumen ist zu groß für den lokalen Server. Das Team entscheidet sich, der Führung der Betriebsgruppe zu folgen und ihre Datenanalyseplattform in Azure zu modernisieren.
Analysten in der Abrechnungsgruppe haben unterschiedliche Fähigkeiten als Analysten in der Betriebsgruppe. Die Abrechnungsanalysten möchten nicht auf die Verwendung der gleichen Tools wie Vorgänge beschränkt werden. Die Abrechnungsgruppe befindet sich in einem anderen Teil der Organisation und möchte die Flexibilität, die Richtlinien und Verfahren zu implementieren, die ihren Anforderungen entsprechen.
Architekturlösung
Relecloud skaliert die Analyseplattform durch Hinzufügen einer neuen Zielzone für die Abrechnungsgruppe. Diese Landezone stellt einen virtuellen Arbeitsplatz für die Abrechnungsgruppe bereit, um die Analyselösungen zu implementieren, die ihren geschäftlichen Anforderungen entsprechen. Indem eine Landungszone von den anderen Ressourcen der Organisation getrennt ist, kann die Abrechnungsgruppe ihre eigenen Zugriffsrichtlinien selbst implementieren und die Kosten ihrer Dienstleistungen berücksichtigen.
Das folgende Diagramm stellt nicht alle Azure-Dienste dar. Das Diagramm wird vereinfacht, um die Kernkonzepte der Organisation von Ressourcen innerhalb der Architektur hervorzuheben.
Zielzone für die Datenverwaltung
Eine wichtige Anforderung bei jeder Implementierung von Analysen auf Cloudebene ist eine Zielzone für die Datenverwaltung. Dieses Abonnement enthält Ressourcen, die in allen Bereitstellungszonen gemeinsam genutzt werden, einschließlich gemeinsamer Netzwerkkomponenten wie einer Firewall oder privater DNS-Zonen. Sie umfasst auch Ressourcen für Daten- und Cloudgovernance. Die Unity Catalogs von Microsoft Purview und Databricks wurden als Dienste auf Mandantenebene bereitgestellt.
Relecloud hat eine Zielzone für die Datenverwaltung erstellt, als die Datenanalyselösung für die operative Gruppe bereitgestellt wurde. Wenn die Abrechnungsgruppe der Plattform beitritt, verwenden sie dieselbe Zielzone für die Datenverwaltung, um gemeinsame Ressourcen mit der Betriebsgruppe zu teilen.
Zielzone der operativen Daten
Die operative Gruppe verfügt über die folgenden Lösungen in ihrer Datenzielzone.
Betriebsdatenanwendungen
Das Team hat eine quellenausgerichtete Datenanwendung erstellt, die Apache Spark-Aufträge in Azure Databricks verwendet, um Dienst-Telemetriedaten aufzunehmen und in einem Azure Data Lake Storage-Konto zu speichern.
Dieser Vorgang kopiert die Daten as-is aus dem Quellsystem, transformiert sie jedoch nicht. Analysten können mit den kopierten Daten auf der Analyseplattform arbeiten, ohne das Quellsystem zu überladen. Anstatt eine dedizierte Bereitstellung für diese Datenanwendung zu erstellen, verwendet das Betriebsteam den Databricks-Arbeitsbereich in der freigegebenen Ressourcengruppe Erfassung & Verarbeitung.
Relecloud-Kunden können Cloudkonten erstellen, um Ressourcen und Abrechnungen in ihren privaten Clouds zu verwalten. Jeder Kunde kann mehrere Konten haben. Das Analyseteam hat eine Datenanwendung zum Importieren der Cloudkontodaten erstellt. Da das Volumen und die Häufigkeit der Daten im Vergleich zu Telemetriedaten viel niedriger sind, muss das Team keine Spark-Jobs verwenden. Stattdessen haben sie Azure Data Factory-Pipelines erstellt, um die Daten zu kopieren.
Azure-Datenbank für MySQL fungiert als Hive-Metastore, und Azure SQL-Datenbank ist der Azure Data Factory-Metaspeicher.
Betriebsdatenprodukte
Relecloud-Analysten ziehen Nutzen aus den Daten in den quellenausgerichteten Datenanwendungen, indem sie neue, verbraucherorientierte Datenanwendungen erstellen. Eine dieser verbraucherorientierten Datenanwendungen ist ein Modell für die Empfehlung von Clouddiensten. Relecloud Data Scientists nutzten Azure Machine Learning, um ein Modell zu erstellen, das die Dienste untersucht, die ein Cloudkonto nutzt, und schlägt verwandte Dienste vor, die nützlich sein könnten. Das Team stellt dieses Modell in einem Azure Kubernetes Service (AKS)-Cluster bereit, der in der Zielzone ausgeführt und von Azure Machine Learning verwaltet wird. Anwendungen, die außerhalb der Cloud-Skalierungsanalysen ausgeführt werden, können den AKS-Endpunkt aufrufen, um Empfehlungen zu erhalten.
Nachdem das Abrechnungsteam seine Zielzone erstellt hat, erstellt das Betriebsteam ein neues Datenprodukt, das vom Verwaltungsteam angefordert wird. Das Verwaltungsteam möchte wissen, wie viel Umsatz die Datenanwendung für Clouddienstempfehlungen generiert. Das neue Datenprodukt Umsatzerlös durch Empfehlungen verwendet Azure Synapse Analytics, um Daten aus Clouddienstempfehlungen und Umsatz nach Dienst in einem neuen Datenprodukt zu kombinieren. Geschäftsanalysten können eine Verbindung mit Azure Synapse mit Microsoft Power BI herstellen, um Erkenntnisse aus diesem neuen Datenprodukt zu finden und zu melden.
Zielzone für Abrechnungsdaten
Die Abrechnungsgruppe nutzte ein lokales System, um ihre Analysen zu nutzen, aber da das Datenvolumen gewachsen ist und das Unternehmen mehr auf ihre Arbeit angewiesen war, konnte das System nicht schritt halten. Die Gruppe modernisiert ihre Plattform, indem sie in die Cloud umsteigen.
Die Abrechnungsgruppe teilt keine Zielzone mit der Betriebsgruppe, sondern erhält ihre eigene Zielzone, in der sie die Freiheit haben, die Plattform zu erstellen, die ihren Anforderungen am besten entspricht. Die neue Zielzone wird mit der Zielzone für die Datenverwaltung und allen anderen Datenzielzonen durch Peering virtueller Netzwerke verbunden. Mit diesem Mechanismus können Daten sicher über das interne Azure-Netzwerk freigegeben werden.
Abrechnungsdatenanwendungen
Um Daten aus vorhandenen Systemen in die Analyseplattform zu bringen, erstellt die Abrechnungsgruppe zwei Datenanwendungen. Die erste Anwendung erfasst die Kundendaten, einschließlich der vollständigen Liste der Kunden und aller zugehörigen Daten, z. B. Kundenadressen, Standorte und Vertriebsmitarbeiterzuweisungen. Die zweite Anwendung importiert den Rechnungsverlauf des Unternehmens, einschließlich aller Abrechnungsgebühren für Kunden und die zugehörigen Zahlungsdaten.
Beide Anwendungen werden von Pipelines im gemeinsam genutzten Azure Synapse-Arbeitsbereich unterstützt. Jede Anwendung verfügt über einen dedizierten Computepool, um Kostenabrechnung und Sicherheitsgrenzen zu ermöglichen. Da die Anwendungen vollständig mit freigegebenen Ressourcen implementiert werden können, muss die Abrechnungsgruppe keine Bereitstellung für diese Datenanwendungen erstellen.
Abrechnungsdatenprodukt
Die Abrechnungsanalysten erstellen ein neues Datenprodukt namens Revenue by Service, das analysiert, wie viel Umsatz jeder Clouddienst für Relecloud generiert. Dieses Produkt verwendet die Daten in der Erfassung Rechnungen. Das Produkt stellt auch eine Verbindung mit der Operations-Landezone her und liest die Dienstnutzungsdaten aus. Wie bei den Datenanwendungen basiert das Datenprodukt auch auf dem freigegebenen Azure Synapse-Arbeitsbereich.
Nächste Schritte
Fahren Sie mit dem Lamna Healthcare-Szenario für sichere Analysen auf Cloudebene in Azure fort.
Weitere Informationen finden Sie in den folgenden Artikeln: