Replikation von Mainframe- und Midrangedaten mit Qlik

Azure Event Hubs

Azure Data Lake

Azure Databricks

Diese Lösung verwendet eine lokale Qlik-Instanz, um lokale Datenquellen in Echtzeit in Azure zu replizieren.

Hinweis

Sprechen Sie „Qlik“ wie „Click“ aus.

Apache® und Apache Kafka® sind entweder eingetragene Marken oder Marken der Apache Software Foundation in den USA und/oder anderen Ländern. Die Verwendung dieser Markierungen impliziert kein Endorsement durch die Apache Software Foundation.

Aufbau

Laden Sie eine Visio-Datei dieser Architektur herunter.

Workflow

Host-Agent: Der Host-Agent auf dem lokalen System erfasst Änderungsprotokollinformationen aus Db2-, IMS- und VSAM-Datenspeichern und übergibt sie an den Qlik Replication-Server.
Replikationsserver: Die Qlik Replikationsserversoftware übergibt die Änderungsprotokollinformationen an Kafka und Azure Event Hubs. Qlik ist in diesem Beispiel lokal, kann aber stattdessen auf einer VM in Azure bereitgestellt werden.
Streamerfassung: Kafka und Event Hubs stellen Nachrichtenbroker zum Empfangen und Speichern von Änderungsprotokollinformationen bereit.
Kafka Connect: Die Kafka Connect-API wird verwendet, um Daten von Kafka zum Aktualisieren von Azure-Datenspeichern wie Azure Data Lake Storage, Azure Databricks und Azure Synapse Analytics abzurufen.
Data Lake Storage: Data Lake Storage ist ein Stagingbereich für die Änderungsprotokolldaten.
Databricks: Databricks verarbeitet die Änderungsprotokolldaten und aktualisiert die entsprechenden Dateien in Azure.
Azure-Datendienste: Azure bietet eine Vielzahl effizienter Datenspeicherdienste. Zu diesen zählen:
- Dienste für relationale Datenbanken:
  - SQL Server auf virtuellen Azure-Computern
  - Azure SQL-Datenbank
  - Verwaltete Azure SQL-Instanz
  - Azure Database for PostgreSQL
  - Azure Database for MySQL
  - Azure Cosmos DB
  Bei der Auswahl eines Datenspeicherdienstes sind viele Faktoren zu berücksichtigen: Workloadtyp, datenbankübergreifende Abfragen, Anforderungen an Zweiphasencommits, Zugriff auf das Dateisystem, Datenmenge, erforderlicher Durchsatz, Wartezeit usw.
- Nicht-relationale Azure-Datenbankdienste: Azure Cosmos DB, eine NoSQL-Datenbank, bietet schnelle Antworten, automatische Skalierbarkeit und garantierte Geschwindigkeit in beliebigem Umfang.
- Azure Synapse Analytics: Synapse Analytics ist ein Analysedienst, der Datenintegration, Data Warehousing für Unternehmen und Big Data-Analysen vereint. Damit können Sie Daten abfragen, indem Sie entweder serverlose oder dedizierte Ressourcen im großen Stil verwenden.
- Microsoft Fabric: Microsoft Fabric ist eine All-in-One-Analyselösung für Unternehmen. Es deckt alle Aufgaben ab, von der Datenverschiebung bis hin zu Data Science, Echtzeitanalysen und Business Intelligence. Es bietet eine umfassende Suite von Diensten, einschließlich Data Lake, Data Engineering und Datenintegration.

Komponenten

Diese Architektur besteht aus mehreren Azure-Cloud-Services und ist in vier Ressourcenkategorien unterteilt: Netzwerk und Identität, Anwendung, Speicher und Überwachung. Die Dienste für jede von ihnen und ihre Rollen werden in den folgenden Abschnitten beschrieben.

Netzwerk und Identität

Azure ExpressRoute erweitert Ihre lokalen Netzwerke auf Clouddienste, die von Microsoft über eine private Verbindung von einem Konnektivitätsanbieter angeboten werden. Mit ExpressRoute können Sie Verbindungen mit Clouddiensten herstellen, z. B. Microsoft Azure und Office 365.
Azure VPN Gateway ist eine bestimmte Art von Gateway für virtuelle Netzwerke, das verschlüsselten Datenverkehr zwischen einem virtuellen Azure-Netzwerk und einem lokalen Standort über das öffentliche Internet sendet.
Microsoft Entra ID ist ein Identitäts- und Zugriffsverwaltungsdienst, der mit einem lokalen aktiven Verzeichnis synchronisiert werden kann.

Anwendung

Azure Event Hubs ist eine Big Data-Streamingplattform und ein Ereigniserfassungsdienst, der Db2-, IMS- und VSAM-Änderungsdatennachrichten speichern kann. Mit diesem Dienst können Millionen von Nachrichten pro Sekunde empfangen und verarbeitet werden. An einen Event Hub gesendete Daten können mithilfe eines Echtzeitanalyseanbieters oder eines benutzerdefinierten Adapters transformiert und gespeichert werden.
Apache Kafka ist eine Open-Source-Plattform für verteiltes Ereignis-Streaming, die für hochleistungsfähige Datenpipelines, Streaming-Analysen, Datenintegration und unternehmenskritische Anwendungen eingesetzt wird. Sie kann problemlos in die Qlik-Datenintegration integriert werden, um Db2-Änderungsdaten zu speichern.
Azure Data Lake Storage Azure Data Lake Storage bietet einen Data Lake zum Speichern der verarbeiteten lokalen Änderungsprotokolldaten.
Azure Databricks ist ein cloudbasiertes Data-Engineering-Tool, das auf Apache Spark basiert. Sie kann große Datenmengen verarbeiten und transformieren. Sie können die Daten mithilfe von Machine Learning-Modellen untersuchen. Aufträge können in R, Python, Java, Scala und Spark SQL geschrieben werden.

Storage

Bei Azure Storage handelt es sich um eine Reihe hochgradig skalierbarer und sicherer Clouddienste für Daten, Apps und Workloads. Dazu gehören Azure Files, Azure Table Storage und Azure Queue Storage. Azure Files ist häufig ein effektives Tool für die Migration von Mainframeworkloads.
Azure Cosmos DB ist ein vollständig verwalteter NoSQL-Datenbankdienst mit Open-Source-APIs for MongoDB und Cassandra. Er kann beispielsweise für die Migration nicht tabellarischer Mainframedaten zu Azure verwendet werden.

Überwachung

Azure Monitor ist eine umfassende Lösung für das Sammeln, Analysieren und Behandeln von Telemetriedaten aus Ihren Cloud- und lokalen Umgebungen. Sie hat folgenden Inhalt:
- Application Insights zum Analysieren und Darstellen von Telemetriedaten.
- Überwachen von Protokollen, die Protokoll- und Leistungsdaten von überwachten Ressourcen sammeln und organisieren. Daten aus verschiedenen Quellen, z. B. Plattformprotokolle von Azure-Diensten, Protokoll- und Leistungsdaten von VM-Agents und Nutzungs- und Leistungsdaten aus Anwendungen, können in einem einzigen Arbeitsbereich konsolidiert werden, um zusammen analysiert zu werden. Bei der Analyse wird eine anspruchsvolle Abfragesprache verwendet, mit der Millionen von Datensätzen schnell analysiert werden können.
- Protokollanalyse, die Überwachungsprotokolle abfragen kann. Eine leistungsstarke Abfragesprache ermöglicht es Ihnen, Daten aus mehreren Tabellen zusammenzufügen, größere Mengen an Daten zu aggregieren und komplexe Vorgänge mit möglichst wenig Code auszuführen.

Alternativen

Das Diagramm zeigt die lokale Installation von Qlik. Dies ist eine empfohlene bewährte Methode, um sie in der Nähe der lokalen Datenquellen zu halten. Alternativ können Sie Qlik in der Cloud auf einer Azure-VM installieren.
Qlik-Datenintegration kann direkt an Databricks übermittelt werden, ohne Kafka oder einen Event Hub zu durchlaufen.
Die Qlik-Datenintegration kann nicht direkt in Azure Cosmos DB repliziert werden, aber Sie können Azure Cosmos DB mithilfe einer Event Sourcing-Architektur in einen Event Hub integrieren.

Szenariodetails

Viele Organisationen verwenden Mainframe- und Midrange-Systeme, um anspruchsvolle und kritische Workloads auszuführen. Die meisten Anwendungen verwenden eine oder mehrere Datenbanken, und die meisten Datenbanken werden von vielen Anwendungen gemeinsam genutzt, häufig auf mehreren Systemen. In einer solchen Umgebung bedeutet die Modernisierung der Cloud, dass lokale Daten für cloudbasierte Anwendungen bereitgestellt werden müssen. Daher wird die Datenreplikation zu einer wichtigen Modernisierungstaktik.

Die Qlik-Datenintegrationsplattform umfasst Qlik Replication, die die Datenreplikation übernimmt. Es verwendet Change Data Capture (CDC), um lokale Datenspeicher in Echtzeit in Azure zu replizieren. Die Änderungsdaten können aus Db2-, IMS- und VSAM-Änderungsprotokollen stammen. Dieses Replikationsverfahren beseitigt unangenehme Batch-Massenladevorgänge. Diese Lösung verwendet eine lokale Qlik-Instanz, um lokale Datenquellen in Echtzeit in Azure zu replizieren.

Mögliche Anwendungsfälle

Diese Lösung eignet sich möglicherweise für:

Hybridumgebungen, die eine Replikation von Datenänderungen von einem Mainframe- oder Midrange-System in Azure-Datenbanken erfordern.
Onlinedatenbankmigration von Db2 zu einer Azure SQL-Datenbank mit geringer Downtime.
Datenreplikation aus verschiedenen lokalen Datenspeichern in Azure zur Konsolidierung und Analyse.

Überlegungen

Diese Überlegungen beruhen auf den Säulen des Azure Well-Architected Frameworks, d. h. einer Reihe von Grundsätzen, mit denen die Qualität von Workloads verbessert werden kann. Weitere Informationen finden Sie unter Microsoft Azure Well-Architected Framework.

Zuverlässigkeit

Zuverlässigkeit stellt sicher, dass Ihre Anwendung Ihre Verpflichtungen gegenüber den Kunden erfüllen kann. Weitere Informationen finden Sie unter Prüfliste zur Entwurfsüberprüfung für Zuverlässigkeit.

Qlik-Datenintegration kann in einem Hochverfügbarkeitscluster konfiguriert werden.
Die Azure-Datenbankdienste unterstützen Zonenredundanz und können so konzipiert werden, dass bei einem Ausfall oder während eines Wartungsfensters ein Failover auf einen sekundären Knoten ausgeführt wird.

Sicherheit

Sicherheit bietet Schutz vor vorsätzlichen Angriffen und dem Missbrauch Ihrer wertvollen Daten und Systeme. Weitere Informationen finden Sie unter Prüfliste zur Entwurfsüberprüfung für sicherheitsrelevante.

ExpressRoute bietet eine private und effiziente Verbindung mit Azure aus der lokalen Bereitstellung, sie können jedoch stattdessen Site-to-Site-VPN verwenden.
Azure-Ressourcen können mit Microsoft Entra ID authentifiziert werden. Berechtigungen können über die rollenbasierte Zugriffssteuerung verwaltet werden.
Datenbankdienste in Azure unterstützen verschiedene Sicherheitsoptionen, z. B.:
- Datenverschlüsselung ruhender Daten.
- Dynamische Datenmaskierung.
- Always Encrypted-Datenbank.
Allgemeine Informationen zum Entwerfen sicherer Lösungen finden Sie in der Dokumentation zur Azure-Sicherheit.

Kostenoptimierung

Bei der Kostenoptimierung geht es um Möglichkeiten, unnötige Ausgaben zu reduzieren und die betriebliche Effizienz zu verbessern. Weitere Informationen finden Sie unter Prüfliste für die Überprüfung der Kostenoptimierung.

Verwenden Sie den Azure-Preisrechner, um die Kosten für Ihre Implementierung abzuschätzen.

Operative Exzellenz

Operational Excellence deckt die Betriebsprozesse ab, mit denen eine Anwendung bereitgestellt und in der Produktion ausgeführt wird. Weitere Informationen finden Sie unter Prüfliste für die Überprüfung von Operational Excellence.

Sie können die Funktionen Application Insights und Protokollanalyse von Monitor kombinieren, um die Integrität von Azure-Ressourcen zu überwachen. Sie können Warnungen festlegen, damit Sie proaktiv verwalten können.
Einen Leitfaden zur Resilienz in Azure finden Sie unter Entwerfen zuverlässiger Azure-Anwendungen.

Leistungseffizienz

Die Leistungseffizienz ist die Fähigkeit Ihrer Arbeitsauslastung, um die Anforderungen zu erfüllen, die die Benutzer auf effiziente Weise an sie stellen. Weitere Informationen finden Sie unter Prüfliste zur Entwurfsüberprüfung für die Leistungseffizienz.

Databricks, Data Lake Storage und andere Azure-Datenbanken verfügen über Funktionen für die automatische Skalierung. Weitere Informationen finden Sie unter Automatische Skalierung.

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

Nithish Aruldoss | Engineering Architect
Ashish Khandelwal | Principal Engineering Architecture Manager

Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.

Freigeben über

Replikation von Mainframe- und Midrangedaten mit Qlik

Aufbau

Workflow

Komponenten

Netzwerk und Identität

Anwendung

Storage

Überwachung

Alternativen

Szenariodetails

Mögliche Anwendungsfälle

Überlegungen

Zuverlässigkeit

Sicherheit

Kostenoptimierung

Operative Exzellenz

Leistungseffizienz

Beitragende

Nächste Schritte

Feedback

Zusätzliche Ressourcen

Freigeben über

Replikation von Mainframe- und Midrangedaten mit Qlik

Aufbau

Workflow

Komponenten

Netzwerk und Identität

Anwendung

Storage

Überwachung

Alternativen

Szenariodetails

Mögliche Anwendungsfälle

Überlegungen

Zuverlässigkeit

Sicherheit

Kostenoptimierung

Operative Exzellenz

Leistungseffizienz

Beitragende

Nächste Schritte

Zugehörige Ressourcen

Feedback

Zusätzliche Ressourcen