Replica dei dati di sistemi mainframe e di fascia media in Azure con Qlik

Hub eventi di Azure
Azure Data Lake
Azure Databricks

Questa soluzione usa un'istanza locale di Qlik per replicare le origini dati locali in Azure in tempo reale.

Nota

Pronunciare "Qlik" come "clic".

Apache® e Apache Kafka® sono marchi o marchi registrati di Apache Software Foundation negli Stati Uniti e/o in altri Paesi. L'uso di questi marchi non implica alcuna approvazione da parte di Apache Software Foundation.

Architettura

Architettura per la migrazione dei dati ad Azure tramite Qlik.

Scaricare un file di Visio di questa architettura.

Workflow

  1. agente host: L'agente host nel sistema locale acquisisce le informazioni di log delle modifiche da Db2, IMS (Information Management System) e gli archivi dati VSAM (metodo di accesso alle risorse di archiviazione virtuale) e li passa al server Qlik Replication.
  2. Server di replica: il software server Qlik Replication passa le informazioni dei log delle modifiche a Kafka e Hub eventi di Azure. Qlik in questo esempio è locale, ma potrebbe invece essere distribuito in una macchina virtuale in Azure.
  3. Inserimento del flusso: Kafka e Hub eventi forniscono broker messaggi per ricevere e archiviare le informazioni dei log delle modifiche.
  4. Kafka Connect: l'API Kafka Connect viene usata per ottenere dati da Kafka per aggiornare gli archivi dati di Azure, ad esempio Azure Data Lake Storage, Azure Databricks e Azure Synapse Analytics.
  5. Data Lake Storage: è un'area di gestione temporanea per i dati dei log delle modifiche.
  6. Databricks: elabora i dati dei log delle modifiche e aggiorna i file corrispondenti in Azure.
  7. servizi dati di Azure: Azure offre diversi servizi di archiviazione dei dati efficienti, tra cui:
    • Servizi di database relazionali:

      • SQL Server in Macchine virtuali di Azure
      • database SQL di Azure
      • Istanza gestita di SQL di Azure
      • Database di Azure per PostgreSQL
      • Database di Azure per MySQL
      • Azure Cosmos DB

      Esistono molti fattori da considerare quando si sceglie un servizio di archiviazione dati: tipo di carico di lavoro, query tra database, requisiti di commit in due fasi, possibilità di accedere al file system, quantità di dati, velocità effettiva richiesta, latenza e così via.

    • Servizi di database non relazionali di Azure: Azure Cosmos DB, un database NoSQL, offre risposta rapida, scalabilità automatica e velocità garantita su qualsiasi scala.

    • Azure Synapse Analytics: è un servizio di analisi che riunisce integrazione dei dati, data warehousing aziendale e analisi di Big Data. Grazie a esso, è possibile eseguire query sui dati usando risorse serverless o dedicate su larga scala.

    • Microsoft Fabric: Microsoft Fabric è una soluzione di analisi all-in-one per le aziende. Vengono illustrati tutti gli elementi, dallo spostamento dei dati all'analisi scientifica dei dati, all'analisi in tempo reale e alla business intelligence. Offre una suite completa di servizi, tra cui data lake, ingegneria dei dati e integrazione dei dati.

Componenti

Questa architettura è costituita da diversi servizi cloud di Azure ed è suddivisa in quattro categorie di risorse: rete e identità, applicazione, archiviazione e monitoraggio. I servizi per ognuno e i relativi ruoli sono descritti nelle sezioni seguenti.

Rete e identità

Quando si progetta l'architettura dell'applicazione, è fondamentale classificare in ordine di priorità i componenti di rete e identità per garantire sicurezza, prestazioni e gestibilità durante le interazioni tramite connessioni Internet pubbliche o private.

  • Azure ExpressRoute estende le reti locali nei servizi cloud offerti da Microsoft tramite una connessione privata fornita da un provider di connettività. Con ExpressRoute è possibile stabilire connessioni ai servizi cloud, ad esempio Microsoft Azure e Office 365.
  • Gateway VPN di Azure è un tipo specifico di gateway di rete virtuale, usato per inviare traffico crittografato tra una rete virtuale di Azure e una posizione locale attraverso la rete Internet pubblica.
  • Microsoft Entra ID è un servizio di gestione delle identità e degli accessi che può essere sincronizzato con un'istanza di Active Directory locale.

Applicazione

Azure offre servizi gestiti destinati a supportare la distribuzione sicura, scalabile ed efficiente delle applicazioni. I servizi del livello applicazione citati nell'architettura possono contribuire a ottenere un'architettura ottimale dell'applicazione.

  • Hub eventi di Azure è una piattaforma di streaming di Big Data e un servizio di inserimento eventi in grado di archiviare i messaggi di dati delle modifiche Db2, IMS e VSAM. È in grado di ricevere ed elaborare milioni di messaggi al secondo. I dati inviati a un hub eventi possono essere trasformati e archiviati usando un provider di analisi in tempo reale o un adattatore personalizzato.
  • Apache Kafka è una piattaforma di streaming di eventi distribuiti open source usata per pipeline di dati ad alte prestazioni, analisi di streaming, integrazione dei dati e applicazioni cruciali. Può essere facilmente integrato con l'integrazione dati Qlik per archiviare i dati delle modifiche Db2.
  • Azure Data Lake Storage di Azure Data Lake Storage offre un data lake per l'archiviazione dei dati dei log delle modifiche locali elaborati.
  • azure Databricks è uno strumento di progettazione dei dati basato sul cloud basato su Apache Spark. Può elaborare e trasformare grandi quantità di dati. È possibile esplorare i dati usando modelli di Machine Learning. I processi possono essere scritti in R, Python, Java, Scala e Spark SQL.

Archiviazione e database

L'architettura risolve l'archiviazione cloud scalabile e sicura, nonché i database gestiti per la gestione dei dati flessibile e intelligente.

Monitoraggio

Gli strumenti di monitoraggio forniscono analisi completa dei dati e informazioni dettagliate preziose sulle prestazioni dell'applicazione.

  • Monitoraggio di Azure offre una soluzione completa per la raccolta, l'analisi e l'esecuzione di operazioni sui dati di telemetria dal cloud e dagli ambienti locali. Comprende:
    • Applicazione Insights, per l'analisi e la presentazione dei dati di telemetria.
    • Log di Monitoraggio, che raccoglie e organizza i dati di log e prestazioni provenienti dalle risorse monitorate. I dati provenienti da origini come i log della piattaforma Azure, gli agenti di macchine virtuali e le prestazioni dell'applicazione possono essere combinati in un'area di lavoro per l'analisi. Il linguaggio di query usato consente l'analisi dei record.
    • Log Analytics, che può eseguire query sui log di monitoraggio. Un linguaggio di query avanzato consente di unire dati da più tabelle, aggregare set di dati di grandi dimensioni ed eseguire operazioni complesse con codice minimo.

Alternative

  • Il diagramma mostra Qlik installato in locale, una procedura consigliata per mantenerlo vicino alle origini dati locali. Un'alternativa consiste nell'installare Qlik nel cloud in una macchina virtuale di Azure.
  • Qlik Data Integration può effettuare il recapito direttamente a Databricks senza passare attraverso Kafka o un hub eventi.
  • L'integrazione di Qlik Data non può essere replicata direttamente in Azure Cosmos DB, ma è possibile integrare Azure Cosmos DB con un hub eventi usando l'architettura di origine eventi.

Dettagli dello scenario

Molte organizzazioni usano sistemi mainframe e di fascia media per eseguire carichi di lavoro complessi e di importanza critica. La maggior parte delle applicazioni usa database condivisi, spesso in più sistemi. In un ambiente di questo tipo, l'aggiornamento al cloud significa che i dati locali devono essere forniti alle applicazioni basate sul cloud. La replica dei dati diventa quindi un'importante tattica di modernizzazione.

La piattaforma di integrazione dati Qlik include Qlik Replication, che esegue la replica dei dati. Usa Change Data Capture (CDC) per replicare gli archivi dati locali in tempo reale in Azure. I dati delle modifiche possono provenire dai log delle modifiche Db2, IMS e VSAM. Questa tecnica di replica evita i poco pratici caricamenti bulk batch. Questa soluzione usa un'istanza locale di Qlik per replicare le origini dati locali in Azure in tempo reale.

Potenziali casi d'uso

Questa soluzione potrebbe essere appropriata per:

  • Ambienti ibridi che richiedono la replica delle modifiche dei dati da un sistema mainframe o di fascia media ai database di Azure.
  • Migrazione online del database da Db2 a un database SQL di Azure con tempi di inattività limitati.
  • Replica dei dati da vari archivi dati locali ad Azure per il consolidamento e l'analisi.

Considerazioni

Queste considerazioni implementano i pilastri di Azure Well-Architected Framework, che è un set di principi guida che possono essere usati per migliorare la qualità di un carico di lavoro. Per altre informazioni, vedere Microsoft Azure Well-Architected Framework.

Affidabilità

L'affidabilità garantisce che l'applicazione possa soddisfare gli impegni che l'utente ha preso con i clienti. Per altre informazioni, vedere Elenco di controllo per la revisione della progettazione per l'affidabilità.

  • È possibile configurare Qlik Data Integration in un cluster a disponibilità elevata.
  • I servizi di database di Azure supportano la ridondanza della zona e possono essere progettati per eseguire il failover in un nodo secondario in caso di interruzione o durante una finestra di manutenzione.

Sicurezza

La sicurezza offre garanzie contro attacchi intenzionali e l'abuso di dati e sistemi preziosi. Per altre informazioni, vedere Elenco di controllo per la revisione della progettazione per Security.

  • Azure ExpressRoute offre una connessione privata ed efficiente ad Azure dall'ambiente locale, ma è possibile usare VPN da sito a sito.
  • Le risorse di Azure possono essere autenticate tramite Microsoft Entra ID e le autorizzazioni vengono gestite tramite il controllo degli accessi in base al ruolo.
  • I servizi di database di Azure supportano varie opzioni di sicurezza, ad esempio:
    • Crittografia dei dati inattivi.
    • Maschera dati dinamica.
    • Database Always Encrypted.
  • Per indicazioni generali sulla progettazione di soluzioni sicure, vedere la documentazione sulla sicurezza di Azure.

Ottimizzazione costi

L'ottimizzazione dei costi consiste nell'esaminare i modi per ridurre le spese non necessarie e migliorare l'efficienza operativa. Per altre informazioni, vedere Elenco di controllo per la revisione della progettazione per l'ottimizzazione dei costi.

Usare il Calcolatore prezzi di Azure per stimare i costi per l'implementazione.

Eccellenza operativa

L'eccellenza operativa copre i processi operativi che distribuiscono un'applicazione e lo mantengono in esecuzione nell'ambiente di produzione. Per altre informazioni, vedere Elenco di controllo per la revisione della progettazione per l'eccellenza operativa.

  • È possibile combinare le funzionalità Log Analytics e Application Insights di Monitoraggio per monitorare l'integrità delle risorse di Azure. È possibile impostare gli avvisi in modo da poter effettuare la gestione in modo proattivo.

Efficienza delle prestazioni

L'efficienza delle prestazioni è la capacità del carico di lavoro di ridimensionarsi per soddisfare le esigenze poste dagli utenti in modo efficiente. Per altre informazioni, vedere Elenco di controllo per l'efficienza delle prestazioni.

Databricks, Data Lake Storage e altri database di Azure hanno funzionalità di scalabilità automatica. Per altre informazioni, vedere Scalabilità automatica.

Collaboratori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.

Autore principale:

Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.

Passaggi successivi