Editar

Compartilhar via


Replicação de dados de mainframe e de alcance médio no Azure usando o Qlik

Hubs de eventos do Azure
Azure Data Lake
Azure Databricks

A solução usa uma instância local do Qlik para replicar fontes de dados locais no Azure em tempo real.

Observação

Pronuncie "Qlik" como "click".

Apache® e Apache Kafka® são marcas registradas ou marcas comerciais da Apache Software Foundation nos Estados Unidos e/ou em outros países. O uso desta marca não implica aprovação por parte da Apache Software Foundation.

Arquitetura

Arquitetura para migração de dados para o Azure usando o Qlik.

Baixe um Arquivo Visio dessa arquitetura.

Workflow

  1. Agente de host: o agente de host no sistema local captura informações do log de alterações dos armazenamentos de dados do DB2, do IMS e do VSAM e as transmite ao servidor do Qlik Replication.
  2. Servidor de replicação: o software do servidor do Qlik Replication transmite as informações do log de alterações para o Kafka e os Hubs de Eventos do Azure. Neste exemplo, o Qlik é local, mas ele pode ser implantado em uma máquina virtual no Azure.
  3. Ingestão de fluxo: o Kafka e os Hubs de Eventos fornecem agentes de mensagens para receber e armazenar informações do log de alterações.
  4. Kafka Connect: a API do Kafka Connect é usada para obter dados do Kafka para atualizar os armazenamentos de dados do Azure, como o Azure Data Lake Storage, o Azure Databricks e o Azure Synapse Analytics.
  5. Data Lake Storage: o Data Lake Storage é uma área de preparo para os dados do log de alterações.
  6. Databricks: o Databricks processa os dados do log de alterações e atualiza os arquivos correspondentes no Azure.
  7. Serviços de dados do Azure: o Azure fornece uma variedade de serviços eficientes para o armazenamento de dados. Destacam-se entre eles:
    • Serviços de bancos de dados relacionais:

      • SQL Server nas Máquinas Virtuais do Azure
      • Banco de Dados SQL do Azure
      • Instância Gerenciada do SQL do Azure
      • Banco de Dados do Azure para PostgreSQL
      • Banco de Dados do Azure para MySQL
      • Azure Cosmos DB

      Há muitos fatores a serem considerados para escolher um serviço de armazenamento de dados: tipo de carga de trabalho, consultas entre bancos de dados, requisitos de 2PC, capacidade de acessar o sistema de arquivos, quantidade de dados, taxa de transferência necessária, latência, entre outros.

    • Serviços de banco de dados não relacionais do Azure: o Azure Cosmos DB, um banco de dados NoSQL, fornece resposta rápida, escalabilidade automática e velocidade garantida em qualquer escala.

    • Azure Synapse Analytics: o Synapse Analytics é um serviço de análise que reúne integração de dados, armazenamento de dados empresariais e análise de big data. Com ele, é possível consultar dados usando recursos sem servidor ou dedicados em escala.

    • Microsoft Fabric: o Microsoft Fabric é uma solução de análise tudo-em-um para empresas. Ele abrange desde movimentação de dados até ciência de dados, análise em tempo real e business intelligence. Ele oferece um conjunto completo de serviços, incluindo data lake, engenharia de dados e integração de dados.

Componentes

Essa arquitetura consiste em vários serviços de nuvem do Azure e é dividida em quatro categorias de recursos: sistema de rede e identidade, aplicativo, armazenamento e monitoramento. Os serviços de cada uma e suas funções são descritos nas seções a seguir.

Rede e identidade

  • O Azure ExpressRoute estende suas redes locais em serviços de nuvem oferecidos pela Microsoft por meio de uma conexão privada de um provedor de conectividade. Com o ExpressRoute, é possível estabelecer conexões com os serviços em nuvem da Microsoft, como o Microsoft Azure e o Office 365.
  • O Gateway de VPN do Azure é um tipo específico de gateway de rede virtual que envia tráfegos criptografados entre uma rede virtual do Azure e o local pela Internet pública.
  • O Microsoft Entra ID é um serviço de gerenciamento de identidade e acesso que pode sincronizar com o Active Directory local.

Aplicativo

  • Os Hubs de Eventos do Azure são uma plataforma de streaming de big data e um serviço de ingestão de eventos capaz de armazenar mensagens de dados alterados do DB2, do IMS e do VSAM. Ele pode receber e processar milhões de mensagens por segundo. Os dados enviados a um hub de eventos podem ser transformados e armazenados usando um provedor de análises em tempo real ou um adaptador personalizado.
  • O Apache Kafka é uma plataforma de streaming de eventos distribuídos de código aberto usada para pipelines de dados de alto desempenho, análises de streaming, integração de dados e aplicativos críticos. Ele pode ser facilmente integrado à integração de dados do Qlik para armazenar dados alterados do DB2.
  • O Azure Data Lake Storage fornece um data lake para armazenar os dados processados do log de alterações local.
  • O Azure Databricks é uma ferramenta de engenharia de dados baseada em nuvem que foi criada tendo como modelo o Apache Spark. Ele pode processar e transformar grandes quantidades de dados. É possível explorar dados usando modelos de aprendizado de máquina. Os trabalhos podem ser escritos nas linguagens R, Python, Java, Scala e Spark SQL.

Armazenamento

Monitoramento

  • O Azure Monitor oferece uma solução abrangente para coleta, análise e ação com base na telemetria dos ambientes de nuvem e locais. Ele inclui:
    • Application Insights, para analisar e apresentar a telemetria.
    • Monitor Logs, que coleta e organiza os dados de log e desempenho dos recursos monitorados. Dados de diferentes fontes, como logs de plataforma de serviços do Azure, dados de log e de desempenho de agentes de máquinas virtuais e dados de uso e de desempenho de aplicativos podem ser consolidados em um único workspace para análise con​junta. A análise usa uma linguagem de consulta sofisticada capaz de analisar rapidamente milhões de registros.
    • Log Analytics, que pode consultar os logs do Monitor. Uma linguagem de consulta avançada permite unir os dados de várias tabelas, agregar grandes conjuntos de dados e executar operações complexas com código mínimo.

Alternativas

  • O diagrama mostra o Qlik instalado localmente, uma prática recomendada para mantê-lo próximo das fontes de dados locais. Uma alternativa é instalar o Qlik na nuvem em uma máquina virtual do Azure.
  • A Integração de Dados do Qlik pode ser entregue diretamente ao Databricks sem passar pelo Kafka ou por um hub de eventos.
  • O Qlik Data Integration não pode replicar diretamente para o Azure Cosmos DB, mas você pode integrar o Azure Cosmos DB com um hub de eventos usando uma arquitetura de eventos.

Detalhes do cenário

Muitas organizações usam sistemas de mainframe e midrange para executar cargas de trabalho exigentes e críticas. A maioria dos aplicativos usa um ou mais bancos de dados e a maioria desses bancos de dados é compartilhada por muitos aplicativos, geralmente em diversos sistemas. Nesse ambiente, a modernização para a nuvem significa que os dados locais devem ser fornecidos para aplicativos baseados em nuvem. Portanto, a replicação de dados se torna uma tática de modernização importante.

A plataforma de Integração de Dados do Qlik inclui o Qlik Replication, que faz a replicação de dados. Ele usa a CDC (captura de dados de alteração) para replicar armazenamentos de dados locais em tempo real no Azure. Os dados de alteração podem vir de logs de alteração do DB2, do IMS e do VSAM. Essa técnica de replicação elimina cargas em lote inconvenientes. A solução usa uma instância local do Qlik para replicar fontes de dados locais no Azure em tempo real.

Possíveis casos de uso

Esta solução pode ser apropriada para:

  • Ambientes híbridos que exigem replicação de alterações de dados de um sistema de mainframe ou midrange em bancos de dados do Azure.
  • Migração de banco de dados online do DB2 para um banco de dados SQL do Azure com pouco tempo de inatividade.
  • Replicação de dados de diversos armazenamentos de dados locais no Azure para consolidação e análises.

Considerações

Estas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios de orientação que podem ser usados para aprimorar a qualidade de uma carga de trabalho. Para obter mais informações, confira Microsoft Azure Well-Architected Framework.

Confiabilidade

A confiabilidade garante que seu aplicativo possa cumprir os compromissos que você assume com seus clientes. Para obter mais informações, confira Visão geral do pilar de confiabilidade.

  • A Integração de Dados do Qlik pode ser configurada em um cluster de alta disponibilidade.
  • Os serviços de banco de dados do Azure fornecem suporte à redundância de zona e podem ser projetados para fazer failover para um nó secundário em caso de interrupção ou durante uma janela de manutenção.

Segurança

A segurança fornece garantias contra ataques deliberados e o abuso de seus dados e sistemas valiosos. Para saber mais, confira Visão geral do pilar de segurança.

  • O ExpressRoute fornece uma conexão privada e eficiente do local com o Azure, mas é possível usar a VPN site a site.
  • Os recursos do Azure podem ser autenticados com o Microsoft Entra ID. As permissões podem ser gerenciadas pelo controle de acesso baseado em função.
  • Os serviços de banco de dados do Azure são compatíveis com diversas opções de segurança, como as seguintes:
    • Criptografia de dados em repouso.
    • Mascaramento dinâmico de dados.
    • Banco de dados sempre criptografado.
  • Confira orientações gerais sobre como criar soluções seguras na Documentação de Segurança do Azure.

Otimização de custo

A otimização de custos é a análise de maneiras de reduzir as despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, confira Visão geral do pilar de otimização de custo.

Use a Calculadora de Preços do Azure, para estimar os custos de sua implementação.

Excelência operacional

A excelência operacional abrange os processos de operações que implantam um aplicativo e o mantêm em execução na produção. Para obter mais informações, confira Visão geral do pilar de excelência operacional.

  • É possível combinar os recursos Application Insights e Log Analytics do Monitor para monitorar a integridade dos recursos do Azure. É possível definir alertas para um gerenciamento proativo.
  • Para obter orientação sobre resiliência no Azure, consulte Projetando aplicativos confiáveis do Azure.

Eficiência de desempenho

A eficiência do desempenho é a capacidade de dimensionar sua carga de trabalho para atender às demandas colocadas por usuários de maneira eficiente. Para obter mais informações, consulte Visão geral do pilar de eficiência de desempenho.

O Databricks, o Data Lake Storage e outros bancos de dados do Azure têm recursos de dimensionamento automático. Para saber mais, confira Dimensionamento automático.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Autor principal:

Para ver perfis não públicos do LinkedIn, entre no LinkedIn.

Próximas etapas