Репликация данных мейнфреймов и компьютеров среднего уровня в Azure с использованием Qlik

Центры событий Azure
Azure Data Lake
Azure Databricks

В этом решении используется локальный экземпляр Qlik для репликации локальных источников данных в Azure в режиме реального времени.

Примечание.

Произносите «Qlik» как «клик».

Apache® и Apache Kafka® являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в США и/или других странах. Использование этих меток не подразумевает подтверждения от Apache Software Foundation.

Архитектура

Архитектура миграции данных в Azure с помощью Qlik.

Скачайте файл Visio для этой архитектуры.

Рабочий процесс

  1. Агент узла: Агент узла в локальной системе собирает данные журнала изменений из хранилищ данных Db2, IMS и VSAM и передает ее на сервер Репликации Qlik.
  2. Сервер Репликации: программное обеспечение сервера репликации Qlik передает сведения журнала изменений в Kafka и Центры событий Azure. Qlik в этом примере является локальным, но его можно развернуть на виртуальной машине в Azure.
  3. Прием потоковых данных: Kafka и Центры событий предоставляют брокерам сообщений возможность получать и хранить информацию журнала изменений.
  4. Kafka Connect: API Kafka Connect используется для получения данных от Kafka с целью обновления хранилищ данных Azure, таких как Azure Data Lake Storage, Azure Databricks и Azure Synapse Analytics.
  5. Data Lake Storage: Data Lake Storage является промежуточной областью для данных журнала изменений.
  6. Databricks: Databricks обрабатывает данные журнала изменений и обновляет соответствующие файлы в Azure.
  7. Службы данных Azure: Azure предоставляет множество эффективных служб хранения данных. Одними из них являются следующие:
    • Службы реляционных баз данных:

      • SQL Server на Виртуальных машинах Microsoft Azure
      • База данных SQL Azure
      • Управляемый экземпляр SQL Azure
      • База данных Azure для PostgreSQL
      • База данных Azure для MySQL
      • Azure Cosmos DB

      Существует множество факторов, которые следует учитывать при выборе службы хранилища данных: тип рабочей нагрузки, запросы между базами данных, двухфазные требования фиксации, возможность доступа к файловой системе, объем данных, требуемая пропускная способность, задержка и т. д.

    • Службы нереляционных баз данных Azure: Azure Cosmos DB, база данных NoSQL, обеспечивает быстрый отклик, автоматическую масштабируемость и гарантированную скорость при любом масштабе.

    • Azure Synapse Analytics: Synapse Analytics — это служба аналитики, которая объединяет интеграцию данных, корпоративные хранилища данных и аналитику больших данных. С ее помощью вы можете запрашивать данные, используя либо бессерверные, либо выделенные ресурсы в большом масштабе.

    • Microsoft Fabric: Microsoft Fabric — это решение для аналитики с одним интерфейсом для предприятий. Он охватывает все, от перемещения данных до обработки и анализа данных, аналитики в режиме реального времени и бизнес-аналитики. Он предлагает полный набор служб, включая озера данных, инженерию данных и интеграцию данных.

Компоненты

Эта архитектура состоит из нескольких облачных служб Azure и разделена на четыре категории ресурсов: сети и удостоверения, приложения, хранилища и мониторинга. Службы для каждой и их ролей описаны в следующих разделах.

Сеть и идентификация

  • Azure ExpressRoute позволяет переносить локальные сети в облачные службы, предлагаемые Майкрософт, через частное подключение, которое обеспечивается поставщиком услуг подключения. ExpressRoute позволяет устанавливать подключения к облачным службам, таким как Microsoft Azure и Office 365.
  • VPN-шлюз Azure — это особый тип шлюза виртуальной сети для отправки зашифрованного трафика между виртуальной сетью Azure и локальным расположением через общедоступный Интернет.
  • Идентификатор Microsoft Entra — это служба управления удостоверениями и доступом, которая может синхронизироваться с локальным active directory.

Приложение

  • Центры событий Azure — это платформа потоковой передачи больших данных и служба приема событий, которая может хранить сообщения об изменениях данных Db2, IMS и VSAM. Она может получать и обрабатывать миллионы сообщений в секунду. Данные, отправляемые в Центр событий, можно преобразовывать и сохранять с помощью поставщика аналитики в реальном времени, а также с помощью настраиваемого адаптера.
  • Apache Kafka — это платформа потоковой передачи распределенных событий с открытым кодом, которая используется для высокопроизводительных конвейеров данных, потоковой аналитики, интеграции данных и критически важных приложений. Ее можно легко интегрировать с Qlik data integration для хранения данных об изменениях Db2.
  • Azure Data Lake Storage Azure Data Lake Storage предоставляет озеро данных для хранения обработанных локальных данных журнала изменений.
  • Azure Databricks — это облачное средство инжиниринга данных на основе Apache Spark. Оно может обрабатывать и преобразовывать большие объемы данных. Изучить данные можно с помощью моделей машинного обучения. Задания в нем могут быть написаны на языках R, Python, Java, Scala и Spark SQL.

Хранилище

  • Служба хранилища Azure — это набор высокомасштабируемых и безопасных облачных служб для данных, приложений и рабочих нагрузок. Она включает Файлы Azure, Хранилище таблиц Azure и Хранилище очередей Azure. Файлы Azure часто являются эффективным инструментом для переноса рабочих нагрузок мейнфреймов.
  • Azure Cosmos DB — это полностью управляемая служба базы данных NoSQL с API-интерфейсами с открытым кодом для MongoDB и Cassandra. Возможное применение — перенос нетабличных данных мейнфрейма в Azure.

Наблюдение

  • Azure Monitor — это комплексное решение для сбора, анализа и использования телеметрии из облачных и локальных сред. Он включает в себя:
    • Application Insights для анализа и представления данных телеметрии.
    • Журналы Monitor для сбора и организации журналов и данных о производительности из отслеживаемых ресурсов. Данные из разных источников, такие как журналы платформы из служб Azure, данные журналов и производительности от агентов виртуальных машин, а также данные об использовании и производительности из приложений, могут быть объединены в единую рабочую область для совместного анализа. Анализ использует сложный язык запросов, который способен быстро анализировать миллионы записей.
    • Log Analytics для запроса журналов мониторинга. Мощный язык запросов позволяет объединять данные из нескольких таблиц, объединять большие наборы данных и выполнять сложные операции с минимальным кодом.

Альтернативные варианты

  • На диаграмме показан Qlik, установленный в локальной сети, что является оптимальной рекомендацией, позволяющей держать его рядом с локальными источниками данных. Альтернативой является установка Qlik в облаке на виртуальной машине Azure.
  • Qlik Data Integration может доставлять данные непосредственно в Databricks, минуя Kafka или Центр событий.
  • Интеграция данных Qlik не может реплицироваться непосредственно в Azure Cosmos DB, но вы можете интегрировать Azure Cosmos DB с концентратором событий с помощью архитектуры источника событий.

Подробности сценария

Многие организации используют мейнфреймы и системы среднего класса для выполнения наиболее требовательных и критически важных рабочих нагрузок. Большинство приложений используют одну или несколько баз данных, и большинство баз данных совместно используются многими приложениями, часто в нескольких системах. В такой среде переход к облаку означает, что локальные данные должны предоставляться облачным приложениям. Поэтому репликация данных станет важной тактикой модернизации.

Платформа интеграции данных Qlik включает в себя Репликацию Qlik для репликации данных. Этот инструмент использует систему отслеживания измененных данных (CDC) для репликации локальных хранилищ данных в Azure в режиме реального времени. Данные об изменениях могут поступать из журналов изменений Db2, IMS и VSAM. Эта методика репликации устраняет неудобства массовой пакетной загрузки. В этом решении используется локальный экземпляр Qlik для репликации локальных источников данных в Azure в режиме реального времени.

Потенциальные варианты использования

Это решение может быть подходящим для:

  • Гибридные среды, требующие репликации измененных данных с мейнфрейма или системы среднего класса в базы данных Azure.
  • Миграция базы данных по сети с Db2 на базу данных Azure SQL с минимальным временем простоя.
  • Репликация данных из различных локальных хранилищ данных в Azure для консолидации и анализа.

Рекомендации

Эти рекомендации реализуют основные принципы платформы Azure Well-Architected Framework, которая является набором руководящих принципов, которые можно использовать для улучшения качества рабочей нагрузки. Дополнительные сведения см. в статье Microsoft Azure Well-Architected Framework.

Надежность

Надежность гарантирует, что ваше приложение позволит вам выполнить ваши обязательства перед клиентами. Дополнительные сведения см. в контрольном списке проверки конструктора длянадежности.

  • Qlik Data Integration можно настроить в кластере с высоким уровнем доступности.
  • Службы баз данных Azure поддерживают избыточность зон, и их можно настроить для отработки отказа на дополнительный узел в случае сбоя или на период обслуживания.

Безопасность

Безопасность обеспечивает гарантии от преднамеренного нападения и злоупотребления ценными данными и системами. Дополнительные сведения см. в контрольном списке конструктора длябезопасности.

  • ExpressRoute обеспечивает частное и эффективное подключение к Azure из локальной среды, но вместо этого можно использовать VPN типа "сеть — сеть".
  • Ресурсы Azure можно пройти проверку подлинности с помощью идентификатора Microsoft Entra. Разрешения можно управлять с помощью управления доступом на основе ролей.
  • Службы баз данных в поддержка Azure различных вариантах безопасности, таких как:
    • Шифрование неактивных данных.
    • Динамическое маскирование данных.
    • База данных с постоянным шифрованием.
  • Общие рекомендации по разработке безопасных решений см. в разделе Документация по системе безопасности Azure.

Оптимизация затрат

Оптимизация затрат заключается в том, чтобы подумать о способах сокращения ненужных расходов и повышения эффективности работы. Дополнительные сведения см. в контрольном списке конструктора дляоптимизации затрат.

Воспользуйтесь калькулятором цен Azure, чтобы оценить расходы на реализацию.

Операционное превосходство

Операционное превосходство охватывает процессы, которые развертывают приложение и продолжают работать в рабочей среде. Дополнительные сведения см. в контрольном списке проверки конструктора дляоперационного превосходства.

  • Для мониторинга работоспособности ресурсов Azure можно сочетать функции Monitor Application Insights и Log Analytics. Вы можете настроить оповещения, чтобы иметь возможность управлять с упреждением.
  • Рекомендации по устойчивости в Azure см. в статье Разработка надежных приложений Azure.

Эффективность производительности

Эффективность производительности — это возможность масштабирования рабочей нагрузки в соответствии с требованиями, заданными пользователями. Дополнительные сведения см. в контрольном списке проверки конструктора дляпроизводительности.

В Databricks, Data Lake Storage и других базах данных Azure предусмотрены возможности автоматического масштабирования. Дополнительные сведения см. в разделе Автомасштабирование.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.

Автор субъекта:

Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.

Следующие шаги