Репликация данных мейнфреймов и компьютеров среднего уровня в Azure с использованием Qlik

Центры событий Azure

Azure Data Lake

Azure Databricks

В этом решении используется локальный экземпляр Qlik для репликации локальных источников данных в Azure в режиме реального времени.

Примечание.

Произносите «Qlik» как «клик».

Apache® и Apache Kafka® являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в США и/или других странах. Использование этих меток не подразумевает подтверждения от Apache Software Foundation.

Архитектура

Скачайте файл Visio для этой архитектуры.

Рабочий процесс

агент узла: агент узла в локальной системе записывает данные журнала изменений из хранилищ данных Db2, IMS (система управления информацией) и VSAM (метод доступа к виртуальному хранилищу) и передает его серверу репликации Qlik.
Сервер Репликации: программное обеспечение сервера репликации Qlik передает сведения журнала изменений в Kafka и Центры событий Azure. Qlik в этом примере является локальным, но его можно развернуть на виртуальной машине в Azure.
Прием потоковых данных: Kafka и Центры событий предоставляют брокерам сообщений возможность получать и хранить информацию журнала изменений.
Kafka Connect: API Kafka Connect используется для получения данных от Kafka с целью обновления хранилищ данных Azure, таких как Azure Data Lake Storage, Azure Databricks и Azure Synapse Analytics.
Data Lake Storage: Data Lake Storage является промежуточной областью для данных журнала изменений.
Databricks: Databricks обрабатывает данные журнала изменений и обновляет соответствующие файлы в Azure.
службах данных Azure: Azure предоставляет различные эффективные службы хранения данных, в том числе:
- Службы реляционных баз данных:
  - SQL Server на Виртуальных машинах Microsoft Azure
  - База данных SQL Azure
  - Управляемый экземпляр SQL Azure
  - База данных Azure для PostgreSQL
  - База данных Azure для MySQL
  - Azure Cosmos DB
  Существует множество факторов, которые следует учитывать при выборе службы хранилища данных: тип рабочей нагрузки, запросы между базами данных, двухфазные требования фиксации, возможность доступа к файловой системе, объем данных, требуемая пропускная способность, задержка и т. д.
- Службы нереляционных баз данных Azure: Azure Cosmos DB, база данных NoSQL, обеспечивает быстрый отклик, автоматическую масштабируемость и гарантированную скорость при любом масштабе.
- Azure Synapse Analytics: Synapse Analytics — это служба аналитики, которая объединяет интеграцию данных, корпоративные хранилища данных и аналитику больших данных. С ее помощью вы можете запрашивать данные, используя либо бессерверные, либо выделенные ресурсы в большом масштабе.
- Microsoft Fabric: Microsoft Fabric — это решение для аналитики с одним интерфейсом для предприятий. Он охватывает все, от перемещения данных до обработки и анализа данных, аналитики в режиме реального времени и бизнес-аналитики. Он предлагает полный набор служб, включая озера данных, инженерию данных и интеграцию данных.

Компоненты

Эта архитектура состоит из нескольких облачных служб Azure и разделена на четыре категории ресурсов: сети и удостоверения, приложения, хранилища и мониторинга. Службы для каждой и их ролей описаны в следующих разделах.

Сеть и идентификация

При разработке архитектуры приложений важно определить приоритеты сетевых компонентов и компонентов удостоверений, чтобы обеспечить безопасность, производительность и управляемость во время взаимодействия через общедоступный Интернет или частные подключения.

Azure ExpressRoute позволяет переносить локальные сети в облачные службы, предлагаемые Майкрософт, через частное подключение, которое обеспечивается поставщиком услуг подключения. ExpressRoute позволяет устанавливать подключения к облачным службам, таким как Microsoft Azure и Office 365.
VPN-шлюз Azure — это особый тип шлюза виртуальной сети для отправки зашифрованного трафика между виртуальной сетью Azure и локальным расположением через общедоступный Интернет.
Идентификатор Microsoft Entra — это служба управления удостоверениями и доступом, которая может синхронизироваться с локальным active directory.

Приложение

Azure предлагает управляемые службы, предназначенные для поддержки безопасного, масштабируемого и эффективного развертывания приложений. Службы уровня приложений, приведенные в архитектуре, могут способствовать достижению оптимальной архитектуры приложения.

Центры событий Azure — это платформа потоковой передачи больших данных и служба приема событий, которая может хранить сообщения об изменениях данных Db2, IMS и VSAM. Она может получать и обрабатывать миллионы сообщений в секунду. Данные, отправляемые в Центр событий, можно преобразовывать и сохранять с помощью поставщика аналитики в реальном времени, а также с помощью настраиваемого адаптера.
Apache Kafka — это платформа потоковой передачи распределенных событий с открытым кодом, которая используется для высокопроизводительных конвейеров данных, потоковой аналитики, интеграции данных и критически важных приложений. Ее можно легко интегрировать с Qlik data integration для хранения данных об изменениях Db2.
Azure Data Lake Storage Azure Data Lake Storage предоставляет озеро данных для хранения обработанных локальных данных журнала изменений.
Azure Databricks — это облачное средство разработки данных, созданное на основе Apache Spark. Оно может обрабатывать и преобразовывать большие объемы данных. Изучить данные можно с помощью моделей машинного обучения. Задания в нем могут быть написаны на языках R, Python, Java, Scala и Spark SQL.

Хранилище и база данных

Архитектура решает масштабируемое и безопасное облачное хранилище, а также управляемые базы данных для гибкого и интеллектуального управления данными.

Служба хранилища Azure — это набор высокомасштабируемых и безопасных облачных служб для данных, приложений и рабочих нагрузок. Она включает Файлы Azure, Хранилище таблиц Azure и Хранилище очередей Azure. Файлы Azure часто являются эффективным инструментом для переноса рабочих нагрузок мейнфреймов.
Azure SQL — это семейство облачных баз данных SQL, предоставляющее гибкие возможности для миграции, модернизации и разработки приложений. Семья включает в себя следующее:
Azure Cosmos DB — это полностью управляемая служба базы данных NoSQL с API-интерфейсами с открытым кодом для MongoDB и Cassandra. Возможное приложение — перенос ненабличных данных мейнфрейма в Azure.
База данных Azure для PostgreSQL — это полностью управляемая, интеллектуальная и масштабируемая СУБД PostgreSQL с собственными подключениями к службам Azure.
База данных Azure для MySQL — это полностью управляемая масштабируемая база данных MySQL.
Azure Cosmos DB — это полностью управляемая служба базы данных NoSQL с API-интерфейсами с открытым кодом для MongoDB и Cassandra. Возможное приложение — перенос ненабличных данных мейнфрейма в Azure.

Наблюдение

Средства мониторинга предоставляют комплексный анализ данных и ценные аналитические сведения о производительности приложений.

Azure Monitor — это комплексное решение для сбора, анализа и использования телеметрии из облачных и локальных сред. Он включает в себя:
- Application Insights для анализа и представления данных телеметрии.
- Журналы Monitor для сбора и организации журналов и данных о производительности из отслеживаемых ресурсов. Данные из таких источников, как журналы платформы Azure, агенты виртуальных машин и производительность приложений, можно объединить в одну рабочую область для анализа. Язык запросов, используемый для анализа записей.
- Log Analytics для запроса журналов мониторинга. Мощный язык запросов позволяет объединять данные из нескольких таблиц, объединять большие наборы данных и выполнять сложные операции с минимальным кодом.

Альтернативные варианты

На диаграмме показан Qlik, установленный в локальной сети, что является оптимальной рекомендацией, позволяющей держать его рядом с локальными источниками данных. Альтернативой является установка Qlik в облаке на виртуальной машине Azure.
Qlik Data Integration может доставлять данные непосредственно в Databricks, минуя Kafka или Центр событий.
Интеграция данных Qlik не может реплицироваться непосредственно в Azure Cosmos DB, но вы можете интегрировать Azure Cosmos DB с концентратором событий с помощью архитектуры источника событий.

Подробности сценария

Многие организации используют мейнфреймы и системы среднего класса для выполнения наиболее требовательных и критически важных рабочих нагрузок. Большинство приложений используют общие базы данных, часто в нескольких системах. В такой среде переход к облаку означает, что локальные данные должны предоставляться облачным приложениям. Поэтому репликация данных станет важной тактикой модернизации.

Платформа интеграции данных Qlik включает в себя Репликацию Qlik для репликации данных. Этот инструмент использует систему отслеживания измененных данных (CDC) для репликации локальных хранилищ данных в Azure в режиме реального времени. Данные об изменениях могут поступать из журналов изменений Db2, IMS и VSAM. Эта методика репликации устраняет неудобства массовой пакетной загрузки. В этом решении используется локальный экземпляр Qlik для репликации локальных источников данных в Azure в режиме реального времени.

Потенциальные варианты использования

Это решение может быть подходящим для:

Гибридные среды, требующие репликации измененных данных с мейнфрейма или системы среднего класса в базы данных Azure.
Миграция базы данных по сети с Db2 на базу данных Azure SQL с минимальным временем простоя.
Репликация данных из различных локальных хранилищ данных в Azure для консолидации и анализа.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.

Автор субъекта:

Нитиш Арульдосс | Инженер-архитектор
Эшиш Хандельвал | Главный конструктор архитектуры

Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.

Поделиться через

Репликация данных мейнфреймов и компьютеров среднего уровня в Azure с использованием Qlik

Архитектура

Рабочий процесс

Компоненты

Сеть и идентификация

Приложение

Хранилище и база данных

Наблюдение

Альтернативные варианты

Подробности сценария

Потенциальные варианты использования

Рекомендации

Надежность

Безопасность

Оптимизация затрат

Операционное превосходство

Эффективность производительности

Соавторы

Следующие шаги

Обратная связь

Дополнительные ресурсы

Поделиться через

Репликация данных мейнфреймов и компьютеров среднего уровня в Azure с использованием Qlik

Архитектура

Рабочий процесс

Компоненты

Сеть и идентификация

Приложение

Хранилище и база данных

Наблюдение

Альтернативные варианты

Подробности сценария

Потенциальные варианты использования

Рекомендации

Надежность

Безопасность

Оптимизация затрат

Операционное превосходство

Эффективность производительности

Соавторы

Следующие шаги

Связанные ресурсы

Обратная связь

Дополнительные ресурсы