В этом решении используется локальный экземпляр Qlik для репликации локальных источников данных в Azure в режиме реального времени.
Примечание.
Произносите «Qlik» как «клик».
Apache® и Apache Kafka® являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в США и/или других странах. Использование этих меток не подразумевает подтверждения от Apache Software Foundation.
Архитектура
Скачайте файл Visio для этой архитектуры.
Рабочий процесс
- Агент узла: Агент узла в локальной системе собирает данные журнала изменений из хранилищ данных Db2, IMS и VSAM и передает ее на сервер Репликации Qlik.
- Сервер Репликации: программное обеспечение сервера репликации Qlik передает сведения журнала изменений в Kafka и Центры событий Azure. Qlik в этом примере является локальным, но его можно развернуть на виртуальной машине в Azure.
- Прием потоковых данных: Kafka и Центры событий предоставляют брокерам сообщений возможность получать и хранить информацию журнала изменений.
- Kafka Connect: API Kafka Connect используется для получения данных от Kafka с целью обновления хранилищ данных Azure, таких как Azure Data Lake Storage, Azure Databricks и Azure Synapse Analytics.
- Data Lake Storage: Data Lake Storage является промежуточной областью для данных журнала изменений.
- Databricks: Databricks обрабатывает данные журнала изменений и обновляет соответствующие файлы в Azure.
-
Службы данных Azure: Azure предоставляет множество эффективных служб хранения данных. Одними из них являются следующие:
Службы реляционных баз данных:
- SQL Server на Виртуальных машинах Microsoft Azure
- База данных SQL Azure
- Управляемый экземпляр SQL Azure
- База данных Azure для PostgreSQL
- База данных Azure для MySQL
- Azure Cosmos DB
Существует множество факторов, которые следует учитывать при выборе службы хранилища данных: тип рабочей нагрузки, запросы между базами данных, двухфазные требования фиксации, возможность доступа к файловой системе, объем данных, требуемая пропускная способность, задержка и т. д.
Службы нереляционных баз данных Azure: Azure Cosmos DB, база данных NoSQL, обеспечивает быстрый отклик, автоматическую масштабируемость и гарантированную скорость при любом масштабе.
Azure Synapse Analytics: Synapse Analytics — это служба аналитики, которая объединяет интеграцию данных, корпоративные хранилища данных и аналитику больших данных. С ее помощью вы можете запрашивать данные, используя либо бессерверные, либо выделенные ресурсы в большом масштабе.
Microsoft Fabric: Microsoft Fabric — это решение для аналитики с одним интерфейсом для предприятий. Он охватывает все, от перемещения данных до обработки и анализа данных, аналитики в режиме реального времени и бизнес-аналитики. Он предлагает полный набор служб, включая озера данных, инженерию данных и интеграцию данных.
Компоненты
Эта архитектура состоит из нескольких облачных служб Azure и разделена на четыре категории ресурсов: сети и удостоверения, приложения, хранилища и мониторинга. Службы для каждой и их ролей описаны в следующих разделах.
Сеть и идентификация
- Azure ExpressRoute позволяет переносить локальные сети в облачные службы, предлагаемые Майкрософт, через частное подключение, которое обеспечивается поставщиком услуг подключения. ExpressRoute позволяет устанавливать подключения к облачным службам, таким как Microsoft Azure и Office 365.
- VPN-шлюз Azure — это особый тип шлюза виртуальной сети для отправки зашифрованного трафика между виртуальной сетью Azure и локальным расположением через общедоступный Интернет.
- Идентификатор Microsoft Entra — это служба управления удостоверениями и доступом, которая может синхронизироваться с локальным active directory.
Приложение
- Центры событий Azure — это платформа потоковой передачи больших данных и служба приема событий, которая может хранить сообщения об изменениях данных Db2, IMS и VSAM. Она может получать и обрабатывать миллионы сообщений в секунду. Данные, отправляемые в Центр событий, можно преобразовывать и сохранять с помощью поставщика аналитики в реальном времени, а также с помощью настраиваемого адаптера.
- Apache Kafka — это платформа потоковой передачи распределенных событий с открытым кодом, которая используется для высокопроизводительных конвейеров данных, потоковой аналитики, интеграции данных и критически важных приложений. Ее можно легко интегрировать с Qlik data integration для хранения данных об изменениях Db2.
- Azure Data Lake Storage Azure Data Lake Storage предоставляет озеро данных для хранения обработанных локальных данных журнала изменений.
- Azure Databricks — это облачное средство инжиниринга данных на основе Apache Spark. Оно может обрабатывать и преобразовывать большие объемы данных. Изучить данные можно с помощью моделей машинного обучения. Задания в нем могут быть написаны на языках R, Python, Java, Scala и Spark SQL.
Хранилище
- Служба хранилища Azure — это набор высокомасштабируемых и безопасных облачных служб для данных, приложений и рабочих нагрузок. Она включает Файлы Azure, Хранилище таблиц Azure и Хранилище очередей Azure. Файлы Azure часто являются эффективным инструментом для переноса рабочих нагрузок мейнфреймов.
- Azure Cosmos DB — это полностью управляемая служба базы данных NoSQL с API-интерфейсами с открытым кодом для MongoDB и Cassandra. Возможное применение — перенос нетабличных данных мейнфрейма в Azure.
Наблюдение
-
Azure Monitor — это комплексное решение для сбора, анализа и использования телеметрии из облачных и локальных сред. Он включает в себя:
- Application Insights для анализа и представления данных телеметрии.
- Журналы Monitor для сбора и организации журналов и данных о производительности из отслеживаемых ресурсов. Данные из разных источников, такие как журналы платформы из служб Azure, данные журналов и производительности от агентов виртуальных машин, а также данные об использовании и производительности из приложений, могут быть объединены в единую рабочую область для совместного анализа. Анализ использует сложный язык запросов, который способен быстро анализировать миллионы записей.
- Log Analytics для запроса журналов мониторинга. Мощный язык запросов позволяет объединять данные из нескольких таблиц, объединять большие наборы данных и выполнять сложные операции с минимальным кодом.
Альтернативные варианты
- На диаграмме показан Qlik, установленный в локальной сети, что является оптимальной рекомендацией, позволяющей держать его рядом с локальными источниками данных. Альтернативой является установка Qlik в облаке на виртуальной машине Azure.
- Qlik Data Integration может доставлять данные непосредственно в Databricks, минуя Kafka или Центр событий.
- Интеграция данных Qlik не может реплицироваться непосредственно в Azure Cosmos DB, но вы можете интегрировать Azure Cosmos DB с концентратором событий с помощью архитектуры источника событий.
Подробности сценария
Многие организации используют мейнфреймы и системы среднего класса для выполнения наиболее требовательных и критически важных рабочих нагрузок. Большинство приложений используют одну или несколько баз данных, и большинство баз данных совместно используются многими приложениями, часто в нескольких системах. В такой среде переход к облаку означает, что локальные данные должны предоставляться облачным приложениям. Поэтому репликация данных станет важной тактикой модернизации.
Платформа интеграции данных Qlik включает в себя Репликацию Qlik для репликации данных. Этот инструмент использует систему отслеживания измененных данных (CDC) для репликации локальных хранилищ данных в Azure в режиме реального времени. Данные об изменениях могут поступать из журналов изменений Db2, IMS и VSAM. Эта методика репликации устраняет неудобства массовой пакетной загрузки. В этом решении используется локальный экземпляр Qlik для репликации локальных источников данных в Azure в режиме реального времени.
Потенциальные варианты использования
Это решение может быть подходящим для:
- Гибридные среды, требующие репликации измененных данных с мейнфрейма или системы среднего класса в базы данных Azure.
- Миграция базы данных по сети с Db2 на базу данных Azure SQL с минимальным временем простоя.
- Репликация данных из различных локальных хранилищ данных в Azure для консолидации и анализа.
Рекомендации
Эти рекомендации реализуют основные принципы платформы Azure Well-Architected Framework, которая является набором руководящих принципов, которые можно использовать для улучшения качества рабочей нагрузки. Дополнительные сведения см. в статье Microsoft Azure Well-Architected Framework.
Надежность
Надежность гарантирует, что ваше приложение позволит вам выполнить ваши обязательства перед клиентами. Дополнительные сведения см. в контрольном списке проверки конструктора длянадежности.
- Qlik Data Integration можно настроить в кластере с высоким уровнем доступности.
- Службы баз данных Azure поддерживают избыточность зон, и их можно настроить для отработки отказа на дополнительный узел в случае сбоя или на период обслуживания.
Безопасность
Безопасность обеспечивает гарантии от преднамеренного нападения и злоупотребления ценными данными и системами. Дополнительные сведения см. в контрольном списке конструктора длябезопасности.
- ExpressRoute обеспечивает частное и эффективное подключение к Azure из локальной среды, но вместо этого можно использовать VPN типа "сеть — сеть".
- Ресурсы Azure можно пройти проверку подлинности с помощью идентификатора Microsoft Entra. Разрешения можно управлять с помощью управления доступом на основе ролей.
- Службы баз данных в поддержка Azure различных вариантах безопасности, таких как:
- Шифрование неактивных данных.
- Динамическое маскирование данных.
- База данных с постоянным шифрованием.
- Общие рекомендации по разработке безопасных решений см. в разделе Документация по системе безопасности Azure.
Оптимизация затрат
Оптимизация затрат заключается в том, чтобы подумать о способах сокращения ненужных расходов и повышения эффективности работы. Дополнительные сведения см. в контрольном списке конструктора дляоптимизации затрат.
Воспользуйтесь калькулятором цен Azure, чтобы оценить расходы на реализацию.
Операционное превосходство
Операционное превосходство охватывает процессы, которые развертывают приложение и продолжают работать в рабочей среде. Дополнительные сведения см. в контрольном списке проверки конструктора дляоперационного превосходства.
- Для мониторинга работоспособности ресурсов Azure можно сочетать функции Monitor Application Insights и Log Analytics. Вы можете настроить оповещения, чтобы иметь возможность управлять с упреждением.
- Рекомендации по устойчивости в Azure см. в статье Разработка надежных приложений Azure.
Эффективность производительности
Эффективность производительности — это возможность масштабирования рабочей нагрузки в соответствии с требованиями, заданными пользователями. Дополнительные сведения см. в контрольном списке проверки конструктора дляпроизводительности.
В Databricks, Data Lake Storage и других базах данных Azure предусмотрены возможности автоматического масштабирования. Дополнительные сведения см. в разделе Автомасштабирование.
Соавторы
Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.
Автор субъекта:
- Нитиш Арульдосс | Инженер-архитектор
- Эшиш Хандельвал | Главный конструктор архитектуры
Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.
Следующие шаги
- Платформа интеграции данных Qlik
- Внедряйте новые инициативы служб аналитики Azure (страница данных в формате PDF)
- Что такое Azure ExpressRoute?
- Что такое VPN-шлюз?
- Что такое Microsoft Entra ID?
- Центры событий Azure — платформа потоковой передачи больших данных и служба приема событий
- Общие сведения об Azure Data Lake Storage 2-го поколения
- Общие сведения о основных службах служба хранилища Azure
- Что такое База данных SQL Azure
- Вас приветствует Azure Cosmos DB
- Общие сведения о службе Azure Monitor
- Что такое Azure Application Insights?
- Обзор журналов Azure Monitor
- Запросы журналов в Azure Monitor
- Свяжитесь с нами (выберите, чтобы создать сообщение электронной почты)