Несколько зон данных для облачной аналитики в Azure
Эта эталонная архитектура предназначена для организаций, которые реализовали базовую версию облачной аналитики и теперь готовы разместить новые бизнес-подразделения для модернизации своих аналитических операций. Этот более сложный сценарий использует несколько посадочных зон, приложений данных и данных продуктов.
Apache Hive и логотип Hive являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в США и /или других странах. Никакое одобрение Apache Software Foundation не подразумевается с помощью этих меток.
Постановка проблемы
Relecloud, вымышленная компания в этом примере, является поставщиком частного облака, который предлагает общие вычислительные ресурсы и ресурсы хранилища для глобальных организаций. Хотя Relecloud предоставляет вычислительные ресурсы, они не хотят ограничивать свою платформу собственными внутренними операциями. Поэтому они полагаются на Microsoft Azure для своих внутренних вычислительных потребностей.
Аналитики данных в группе операций используют данные телеметрии из облачных служб, чтобы понять, как их клиенты используют платформу. Отдельная команда аналитиков в группе выставления счетов изучает данные о выставлении счетов, чтобы получить аналитические сведения о том, какие службы создают большую выручку.
В прошлом квартале группа операций модернизировала свою платформу аналитики, переместив ее в Azure. Одна из целей реализации облачной аналитики заключается в том, чтобы максимально повысить потенциал масштабирования платформы и добавления новых рабочих нагрузок организации.
Сегодня группа выставления счетов переросла свое текущее решение аналитики. Объем счетов для анализа слишком велик для локального сервера. Команда решает следовать руководству группы операций и модернизировать свою платформу аналитики данных в Azure.
Аналитики в группе выставления счетов имеют разные навыки, чем аналитики в группе операций. Аналитики по выставлению счетов не хотят быть ограничены использованием тех же средств, что и оперативные команды. Группа выставления счетов находится в другой части организации и хочет гибкости для реализации политик и процедур, удовлетворяющих их потребностям.
Архитектурное решение
Relecloud масштабирует платформу аналитики, добавив новую посадочную зону для биллинговой группы. Эта рабочая площадка предоставляет виртуальную рабочую область для отдела выставления счетов для внедрения решений по анализу данных, удовлетворяющих их бизнес-потребностям. Имея посадочную зону отдельно от других ресурсов организации, команда по выставлению счетов может реализовать собственные политики доступа и учитывать расходы на свои услуги.
На следующей схеме не представлены все службы Azure. Схема упрощена, чтобы выделить основные понятия организации ресурсов в архитектуре.
Целевая зона управления данными
Ключевым требованием для реализации облачной аналитики является целевая зона управления данными. Эта подписка содержит ресурсы, общие для всех целевых зон, включая общие сетевые компоненты, такие как брандмауэр или частные зоны DNS. Она также включает ресурсы для управления данными и облаком. Каталог Microsoft Purview и Databricks Unity были развернуты как службы на уровне клиента.
Relecloud создал целевую зону управления данными при развертывании решения аналитики данных для группы операций. Когда группа выставления счетов присоединяется к платформе, они используют ту же целевую зону управления данными для совместного использования общих ресурсов с группой операций.
Зона посадки операционных данных
В операционной группе в зоне размещения данных представлены следующие решения.
Приложения для работы с данными об операциях
Команда создала приложение для данных, согласованное с источником,, которое использует задания Apache Spark в Azure Databricks для обработки телеметрических данных сервиса и их хранения в аккаунте Azure Data Lake Storage.
Этот процесс копирует данные as-is из исходной системы, но не преобразует его. Аналитики могут работать с скопированными данными на платформе аналитики без перегрузки исходной системы. Вместо создания выделенного развертывания для этого приложения данных, операционная команда использует рабочую область Databricks в общей группе ресурсов для загрузки и обработки &.
Клиенты Relecloud могут создавать облачные учетные записи для управления ресурсами и выставлением счетов в частных облаках. У каждого клиента может быть несколько учетных записей. Команда аналитики создала приложение данных для импорта данных облачной учетной записи. Так как объем и частота данных значительно ниже, чем для данных телеметрии, команде не нужно использовать задания Spark. Вместо этого они создали конвейеры Фабрики данных Azure для копирования данных.
База данных Azure для MySQL выступает в качестве хранилища метаданных Hive, а база данных SQL Azure — это хранилище метаданных фабрики данных Azure.
Продукты данных операций
Аналитики Relecloud извлекают ценность из данных в приложениях, соответствующих источнику, создавая новые приложения данных, ориентированные на потребителя. Одним из таких ориентированных на потребителя приложений для работы с данными является модель рекомендаций облачного сервиса . Специалисты по обработке и анализу данных Relecloud использовали Машинное обучение Azure для создания модели, которая смотрит на службы, используемые облачной учетной записью, и предлагает связанные службы, которые могут быть полезны. Команда развертывает эту модель в кластере Службы Azure Kubernetes (AKS), работающем в целевой зоне и управляемом Машинным обучением Azure. Приложения, выполняемые вне облачной аналитики, могут вызывать конечную точку AKS для получения рекомендаций.
После создания целевой зоны команда выставления счетов создает новый продукт данных, который запрашивает команда управления. Руководящая команда хочет узнать, сколько дохода приносит приложение-рекомендатель данных для облачной службы. Новый продукт данных рекомендуется использовать для объединения данных из аналитики выручки, используя Azure Synapse Analytics для объединения данных из рекомендаций облачных сервисов и выручки по сервисам в новый продукт данных. Бизнес-аналитики могут подключаться к Azure Synapse с помощью Microsoft Power BI, чтобы найти и сообщить аналитические сведения об этом новом продукте данных.
Целевая зона данных выставления счетов
Группа выставления счетов использовала локальную систему для выполнения аналитики, но по мере роста объема данных и увеличения зависимости компании от их работы, система не справлялась с нагрузкой. Группа модернизирует свою платформу, перейдя в облако.
Группа выставления счетов не делится зоной развертывания с группой операций, но получает собственную зону развертывания, где они могут свободно создать платформу, наилучшим образом соответствующую их потребностям. Новая зона размещения подключена к зоне управления данными и всем остальным зонам размещения данных с пирингом виртуальных сетей. Этот механизм позволяет безопасно предоставлять доступ к данным через внутреннюю сеть Azure.
Приложения для работы с данными выставления счетов
Чтобы получить данные из существующих систем на платформу аналитики, группа выставления счетов создает два приложения данных. Первое приложение выполняет прием данных клиента, включая полный список клиентов и все связанные данные, такие как адреса клиентов, расположения и назначения продавцов. Второе приложение импортирует журнал счетов компании, который включает в себя все расходы на выставление счетов клиентам и связанные данные оплаты.
Оба этих приложения работают на конвейерах в общей рабочей области Azure Synapse. Каждое приложение имеет выделенный пул вычислений для упрощения учета затрат и границ безопасности. Так как приложения могут быть полностью реализованы с общими ресурсами, группе выставления счетов не нужно создавать развертывание для этих приложений данных.
Продукт данных для выставления счетов
Аналитики по выставлению счетов создают новый продукт под названием Доход по службе, который анализирует, сколько дохода каждая облачная служба приносит для Relecloud. Этот продукт использует данные в загрузке счетов . Продукт также подключается к операционной зоне приземления и считывает данные об использовании сервиса. Как и в приложениях данных, продукт данных также зависит от общей рабочей области Azure Synapse.
Дальнейшие действия
Перейдите к сценарию Lamna Healthcare для безопасной облачной аналитики в Azure.
Дополнительные сведения см. в следующих статьях: