Изменить

Поделиться через


Аварийное восстановление для платформы данных Azure — архитектура

Azure Synapse Analytics
Машинное обучение Azure
Azure Cosmos DB
Azure Data Lake
Центры событий Azure

Определение варианта использования

Для поддержки этого рабочего примера вымышленная фирма Contoso будет использоваться с платформой данных Azure на основе эталонных архитектур Майкрософт.

Служба данных — представление компонентов

Компания Contoso реализовала следующую базовую архитектуру Azure, которая представляет собой подмножество проекта Корпоративной целевой зоны . Схема, демонстрирующая пример целевой зоны Enterprise Azure.

Числа в следующих описаниях соответствуют приведенной выше схеме.

Основы Azure Contoso — рабочий процесс

  1. Регистрация предприятия — регистрация в компании Contoso в azure, отражающая коммерческое соглашение с Корпорацией Майкрософт, структуру учетной записи организации и доступные подписки Azure. Он предоставляет основу выставления счетов для подписок и способ администрирования цифровых активов.
  2. Управление удостоверениями и доступом— компоненты, необходимые для предоставления удостоверений, проверки подлинности, доступа к ресурсам и авторизации служб в azure contoso.
  3. Группа управления и организация подписок — масштабируемая иерархия групп, выравниваемая с основными возможностями платформы данных, что позволяет выполнять эксплуатацию в масштабе с помощью централизованно управляемой безопасности и управления, где рабочие нагрузки имеют четкое разделение. Группы управления обеспечивают управление подписками.
  4. Подписка на управление — выделенная подписка для различных функций уровня управления, необходимых для поддержки платформы данных.
  5. Подписка на подключение — выделенная подписка для функций подключения платформы данных, позволяющая идентифицировать именованные службы, определять безопасную маршрутизацию и обмен данными между внутренними и внешними службами.
  6. Подписка целевой зоны — подписка "Один ко многим" для собственных, онлайн-приложений Azure, внутренних и внешних рабочих нагрузок и ресурсов
  7. Платформа DevOps — платформа DevOps, которая поддерживает весь объект Azure. Эта платформа содержит репозиторий базового системы управления версиями кода и конвейеры CI/CD, обеспечивающие автоматическое развертывание инфраструктуры в виде кода (IaC).

Примечание.

Многие клиенты по-прежнему сохраняют большую инфраструктуру как службу (IaaS). Чтобы обеспечить возможности восстановления в IaaS, добавляется ключевой компонент Azure Site Recovery. Site Recovery будет управлять репликацией виртуальных машин Azure между регионами, локальными виртуальными машинами и физическими серверами в Azure и локальными компьютерами в дополнительный центр обработки данных.

В рамках этой базовой структуры Компания Contoso реализовала следующие элементы для поддержки потребностей корпоративной бизнес-аналитики в соответствии с рекомендациями в аналитике с помощью Azure Synapse.

Схема, демонстрирующая архитектуру современной платформы данных с помощью служб данных Azure.Платформа данных Contoso

Платформа данных Contoso — рабочий процесс

Рабочий процесс считывается слева направо, после потока данных:

  • Источники данных — источники или типы данных, которые может использовать платформа данных.
  • Прием — возможность платформы для приема данных из различных источников различной структуры и скорости. Этот дизайн отражает архитектуру Лямбда.
  • Store — возможность безопасного хранения данных в масштабе, который был приемлен на платформу.
  • Процесс — возможность платформы обрабатывать данные, что делает его "подходящим для назначения" для подчиненных процессов, таких как очистка, стандартизация и моделирование. Предварительная обработка данных обычно гарантирует, что она находится в состоянии "положение и условие, готовое к использованию".
  • Обогащение . Возможность улучшить данные, обработанные на платформе с помощью статистических, машинного обучения или других методов моделирования или предварительно созданных служб ИИ Azure.
  • Служит — возможность платформы формировать и представлять данные для нижнего потребления.
  • Потребители данных — отдельные лица, приложения или подчиненные процессы, которые используют данные из различных платформ, обслуживающих точки касания.
  • Обнаружение и управление — возможности платформы для управления данными, которые он содержит, и убедитесь, что он индексирован, доступен для обнаружения и поиска, хорошо описан, с полным происхождением и является прозрачным для конечных пользователей и потребляющих процессов.
  • Платформа — основа , на которой построена платформа, то есть основы Azure Contoso, как описано выше.

Примечание.

Для многих клиентов используется концептуальный уровень эталонной архитектуры платформы данных, но физическая реализация может отличаться. Например, процессы ELT (извлечение, загрузка, преобразование) могут выполняться с помощью Фабрика данных Azure и моделирования данных сервером SQL Azure. Для решения этой проблемы в разделе "Состояние" и "Без отслеживания состояния" приведены рекомендации.

Для платформы данных Компания Contoso выбрала самые низкие рекомендуемые уровни рабочих служб для всех компонентов и выбрала стратегию повторного развертывания аварийного восстановления (DR), основанную на подходе к минимизации затрат.

В следующих разделах приведены базовые сведения о процессе аварийного восстановления и рычагах, доступных клиентам для поднятия этого положения.

Представление службы и компонентов Azure

В следующих таблицах представлена разбивка каждой службы Azure и компонента, используемого на платформе данных Contoso — Data Platform, с параметрами аварийного восстановления.

Примечание.

Приведенные ниже разделы организованы службами с отслеживанием состояния и службами без отслеживания состояния.

Базовые компоненты с отслеживанием состояния

  • Идентификатор Записи Майкрософт, включая права роли

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Майкрософт
    • Выбор SKU Contoso: Premium P1
    • Варианты повышения аварийного восстановления: устойчивость Microsoft Entra является частью своего программного обеспечения как услуги (SaaS).
    • Примечания
  • Azure Key Vault

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Майкрософт
    • Выбор номера SKU Contoso: N/A
    • Параметры аварийного восстановления: N/A, покрытые как часть службы Azure.
  • Хранилище служб восстановления

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Майкрософт
    • Выбор номера SKU Contoso: по умолчанию (геоизбыточное хранилище (GRS))
    • Параметры аварийного восстановления: включение восстановления между регионами создает восстановление данных в дополнительном парном регионе.
    • Примечания
      • Хотя локально избыточное хранилище (LRS) и хранилище с избыточностью между зонами (ZRS) доступны, это требует действий конфигурации из параметра по умолчанию.
  • Azure DevOps

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Майкрософт
    • Выбор номера SKU Contoso: DevOps Services
    • Варианты повышения аварийного восстановления: служба DevOps и устойчивость данных являются частью своего предложения SaaS.
    • Примечания
      • DevOps Server в качестве локального предложения останется ответственностью клиента за аварийное восстановление.
      • Если используются сторонние службы (SonarCloud, Jfrog Artifactory, серверы сборки Jenkins), они останутся ответственностью клиента за восстановление после аварии.
      • Если виртуальные машины IaaS используются в цепочке инструментов DevOps, они останутся ответственностью клиента за восстановление после аварии.

Компоненты без отслеживания состояния

  • Подписки

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Майкрософт
    • Выбор номера SKU Contoso: N/A
    • Параметры аварийного восстановления: N/A, покрытые как часть службы Azure.
  • Группы управления

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Майкрософт
    • Выбор номера SKU Contoso: N/A
    • Параметры аварийного восстановления: N/A, покрытые как часть службы Azure.
  • Azure Monitor

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Майкрософт
    • Выбор номера SKU Contoso: N/A
    • Параметры аварийного восстановления: N/A, покрытые как часть службы Azure.
  • Управление затратами

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Майкрософт
    • Выбор номера SKU Contoso: N/A
    • Параметры аварийного восстановления: N/A, покрытые как часть службы Azure.
  • Microsoft Defender для облака

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Майкрософт
    • Выбор номера SKU Contoso: N/A
    • Параметры аварийного восстановления: N/A, покрытые как часть службы Azure.
  • Azure DNS

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Майкрософт
    • Выбор номера SKU Contoso: отдельная зона — общедоступная
    • Параметры аварийного восстановления: N/A, DNS высокодоступен по проектированию.
  • Наблюдатель за сетями

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Майкрософт
    • Выбор номера SKU Contoso: N/A
    • Параметры аварийного восстановления: N/A, покрытые как часть службы Azure.
  • виртуальная сеть, включая подсети, определяемый пользователем маршрут (UDR) и группы безопасности сети (NSG)

  • Брандмауэр Azure

    • Ответственность по восстановлению компонентов: Contoso
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Contoso
    • Выбор номера SKU Contoso: Стандартный
    • Варианты повышения доступности аварийного восстановления: Брандмауэр Azure высокодоступен по проектированию и можно создать с помощью Зоны доступности для повышения доступности.
  • Azure DDoS

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Contoso
    • Выбор номера SKU Contoso: защита сети от атак DDoS
    • Параметры аварийного восстановления: N/A, покрытые как часть службы Azure.
  • Канал ExpressRoute

    • Ответственность по восстановлению компонентов: Contoso, партнер по подключению и Корпорация Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: партнер по подключению и Майкрософт
    • Выбор номера SKU Contoso: Стандартный
    • Параметры аварийного подъема:
      • ExpressRoute можно поднять, чтобы использовать частный пиринг, предоставляя геоизбыточное обслуживание.
      • ExpressRoute также имеет доступные проекты высокого уровня доступности.
      • VPN-подключение типа "сеть — сеть" можно использовать в качестве резервного копирования для ExpressRoute.
    • Примечания
      • ExpressRoute имеет встроенную избыточность, с каждым каналом, состоящим из двух подключений к двум пограничным маршрутизаторам Microsoft Enterprise (MSE) в расположении ExpressRoute из сетевого края поставщика подключения или клиента.
      • Канал ExpressRoute premium обеспечивает доступ ко всем регионам Azure глобально.
  • VPN-шлюз

    • Ответственность по восстановлению компонентов: Contoso
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Contoso
    • Выбор номера SKU Contoso: отдельная зона — VpnGw1
    • Параметры аварийного восстановления: VPN-шлюз можно развернуть в зоне доступности с помощью номеров SKU VPNGw#AZ для предоставления избыточной зоны службы.
  • Azure Load Balancer

    • Ответственность по восстановлению компонентов: Contoso
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Contoso
    • Выбор номера SKU Contoso: Стандартный
    • Параметры аварийного подъема:
      • Подсистема балансировки нагрузки может быть настроена для избыточности зоны в регионе с зонами доступности. В этом случае путь к данным сохранится до тех пор, пока одна зона в регионе остается работоспособной.
      • В зависимости от основного региона подсистема балансировки нагрузки между регионами может быть развернута для высокодоступного межрегионного развертывания.
    • Примечания
      • Диспетчер трафика Azure — это балансировщик нагрузки трафика на основе DNS. Эта служба поддерживает распределение трафика для общедоступных приложений в глобальных регионах Azure. Это решение обеспечит защиту от регионального сбоя в рамках проектирования высокой доступности.

Службы для платформы данных с отслеживанием состояния

  • Учетная запись хранения: Azure Data Lake 2-го поколения

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Contoso
    • Выбор номера SKU Contoso: LRS
    • Варианты аварийного восстановления: учетные записи хранения имеют широкий спектр вариантов избыточности данных от избыточности основного региона до избыточности дополнительного региона.
    • Примечания
      • GRS рекомендуется поднять избыточность, предоставляя копию данных в парном регионе.
  • Центры событий Azure

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Contoso
    • Выбор номера SKU Contoso: Стандартный
    • Параметры аварийного восстановления: пространство имен концентратора событий можно создать с включенными зонами доступности. Эта устойчивость может быть расширена, чтобы покрыть полный сбой региона с помощью геокадрового восстановления.
    • Примечания
      • При проектировании геоизбыточное восстановление Центров событий не реплицирует данные, поэтому существует несколько рекомендаций, которые следует учитывать при отработке отказа и резервном восстановлении.
  • Центры Интернета вещей Azure

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Contoso
    • Выбор номера SKU Contoso: Стандартный
    • Параметры аварийного подъема:
      • Центр Интернета вещей устойчивость может быть поднята межрегиональная реализация высокого уровня доступности.
      • Корпорация Майкрософт предоставляет следующие рекомендации по параметрам высокого уровня доступности и аварийного восстановления.
    • Примечания
      • Центр Интернета вещей обеспечивает отработку отказа, инициируемую Майкрософт, и ручную отработку отказа путем репликации данных в парный регион для каждого центра Интернета вещей.
      • Центр Интернета вещей предоставляет Высокий уровень доступности внутри региона и автоматически будет использовать зону доступности, если она создана в предопределенном наборе регионов Azure.
  • Azure Stream Analytics

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Contoso
    • Выбор номера SKU Contoso: Стандартный
    • Параметры аварийного восстановления: хотя Azure Stream Analytics — это полностью управляемая платформа как услуга (PaaS), она не обеспечивает автоматическую геоотработку отказа. Геоизбыточное обеспечение можно достичь путем развертывания идентичных заданий Stream Analytics в нескольких регионах Azure.
  • Машинное обучение Azure

    • Ответственность по восстановлению компонентов: Contoso и Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Contoso
    • Выбор номера SKU Contoso: экземпляры общего назначения, экземпляры серии D
    • Параметры аварийного подъема:
      • Машинное обучение Azure зависит от нескольких служб Azure, некоторые из которых подготовлены в подписке клиента. Таким образом, клиент по-прежнему несет ответственность за высокую доступность этих служб.
      • Устойчивость можно повысить с помощью мультирегионного развертывания.
    • Примечания:
  • Power BI

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Майкрософт
    • Выбор номера SKU Contoso: Power BI Pro
    • Варианты повышения аварийного восстановления: устойчивость Power BI является частью своего предложения SaaS.
    • Примечания
  • Azure Cosmos DB

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Майкрософт
    • Выбор SKU Contoso: однорегионная запись с периодической резервной копией
    • Параметры аварийного подъема:
      • Учетные записи с одним регионом могут потерять доступность после регионального сбоя. Устойчивость может быть поднята в один регион записи и по крайней мере второй (чтение) регион и включить отработку отказа, управляемой службой.
      • Рекомендуется использовать учетные записи Azure Cosmos DB для рабочих нагрузок, чтобы включить автоматическую отработку отказа. В отсутствие этой конфигурации учетная запись будет терять доступность для записи на все время сбоя региона записи, так как переход на другой ресурс вручную не удастся из-за отсутствия подключения к региону.
    • Примечания
  • Azure Data Share

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Майкрософт
    • Выбор номера SKU Contoso: N/A
    • Параметры повышения аварийного восстановления: устойчивость Azure Data Share может быть поднята путем развертывания высокой доступности в дополнительном регионе.
  • Microsoft Purview

Службы, зависящие от платформы данных без отслеживания состояния

  • Azure Synapse: конвейеры

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Contoso
    • Выбор номера SKU Contoso: Вычисляемый оптимизированный 2-го поколения
    • Варианты повышения аварийного восстановления: устойчивость Synapse является частью своего предложения SaaS с помощью функции автоматической отработки отказа.
    • Примечания
      • Если используются локальные конвейеры данных, они останутся ответственностью клиента за восстановление после аварии.
  • Azure Synapse: пулы обозревателя данных

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Contoso
    • Выбор номера SKU Contoso: вычисляемый оптимизированный, малый (4 ядра)
    • Варианты повышения аварийного восстановления: N/A, устойчивость Synapse является частью своего предложения SaaS.
    • Примечания
  • Azure Synapse: пулы Spark

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Contoso
    • Выбор номера SKU Contoso: вычисляемый оптимизированный, малый (4 ядра)
    • Варианты повышения аварийного восстановления: N/A, устойчивость Synapse является частью своего предложения SaaS.
    • Примечания
  • Azure Synapse: бессерверные и выделенные пулы SQL

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Contoso
    • Выбор номера SKU Contoso: Вычисляемый оптимизированный 2-го поколения
    • Варианты повышения аварийного восстановления: N/A, устойчивость Synapse является частью своего предложения SaaS.
    • Примечания
      • Azure Synapse Analytics автоматически принимает моментальные снимки в течение дня для создания точек восстановления, доступных в течение семи дней.
      • Azure Synapse Analytics выполняет стандартное географическое резервное копирование один раз в день в парном центре обработки данных. Целевая точка восстановления (RPO) для геовосстановления составляет 24 часа.
      • Если используются локальные конвейеры данных, они останутся клиентами, ответственными за восстановление после аварии.
  • Службы ИИ Azure (прежнее название — Cognitive Services)

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Майкрософт
    • Выбор номера SKU Contoso: оплата по мере использования
    • Параметры аварийного восстановления: N/A api для служб искусственного интеллекта размещаются центрами обработки данных, управляемыми корпорацией Майкрософт.
    • Примечания
      • Если службы ИИ развернуты через развернутые клиентом контейнеры Docker, восстановление остается ответственным за клиент.
  • Поиск ИИ Azure (прежнее название — Когнитивный поиск)

    • Ответственность по восстановлению компонентов: Майкрософт
    • Ответственность по восстановлению рабочей нагрузки и конфигурации: Майкрософт
    • Выбор номера SKU Contoso: Standard S1
    • Параметры аварийного подъема:
    • Примечания
      • Благодаря нескольким служба ИИ достигается непрерывность бизнес-процессов поиска ИИ (и аварийное восстановление).
      • Встроенный механизм аварийного восстановления отсутствует. Если непрерывная служба требуется во время катастрофического сбоя, рекомендация заключается в наличии второй службы в другом регионе и реализации стратегии георепликации для обеспечения полного избыточности индексов во всех службах.

Компоненты без отслеживания состояния и без отслеживания состояния

Скорость инноваций в наборе продуктов Майкрософт и Azure, в частности, означает набор компонентов, который мы использовали для этого рабочего примера, будет быстро развиваться. Для дальнейшего подтверждения использования устаревших рекомендаций и расширения этого руководства к компонентам, которые явно не рассматриваются в этом документе, в разделе ниже приведены некоторые инструкции на основе грубой классификации состояния.

Компонент или служба можно описать как состояние, если оно предназначено для запоминания предыдущих событий или взаимодействия с пользователем. Без отслеживания состояния означает отсутствие записи о предыдущих взаимодействиях, и каждый запрос на взаимодействие должен обрабатываться полностью на основе информации, которая поставляется с ним.

Для сценария аварийного восстановления, который вызывает повторное развертывание:

  • Компоненты и службы, которые являются "без отслеживания состояния", такие как Функции Azure и Фабрика данных Azure конвейеры, можно повторно развернуть из системы управления версиями по крайней мере с проверкой доступности, чтобы проверить доступность перед вводом в более широкую систему.
  • Компоненты и службы, которые являются "отслеживанием состояния", например База данных SQL Azure и учетных записей хранения, требуют больше внимания.
    • При приобретении компонента ключевое решение будет выбирать функцию избыточности данных. Обычно это решение фокусируется на компромиссе между доступностью и устойчивостью с операционными затратами.
  • Хранилища данных также потребуют стратегии резервного копирования данных. Функции избыточности данных базового хранилища устраняют этот риск для некоторых проектов, а другие, такие как базы данных SQL, потребуют отдельного процесса резервного копирования.
    • При необходимости компонент можно повторно развернуть из системы управления версиями с проверенной конфигурацией с помощью теста дыма.
    • Повторно развернутое хранилище данных должно восстановить его набор данных. Восстановление может выполняться с помощью избыточности данных (при наличии) или резервного набора данных. После завершения восстановления необходимо проверить точность и полноту.
      • В зависимости от характера процесса резервного копирования наборы данных резервного копирования могут потребовать проверки перед применением. Повреждение процесса резервного копирования или ошибки могут привести к использованию более ранней резервной копии вместо последней доступной версии.
    • Любая разность между меткой даты и времени компонента и текущей датой должна быть устранена путем повторного вывода или повторной публикации процессов приема данных с этого момента.
    • После обновления набора данных компонента его можно внедрить в более широкую систему.

Другие ключевые службы

В этом разделе содержатся рекомендации по обеспечению высокого уровня доступности и аварийного восстановления для других ключевых компонентов и служб данных Azure.

  • Руководство по аварийному использованию Azure Databricks— см. в документации по продукту.
  • В документации по продуктам можно найти рекомендации по Azure Analysis Services .
  • База данных Azure для MySQL
    • Руководство по гибкому обеспечению доступности сервера можно найти в документации по продукту.
    • Руководство по доступности одного сервера можно найти в документации по продукту.
  • SQL
    • Руководство по SQL на виртуальных машинах Azure см. в документации по продукту.
    • Руководство по SQL Azure и Управляемый экземпляр SQL Azure см. в документации по продукту.

Следующие шаги

Теперь, когда вы узнали об архитектуре сценария, вы можете узнать об этом сценарии.