Azure Synapse Analytics для целевых зон

Azure Synapse Analytics
Приватный канал Azure
Azure Data Lake Storage
Azure Key Vault

В этой статье представлен архитектурный подход к подготовке подписок целевой зоны Azure для масштабируемого развертывания Azure Synapse Analytics. Azure Synapse, корпоративная служба аналитики, объединяет хранение данных, обработку больших данных, интеграцию данных и управление ими.

В статье предполагается, что вы уже реализовали основу платформы, необходимую для эффективного создания и эксплуатации целевой зоны.

Apache®, Spark и логотип пламени являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в США и/или других странах. Использование этих меток не подразумевает подтверждения от Apache Software Foundation.

Архитектура

Схема, демонстрирующая эталонную архитектуру Azure Synapse Analytics.

Скачайте файл Visio для этой архитектуры.

Поток данных

  • Основным компонентом этой архитектуры является Azure Synapse, единая служба, которая предоставляет ряд функций, от приема данных и обработки данных до обслуживания и аналитики. Azure Synapse в управляемом виртуальная сеть обеспечивает сетевую изоляцию для рабочей области. Включив защиту от кражи данных, можно ограничить исходящее подключение только утвержденными целевыми объектами.
  • Ресурсы Azure Synapse, среда выполнения интеграции Azure и пулы Spark, расположенные в управляемом виртуальная сеть, могут подключаться к Azure Data Lake Storage, Azure Key Vault и другим хранилищам данных Azure с повышенной безопасностью с помощью управляемых частных конечных точек. Пулы SQL Azure Synapse, размещенные за пределами управляемого виртуальная сеть, могут подключаться к службам Azure через частную конечную точку в корпоративной виртуальной сети.
  • Администраторы могут применять частное подключение к рабочей области Azure Synapse, Data Lake Storage, Key Vault, Log Analytics и другим хранилищам данных с помощью политик Azure, применяемых между целевыми зонами данных на уровне группы управления. Они также могут включить защиту от кражи данных для обеспечения повышенной безопасности для исходящего трафика.
  • Пользователи получают доступ к Synapse Studio с помощью веб-браузера из ограниченной локальной сети через Azure Synapse Приватный канал Hubs. Приватный канал Центры используются для загрузки Synapse Studio через частные каналы с повышенной безопасностью. Один ресурс Azure Synapse Приватный канал Hubs развертывается в подписке подключения с частной конечной точкой в виртуальной сети концентратора. Виртуальная сеть концентратора подключена к локальной сети через Azure ExpressRoute. Ресурс Приватный канал Hubs можно использовать для частного подключения ко всем рабочим областям Azure Synapse через Synapse Studio.
  • Инженеры данных используют конвейеры Azure Synapse действие Copy, выполняемые в локальной среде выполнения интеграции, для приема данных между хранилищем данных, размещенным в локальной среде и облачных хранилищах данных, таких как Data Lake Storage и пулы SQL. Локальная среда подключена через ExpressRoute к центральной виртуальной сети в Azure.
  • Инженеры данных используют действия Azure Synapse Поток данных и пулы Spark для преобразования данных, размещенных в облачных хранилищах данных, подключенных к управляемой виртуальная сеть Azure Synapse с помощью управляемых частных конечных точек. Для данных, расположенных в локальной среде, преобразование с пулами Spark требует подключения через пользовательскую службу Приватный канал. Пользовательская служба Приватный канал использует виртуальные машины преобразования сетевых адресов (NAT) для подключения к локальному хранилищу данных. Сведения о настройке службы Приватный канал для доступа к локальным хранилищам данных из управляемого виртуальная сеть см. в статье "Как получить доступ к локальному SQL Server из управляемой виртуальной сети фабрики данных с помощью частной конечной точки".
  • Если защита от кражи данных включена в Azure Synapse, ведение журнала приложений Spark в рабочую область Log Analytics направляется через ресурс Области Приватный канал Azure Monitor, подключенный к управляемой виртуальная сеть Azure Synapse через управляемую частную конечную точку. Как показано на схеме, один ресурс Azure Monitor Приватный канал Scope размещается в подписке подключения с частной конечной точкой в виртуальной сети концентратора. Все рабочие области Log Analytics и ресурсы Application Insights можно получить в частном порядке с помощью Azure Monitor Приватный канал Области.

Компоненты

  • Azure Synapse Analytics — это корпоративная служба аналитики, которая ускоряет анализ между хранилищами данных и системами больших данных.
  • Управляемый виртуальная сеть Azure Synapse обеспечивает сетевую изоляцию для рабочих областей Azure Synapse из других рабочих областей.
  • Управляемые частные конечные точки Azure Synapse — это частные конечные точки, созданные в управляемом виртуальная сеть, связанном с рабочей областью Azure Synapse. Управляемые частные конечные точки устанавливают подключение к ресурсам Azure за пределами управляемого виртуальная сеть.
  • Рабочая область Azure Synapse с защитой от кражи данных предотвращает кражу конфиденциальных данных в расположения, которые находятся за пределами области организации.
  • Приватный канал Azure Центры — это ресурсы Azure, которые выполняют роль соединителей между защищенной сетью и веб-интерфейсом Synapse Studio.
  • Среда выполнения интеграции — это вычислительная инфраструктура, используемая конвейерами Azure Synapse для предоставления возможностей интеграции данных в разных сетевых средах. Запустите действие Поток данных в управляемой среде выполнения интеграции вычислений Azure или действие Copy в сетях с помощью локальной среды выполнения интеграции вычислений.
  • Приватный канал Azure предоставляет частный доступ к службам, размещенным в Azure. Приватный канал Azure служба — это ссылка на собственную службу, которая работает на Приватный канал. Вы можете включить службу, которая работает за стандартной подсистемой балансировки нагрузки Azure для Приватный канал доступа. Затем можно расширить службу Приватный канал в управляемый виртуальная сеть Azure Synapse с помощью управляемой частной конечной точки.
  • Apache Spark в Azure Synapse является одной из нескольких реализаций Apache Spark в облаке. Azure Synapse упрощает создание и настройку возможностей Spark в Azure.
  • Data Lake Storage использует служба хранилища Azure в качестве основы для создания корпоративных озер данных в Azure.
  • Key Vault позволяет хранить секреты, ключи и сертификаты с повышенной безопасностью.
  • Целевые зоны Azure — это выходные данные среды Azure с несколькими подписками, которые учитывают масштабирование, управление безопасностью, сетью и удостоверениями. Целевая зона обеспечивает миграцию, модернизацию и инновации в масштабе предприятия в Azure.

Подробности сценария

В этой статье представлен подход к подготовке подписок целевой зоны Azure для масштабируемого развертывания Azure Synapse. Решение соответствует рекомендациям Cloud Adoption Framework для Azure и фокусируется на рекомендациях по проектированию для целевых зон корпоративного масштаба.

Многие крупные организации с децентрализованными, автономными бизнес-подразделениями хотят внедрять аналитические решения и решения для обработки и анализа данных в масштабе. Очень важно, чтобы они построили правильный фундамент. Azure Synapse и Data Lake Storage являются центральными компонентами для реализации облачной аналитики и архитектуры сетки данных.

В этой статье приведены рекомендации по развертыванию Azure Synapse в группах управления, топологии подписок, сети, удостоверении и безопасности.

С помощью этого решения можно достичь следующего:

  • Хорошо управляемая платформа расширенной аналитики безопасности, которая масштабируется в соответствии с вашими потребностями в нескольких целевых зонах данных.
  • Сокращение операционных затрат для команд приложений данных. Они могут сосредоточиться на проектировании данных и аналитике и оставить управление платформой Azure Synapse в команде по операциям с целевой зоной данных.
  • Централизованное применение соответствия организации в целевых зонах данных.

Потенциальные варианты использования

Эта архитектура полезна для организаций, которым требуется:

  • Полностью интегрированный и операционный контроль и плоскость данных для рабочих нагрузок Azure Synapse прямо с самого начала.
  • Расширенная реализация Azure Synapse с акцентом на безопасность данных и конфиденциальности.

Эта архитектура может служить отправной точкой для крупномасштабных развертываний рабочих нагрузок Azure Synapse в подписках целевой зоны данных.

топология использования подписки;

Организации, создающие крупные платформы данных и аналитики, ищут способы последовательного и эффективного масштабирования своих усилий.

  • Используя подписки в качестве единицы масштабирования для целевых зон данных, организации могут преодолеть ограничения уровня подписки, обеспечить надлежащее управление изоляцией и доступом, а также обеспечить гибкий будущий рост пространства платформы данных. В целевой зоне данных можно группировать Azure Synapse и другие ресурсы данных для конкретных вариантов использования аналитики в группе ресурсов.
  • Настройка группы управления и подписки являются ответственностью владельца платформы целевой зоны, который предоставляет необходимый доступ к администраторам платформы данных для подготовки Azure Synapse и других служб.
  • Все политики соответствия данным всей организации применяются на уровне группы управления для обеспечения соответствия требованиям в целевых зонах данных.

Топология сетей

Рекомендации по целевым зонам, используюющим топологию сети виртуальной глобальной сети (концентратор и периферийный), см. в Виртуальная глобальная сеть топологии сети. Эти рекомендации соответствуют рекомендациям Cloud Adoption Framework .

Ниже приведены некоторые рекомендации по топологии сети Azure Synapse:

  • Реализуйте сетевую изоляцию для ресурсов Azure Synapse с помощью управляемых виртуальная сеть. Реализуйте защиту от кражи данных путем ограничения исходящего доступа только к утвержденным целевым объектам.

  • Настройка частного подключения для:

    • Службы Azure, такие как Data Lake Storage, Key Vault и Azure SQL, через управляемые частные конечные точки.
    • Локальные хранилища данных и приложения через ExpressRoute через локальную среду выполнения интеграции. Используйте пользовательскую службу Приватный канал для подключения ресурсов Spark к локальным хранилищам данных, если вы не можете использовать локальную среду выполнения интеграции.
    • Synapse Studio с помощью концентраторов приватных ссылок, развернутых в подписке на подключение.
    • Рабочая область Log Analytics с помощью Azure Monitor Приватный канал Scope, развернутая в подписке на подключение.

Управление удостоверениями и доступом

Предприятия обычно используют наименее привилегированный подход для операционного доступа. Они используют идентификатор Microsoft Entra, управление доступом на основе ролей Azure (RBAC) и пользовательские определения ролей для управления доступом.

  • Реализуйте детализированные элементы управления доступом в Azure Synapse с помощью ролей Azure, ролей Azure Synapse, ролей SQL и разрешений Git. Дополнительные сведения об управлении доступом к рабочей области Azure Synapse см . в этом обзоре.
  • Роли Azure Synapse предоставляют наборы разрешений, которые можно применять в разных областях. Такая детализация упрощает предоставление администраторам, разработчикам, персоналу обеспечения безопасности и операторам нужного уровня доступа к вычислительным ресурсам и данным.
  • Вы можете упростить управление доступом с помощью групп безопасности, которые соответствуют ролям заданий. Для управления доступом необходимо добавить и удалить пользователей из соответствующих групп безопасности.
  • Вы можете обеспечить безопасность взаимодействия между Azure Synapse и другими службами Azure, такими как Data Lake Storage и Key Vault, с помощью управляемых удостоверений, назначаемых пользователем. Это устраняет необходимость управления учетными данными. Управляемые удостоверения предоставляют удостоверение, которое приложения могут использовать при подключении к ресурсам, поддерживающим проверку подлинности Microsoft Entra.

Автоматизация приложений и DevOps

  • Непрерывная интеграция и доставка для рабочей области Azure Synapse осуществляется с помощью интеграции Git и продвижения всех сущностей из одной среды (разработки, тестирования, рабочей среды) в другую среду.
  • Реализуйте автоматизацию с помощью шаблонов Bicep или Azure Resource Manager для создания или обновления ресурсов рабочей области (пулов и рабочей области). Перенос артефактов, таких как скрипты SQL и записные книжки, определения заданий Spark, конвейеры, наборы данных и другие артефакты с помощью средств развертывания рабочей области Synapse в Azure DevOps или на GitHub, как описано в статье "Непрерывная интеграция и доставка" для рабочей области Azure Synapse Analytics.

Рекомендации

Эти рекомендации реализуют основные принципы платформы Azure Well-Architected Framework, набор руководящих принципов, которые можно использовать для улучшения качества рабочей нагрузки. Дополнительные сведения см. в статье Microsoft Azure Well-Architected Framework.

Надежность

Надежность гарантирует, что ваше приложение может выполнять обязательства, которые вы выполняете для клиентов. Дополнительные сведения см. в разделе "Обзор основы надежности".

  • Azure Synapse, Data Lake Storage и Key Vault — это управляемые платформы как услуга (PaaS), которые имеют встроенную высокую доступность и устойчивость. Вы можете использовать избыточные узлы для создания локальной среды выполнения интеграции и виртуальных машин NAT в архитектуре с высоким уровнем доступности.
  • Сведения о соглашении об уровне обслуживания см. в статье об уровне обслуживания для Azure Synapse Analytics.
  • Рекомендации по непрерывности бизнес-процессов и аварийному восстановлению для Azure Synapse см. в разделе "Точки восстановления базы данных" для Azure Synapse Analytics.

Безопасность

Безопасность обеспечивает гарантии от преднамеренного нападения и злоупотребления ценными данными и системами. Дополнительные сведения см. в разделе "Общие сведения о компоненте безопасности".

Оптимизация затрат

Оптимизация затрат заключается в сокращении ненужных расходов и повышении эффективности работы. Дополнительные сведения см. в разделе Обзор критерия "Оптимизация затрат".

  • Ресурсы аналитики измеряются в единицах хранилища данных (DWUS), которые отслеживают ЦП, память и операции ввода-вывода. Рекомендуется начинать с небольших dwus и измерять производительность для операций с ресурсоемким объемом ресурсов, таких как высокая загрузка или преобразование данных. Это поможет определить количество единиц, необходимых для оптимизации рабочей нагрузки.
  • Сэкономить деньги с оплатой по мере использования с помощью предварительно приобретенных единиц фиксации Azure Synapse (SKU).
  • Сведения о ценах и оценке стоимости реализации Azure Synapse см. в статье о ценах Azure Synapse Analytics.
  • Эта оценка цен содержит затраты на развертывание служб с помощью шагов автоматизации, описанных в следующем разделе.

Развертывание этого сценария

Необходимые условия: у вас должна быть учетная запись Azure. Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу.

Весь код для этого сценария доступен в репозитории Synapse Enterprise Codebase на GitHub.

Автоматическое развертывание использует шаблоны Bicep для развертывания следующих компонентов:

  • группа ресурсов;
  • Виртуальная сеть и подсети
  • Уровни хранилища (Бронза, Silver и Gold) с частными конечными точками
  • Рабочая область Azure Synapse с управляемым виртуальная сеть
  • Приватный канал службы и конечные точки
  • Подсистема балансировки нагрузки и виртуальные машины NAT
  • Ресурс локальной среды выполнения интеграции

Скрипт PowerShell для оркестрации развертывания доступен в репозитории. Скрипт PowerShell можно запустить или использовать файл pipeline.yml для его развертывания в качестве конвейера в Azure DevOps.

Дополнительные сведения о шаблонах Bicep, шагах развертывания и предположениях см. в файле readme .

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.

Основные авторы:

Другой участник:

Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.

Следующие шаги

  • Сведения о создании сквозной платформы данных и аналитики см. в руководстве по аналитике в облаке.
  • Изучите сетку данных в качестве архитектурного шаблона для реализации корпоративных платформ данных в крупных сложных организациях.
  • Ознакомьтесь с технической документацией по безопасности Azure Synapse.

Дополнительные сведения о службах, описанных в этой статье, см. в следующих ресурсах: