Зоны приземления данных

Статья
12/12/2024

Зоны приземления данных подключены к зоне управления данными посредством пиринга виртуальных сетей или частными конечными точками. Каждая зона приземления данных считается зоной приземления, связанной с архитектурой зоны приземления Azure.

Важный

Перед развертыванием зоны приземления данных убедитесь, что модель работы DevOps и CI/CD настроена, и зона приземления управления данными развернута.

Каждая целевая зона данных содержит несколько уровней, которые обеспечивают гибкость интеграции данных службы и приложений данных, содержащихся в ней. Вы можете развернуть новую целевую зону данных со стандартным набором служб, позволяющих целевой зоне данных начать прием и анализ данных.

Типичная подписка Azure, связанная с зоной приземления данных, имеет следующую структуру:

Слой	Обязательно	Группы ресурсов
уровень служб платформы	Да	сеть Безопасность
Ключевые службы	Да	хранение общие среды выполнения интеграции управления Внешнее хранилище Загрузка данных Общие приложения
применение данных	Необязательный	приложение данных (1 или более)
отчетов и визуализаций	Необязательный	Отчёты и визуализации

Заметка

Хотя уровень основных служб помечен как обязательный, для целевой зоны данных может потребоваться не все группы ресурсов и службы, включенные в эту статью.

Архитектура зоны приземления данных

Архитектура целевой зоны данных иллюстрирует слои, группы ресурсов и службы, содержащиеся в каждой группе ресурсов. Архитектура предоставляет обзор всех групп и ролей, связанных с вашей зоной приземления данных, и степень их доступа к плоскостям управления и плоскостям данных. Архитектура также показывает, как каждый слой соответствует обязанностям операционной модели.

Совет

Перед развертыванием зоны приземления данных убедитесь, что вы рассмотрите количество начальных зон приземления данных, которые вы хотите развернуть.

Службы платформы

Уровень служб платформы включает службы, необходимые для обеспечения возможности подключения и наблюдаемости к зоне приземления данных в контексте аналитики на облачном уровне. В следующей таблице перечислены рекомендуемые группы ресурсов.

Группа ресурсов	Обязательно	Описание
`network-rg`	Да	Сети
`security-rg`	Да	Безопасность и мониторинг

Сети

Группа сетевых ресурсов содержит службы подключения, включая виртуальные сети Azure, группы безопасности сети (NSG) и таблицы маршрутов. Все эти службы развертываются в одной группе ресурсов.

Виртуальная сеть целевой зоны данных автоматически пиринговая связь с виртуальной сетью целевой зоны управления данными и виртуальной сети подписки на подключение.

Безопасность и мониторинг

Группа ресурсов безопасности и мониторинга включает в себя Azure Monitor и Microsoft Defender для облака для сбора данных телеметрии служб, определения критериев мониторинга и оповещений и применения политик и сканирования к службам.

Основные службы

Уровень основных служб включает основные службы, необходимые для создания зоны приземления данных в контексте облачной аналитики. В следующей таблице перечислены группы ресурсов, которые предоставляют стандартный набор доступных служб в каждой развернутой целевой зоне данных.

Группа ресурсов	Обязательно	Описание
`storage-rg`	Да	Службы Data Lake
`runtimes-rg`	Да	Общие среды выполнения интеграции
`mgmt-rg`	Да	Агенты CI/CD
`external-data-rg`	Да	Внешнее хранилище данных
`data-ingestion-rg`	Необязательный	Общие службы приема данных
`shared-applications-rg`	Необязательный	Общие приложения (Synapse или Databricks)

Хранение

Как показано на схеме, три учетные записи Azure Data Lake Storage Gen2 подготавливаются в одной группе ресурсов служб озера данных. Данные, преобразованные на разных этапах, сохраняются в одном из озер данных вашей зоны получения данных. Данные доступны для использования командами аналитики, обработки и анализа данных и визуализации.

Слои озера данных используют различные терминологии в зависимости от технологии и поставщика. В этой таблице приведены рекомендации по применению терминов для облачной аналитики:

Аналитика в масштабе облака	Delta Lake	Другие термины	Описание
Сырой	Бронза	Посадка и соответствие	Таблицы приема
Обогащенный	Серебро	Зона стандартизации	Уточненные таблицы. Хранимые полные объекты, наборы данных, готовые к обработке, из системы учета.
Курированный	Золото	Зона продукта	Функции или агрегированные таблицы. Основная зона для приложений, команд и пользователей для использования продуктов данных.
Развитие	--	Зона разработки	Расположение инженеров и специалистов по обработке и анализу данных, включая песочницу аналитики и зону разработки продуктов.

Заметка

На предыдущей схеме каждая зона приземления данных имеет три учетные записи для хранения в озере данных. Однако в зависимости от ваших требований вы можете объединить необработанные, обогащенные и кураторские слои в одну учетную запись хранения и сохранить другую учетную запись под названием "рабочая область" для потребителей данных, чтобы они могли добавлять другие полезные продукты данных.

Дополнительные сведения см. в следующем разделе:

Общие среды выполнения интеграции

Фабрика данных Azure и Конвейеры Azure Synapse Analytics используют среды выполнения интеграции (IR) для безопасного доступа к источникам данных в одноранговых или изолированных сетях. Общие среды выполнения интеграции (IR) следует развернуть на виртуальной машине (или в масштабируемых наборах виртуальных машин Azure) в общей группе ресурсов среды выполнения интеграции.

Чтобы включить общую группу ресурсов, выполните следующие действия.

Создайте по крайней мере одну Azure Data Factory в общей группе ресурсов интеграции вашей зоны размещения данных. Используйте его только для связывания общей локальной среды выполнения интеграции, а не для конвейеров данных.
Создание и настройка локальной среды выполнения интеграции на виртуальной машине.
Ассоциируйте автономную среду выполнения интеграции с фабриками данных Azure в зонах размещения данных.
Используйте скрипты PowerShell, чтобы периодически обновлять самостоятельно размещённую среду выполнения интеграции.

Заметка

В развертывании описывается развертывание одной виртуальной машины с локальной средой выполнения интеграции. Локальную среду выполнения интеграции можно связать с несколькими виртуальными машинами в локальной среде или в Azure. Эти компьютеры называются узлами и могут иметь до четырех узлов, связанных с локальной средой выполнения интеграции. Преимущества использования нескольких узлов:

Более высокая доступность локальной среды выполнения интеграции, чтобы она больше не была единственной точкой сбоя в приложении данных или оркестрации интеграции облачных данных.
Улучшена производительность и пропускная способность во время перемещения данных между локальными и облачными службами данных. Узнайте больше о сравнениях производительности .

Вы можете связать несколько узлов, установив локальное программное обеспечение среды выполнения интеграции из центра загрузки . Затем зарегистрируйте его, используя один из ключей аутентификации, полученных из командлета New-AzDataFactoryV2IntegrationRuntimeKey, как это описано в учебнике .

Дополнительные сведения представлены в разделе "Высокая доступность и масштабируемость фабрики данных Azure".

Важный

Развертывайте общие интеграционные среды выполнения как можно ближе к источнику данных. Среды выполнения интеграции можно развернуть в целевой зоне данных, в сторонних облаках или в частном облаке, при условии, что виртуальная машина имеет подключение к необходимым источникам данных.

Управление

Агенты CI/CD выполняются на виртуальных машинах и помогают развертывать артефакты из репозитория исходного кода, включая приложения данных и изменения в зоне выгрузки данных.

Для получения дополнительной информации см. агентов Azure Pipeline.

Внешнее хранилище

Издатели данных партнеров должны размещать данные в вашей платформе, чтобы команды приложений данных могли передать их в свои озера данных. Вы также можете иметь внутренние или внешние источники данных, которые не могут поддерживать требования к подключению или проверке подлинности, применяемые в остальных целевых зонах данных. Использование отдельной учетной записи хранения — это рекомендуемый подход для получения данных, а затем общий процесс выполнения интеграции или аналогичный процесс приема данных для его переноса в конвейер обработки. Как показано на следующей схеме, ваша группа ресурсов для загрузки и приема данных позволяет вам создавать хранилища BLOB-объектов для этих вариантов использования.

Команды по работе с данными запрашивают блобы хранения. Эти запросы утверждаются командой операций зоны приёма данных. Данные следует удалить из исходного BLOB-объекта хранилища после приема в хранилище необработанных данных.

Важный

Так как большие двоичные объекты службы хранилища Azure подготавливаются на по мере необходимости, сначала следует развернуть пустую группу ресурсов служб хранилища в каждой целевой зоне данных.

Прием данных

Эта группа ресурсов является необязательной и не мешает вам развернуть посадочную зону. Это применимо, если у вас есть или вы разрабатываете универсальный механизм приема данных, который автоматически получает данные на основе зарегистрированных метаданных, включая строки подключения, пути передачи данных и расписания их приема.

Группа ресурсов приема и обработки имеет ключевые службы для такой платформы.

Разверните экземпляр Базы данных SQL Azure для хранения метаданных, используемых фабрикой данных Azure. Подготовьте Azure Key Vault для хранения секретов, связанных со службами автоматического приема данных. Эти секреты могут включать:

Учетные данные хранилища метаданных фабрики данных Azure
Учетные данные служебного принципала для процесса автоматического приема

Дополнительные сведения см. в статье Как автоматизированные платформы приема поддерживают облачную аналитику в Azure.

Службы, включенные в эту группу ресурсов, включают:

Служба	Обязательно	Руководящие принципы
Фабрика данных Azure	Да	Фабрика данных Azure — это механизм оркестрации для независимого от типа данных извлечения.
База данных SQL Azure	Да	База данных SQL Azure — это хранилище метаданных фабрики данных Azure.
Центры событий или Центр Интернета вещей	Необязательный	Центры событий или Центр Интернета вещей могут предоставлять потоковую передачу в центры событий в режиме реального времени, а также пакетную и потоковую обработку с помощью рабочей области проектирования Databricks.
Azure Databricks	Необязательный	Вы можете развернуть Azure Databricks или Azure Synapse Spark для использования совместно с подсистемой приема данных, не зависящей от типа данных.
Azure Synapse	Необязательный	Вы можете развернуть Azure Databricks или Azure Synapse Spark для использования с движком приема данных, не зависящей от данных.

Общие приложения

Эта необязательная группа ресурсов используется, если необходимо предоставить набор общих служб, предоставляемых всем командам, создающим приложения данных в этой целевой зоне данных. Пример использования:

Рабочая область Azure Databricks, используемая в качестве общего хранилища метаданных для всех других рабочих областей Databricks, созданных в той же целевой зоне данных (или регионе).
Общий экземпляр Azure Synapse Analytics с использованием бессерверных SQL-пулов, чтобы пользователи могли выполнять запросы на нескольких изолированных учетных записях хранения.

Заметка

Azure Databricks использует каталог Unity для управления доступом и видимостью хранилищ метаданных в рабочих областях Databricks. Каталог Unity включен на уровне клиента, но хранилища метаданных соответствуют регионам Azure. На практике это означает, что все рабочие области с поддержкой каталога Unity Databricks в определенном регионе Azure потребуется зарегистрировать в одном хранилище метаданных. Дополнительные сведения см. в разделе лучших практиккаталога Unity.

Следуйте рекомендациям по анализу в масштабах облака, чтобы интегрировать Azure Databricks.

Приложение данных

Каждая площадка приземления данных может иметь несколько приложений данных. Эти приложения можно создать, используя данные из различных источников. Вы также можете создавать приложения данных из других приложений данных в той же целевой зоне данных или из других целевых зон данных. Создание приложений данных подлежит утверждению кураторов данных.

Группа ресурсов приложения данных

Группа ресурсов приложения данных включает все службы, необходимые для создания этого приложения данных. Например, для MySQL требуется база данных Azure, которая используется средством визуализации. Данные должны быть загружены и преобразованы, прежде чем попасть в базу данных MySQL. В этом случае можно развернуть базу данных Azure для MySQL и фабрику данных Azure в группе ресурсов приложения данных.

Совет

Если вы решили не реализовать агностический к данным механизм для однократного приема из операционных источников или если сложные подключения не упрощаются в вашей агностической к данным подсистеме, создайте приложение данных, согласованное с источником. Более подробную информацию см. в разделе «Приложения данных (с выравниванием по источнику)».

Дополнительные сведения о том, как подключить продукты данных, см. в приложениях данных аналитики в облаке в Azure.

Отчеты и визуализация

Вы можете использовать средства визуализации и создания отчетов в рабочих областях Fabric, которые имеют большое сходство с рабочими областями Power BI, не развертывая уникальные ресурсы в целевой зоне данных. Вы можете включить группу ресурсов для развертывания емкости Fabric, виртуальных машин для шлюзов данных или других необходимых служб данных для доставки приложения данных пользователю.

Дальнейшие действия

Продукты аналитики для облачных вычислений в масштабах Azure

Поделиться через

Зоны приземления данных

Архитектура зоны приземления данных

Службы платформы

Сети

Безопасность и мониторинг

Основные службы

Хранение

Общие среды выполнения интеграции

Управление

Внешнее хранилище

Прием данных

Общие приложения

Приложение данных

Группа ресурсов приложения данных

Отчеты и визуализация

Дальнейшие действия

Обратная связь

Дополнительные ресурсы