Приложения данных (с выравниванием по источнику)
Если вы решили не реализовывать механизм, не зависящий от данных, для приема данных один раз из операционных источников или если сложные подключения не упрощаются в подсистеме, не зависящей от данных, следует создать приложение данных, которое будет выровнено по источнику. Он должен следовать тому же потоку, что и механизм, не зависящий от данных, при приеме данных из внешних источников данных.
Общие сведения
Группа ресурсов приложения отвечает за прием и обогащение данных только из внешних источников, таких как данные телеметрии, финансы или CRM. Этот уровень может работать в режиме реального времени, пакетном и микропакете.
В этом разделе описывается инфраструктура, развернутая для каждой группы ресурсов приложений данных (с выравниванием по источнику) в целевой зоне данных.
Совет
Для сетки данных можно развернуть один из них для каждого источника или для каждого домена. Необходимо по-прежнему соблюдать принципы стандартизации данных, качества данных и происхождения данных. Команды по эксплуатации платформы данных могут разрабатывать фрагменты стандартного кода и вызывать их для достижения этой цели.
Для каждой группы ресурсов приложения данных (с выравниванием по источнику) в целевой зоне данных необходимо создать следующее:
- Azure Key Vault.
- Фабрика данных Azure для запуска разработанных инженерных конвейеров, которые преобразуют данные из необработанных в обогащенные.
- Субъект-служба, используемый приложением данных (с выравниванием по источнику) для развертывания заданий приема в Azure Databricks (только при использовании Azure Databricks).
Вы также можете создавать экземпляры других служб, таких как Центры событий Azure, Центр Интернета вещей Azure, Azure Stream Analytics и Машинное обучение Azure.
Примечание
Для применения стандарта Delta Lake необходимо использовать подсистему Spark, например Azure Synapse Spark или Azure Databricks.
Если вы решили использовать Azure Databricks, рекомендуется развернуть Фабрика данных Azure, а не рабочую область Azure Synapse Analytics, чтобы уменьшить контактную зону до только необходимых функций.
Однако если вам нужна всеохватывающая область разработки с конвейерами и Spark, используйте Azure Synapse Analytics. Примените политику, чтобы разрешить использование только Spark и конвейеров, чтобы избежать создания разрознений в Azure Synapse пуле SQL.
Azure Key Vault
По возможности используйте функции azure Key Vault для хранения секретов в Azure.
Каждое приложение данных (выровненное по источнику) группа ресурсов или домен данных (если сетка) будет иметь Key Vault Azure. Это гарантирует, что наследование ключа шифрования, секрета и сертификата соответствует требованиям вашей среды. Это позволяет лучше разделять административные обязанности, а также снижает риск смешивания ключей, интеграций и секретов различных классификаций.
Все ключи, связанные с приложением данных (с выравниванием по источнику), должны содержаться в Key Vault Azure.
Важно!
Хранилища ключей приложений данных (с выравниванием по источнику) должны соответствовать модели с минимальными привилегиями и избегать как ограничений масштаба транзакций, так и совместного использования секретов в разных средах.
Фабрика данных Azure
Разверните Фабрика данных Azure, чтобы позволить конвейерам, написанным командой приложений данных, принимать данные из необработанных в обогащенные с помощью разработанных конвейеров. Используйте потоки данных для сопоставления для преобразований и разбейте, чтобы использовать рабочую область Azure Databricks (прием) или Azure Synapse Spark для сложных преобразований.
Необходимо подключить Фабрика данных Azure к экземпляру DevOps репозитория приложения данных (с выравниванием по источнику). Это подключение позволяет выполнять развертывания CI/CD.
Центры событий
Если приложение данных (с выравниванием по источнику) требует потоковой передачи данных в, можно развернуть подчиненные Центры событий в группе ресурсов приложения данных (с выравниванием по источнику).