Выбор правильной конфигурации среды выполнения интеграции для вашего сценария
Среда выполнения интеграции является важной частью инфраструктуры для решения интеграции данных, предоставляемого Фабрика данных Azure. Для этого необходимо полностью рассмотреть, как адаптироваться к существующей сетевой структуре и источнику данных в начале разработки решения, а также учитывать производительность, безопасность и затраты.
Сравнение различных типов сред выполнения интеграции
В Фабрика данных Azure у нас есть три типа сред выполнения интеграции: среда выполнения интеграции Azure, локальная среда выполнения интеграции и среда выполнения интеграции Azure-SSIS. Для среды выполнения интеграции Azure можно также включить управляемую виртуальную сеть, которая отличается от архитектуры глобальной среды выполнения интеграции Azure.
В этой таблице перечислены различия в некоторых аспектах всех сред выполнения интеграции. Вы можете выбрать подходящий в соответствии с вашими фактическими потребностями. Для среды выполнения интеграции Azure-SSIS см. дополнительные сведения в статье "Создание среды выполнения интеграции Azure-SSIS".
Компонент | Среда выполнения интеграции Azure | Среда выполнения интеграции Azure с управляемой виртуальной сетью | Локальная среда выполнения интеграции |
---|---|---|---|
Управляемые вычисления | Y | Y | N |
Автомасштабирование | Y | Да* | N |
Поток данных | Y | Y | N |
Локальный доступ к данным | N | Y** | Y |
Приватный канал/частная конечная точка | N | Y*** | Y |
Пользовательский компонент или драйвер | N | N | Y |
* Если включен срок жизни (TTL), размер вычислительных ресурсов среды выполнения интеграции зарезервирован в соответствии с конфигурацией и не может быть автомасштабирован.
** Локальные среды должны быть подключены к Azure через Express Route или VPN. Пользовательские компоненты и драйверы не поддерживаются.
Частные конечные точки управляются службой Фабрика данных Azure.
Важно выбрать подходящий тип среды выполнения интеграции. Кроме того, он должен соответствовать существующей архитектуре и требованиям для интеграции данных, но также необходимо рассмотреть вопрос о том, как обеспечить дальнейшее выполнение растущих бизнес-потребностей и любое дальнейшее увеличение рабочей нагрузки. Но нет единого подхода к размеру. Следующие рекомендации помогут вам перейти к решению.
Что такое среда выполнения интеграции и расположения хранилища данных?
Расположение среды выполнения интеграции определяет расположение внутренних вычислений, а также место выполнения перемещения данных, отправки действий и преобразования данных. Чтобы повысить производительность и эффективность передачи, среда выполнения интеграции должна быть ближе к источнику данных или приемнику.- Среда выполнения интеграции Azure автоматически обнаруживает наиболее подходящее расположение на основе некоторых правил (также известных как autoresolve). Дополнительные сведения см. здесь: расположение Azure IR.
- Среда выполнения интеграции Azure с управляемой виртуальной сетью имеет тот же регион, что и фабрика данных. Его невозможно разрешить автоматически, как среда выполнения интеграции Azure.
- Локальная среда выполнения интеграции находится в регионе локальных компьютеров или виртуальных машин Azure.
Доступно ли хранилище данных в общедоступном режиме?
Если хранилище данных является общедоступным, разница между различными типами сред выполнения интеграции не имеет большого размера. Если хранилище находится за брандмауэром или в частной сети, например локальной или виртуальной сети, лучше выбрать среду выполнения интеграции Azure с управляемой виртуальной сетью или локальной средой выполнения интеграции.- Существует некоторая дополнительная настройка, например Приватный канал Service и Load Balancer при использовании среды выполнения интеграции Azure с управляемой виртуальной сетью для доступа к хранилищу данных за брандмауэром или в частной сети. В этом руководстве вы можете обратиться к локальному SQL Server из управляемой виртуальной сети фабрики данных, используя частную конечную точку в качестве примера. Если хранилище данных находится в локальной среде, локальная среда должна быть подключена к Azure через Express Route или VPN S2S.
- Локальная среда выполнения интеграции является более гибкой и не требует дополнительных параметров, Express Route или VPN. Но вам нужно обеспечить и поддерживать компьютер самостоятельно.
- Вы также можете добавить общедоступные IP-адреса среды выполнения интеграции Azure в список разрешений брандмауэра и разрешить ему доступ к хранилищу данных, но это не желательное решение в высокозащищенных рабочих средах.
Какой уровень безопасности требуется во время передачи данных?
Если необходимо обработать конфиденциальные данные, вы хотите защититься от, например, атак типа "человек в середине" во время передачи данных. Затем можно использовать частную конечную точку и Приватный канал для обеспечения безопасности данных.- Управляемые частные конечные точки можно создавать в хранилищах данных при использовании среды выполнения интеграции Azure с управляемой виртуальной сетью. Частные конечные точки поддерживаются службой Фабрика данных Azure в управляемой виртуальной сети.
- Вы также можете создавать частные конечные точки в виртуальной сети, а локальная среда выполнения интеграции может использовать их для доступа к хранилищам данных.
- Среда выполнения интеграции Azure не поддерживает частную конечную точку и Приватный канал.
Какой уровень обслуживания вы можете предоставить?
Обслуживание инфраструктуры, серверов и оборудования является одной из важных задач ИТ-отдела предприятия. Обычно это занимает много времени и усилий.- Вам не нужно беспокоиться об обслуживании, таком как обновление, исправление и версия среды выполнения интеграции Azure и среды выполнения интеграции Azure с управляемой виртуальной сетью. Служба Фабрика данных Azure заботится обо всех усилиях по обслуживанию.
- Так как локальная среда выполнения интеграции устанавливается на клиентских компьютерах, обслуживание должно выполняться конечными пользователями. Однако вы можете включить автоматическое обновление, чтобы автоматически получить последнюю версию локальной среды выполнения интеграции при каждом обновлении. Чтобы узнать, как включить автоматическое обновление и управление управлением версиями локальной среды выполнения интеграции, см. статью Автоматическое автоматическое обновление и истечение срока действия уведомления локальной среды выполнения интеграции. Мы также предоставляем средство диагностики для локальной среды выполнения интеграции для работоспособности проверка некоторые распространенные проблемы. Дополнительные сведения о средстве диагностики см. в статье о средстве диагностики локальной среды выполнения интеграции. Кроме того, мы рекомендуем использовать Azure Monitor и Azure Log Analytics специально для сбора этих данных и включения единой области мониторинга стекла для локальной среды выполнения интеграции. Дополнительные сведения о настройке этой статьи см. в статье "Настройка локальной среды выполнения интеграции для коллекции log analytics" для инструкций.
Какие требования к параллелизму у вас есть?
При обработке крупномасштабных данных, таких как миграция крупномасштабных данных, мы надеемся повысить эффективность и скорость обработки как можно больше. Параллелизм часто является основным требованием для интеграции данных.- Среда выполнения интеграции Azure имеет самую высокую поддержку параллелизма среди всех типов среды выполнения интеграции. Единица интеграции данных (DIU) — это единица возможностей для выполнения в Фабрика данных Azure. Например, можно выбрать требуемое число DIU, действие Copy. В область DIU можно одновременно выполнять несколько действий. Для разных групп регионов у нас будут разные верхние ограничения. Сведения об этих ограничениях см. в статье об ограничениях фабрики данных.
- Среда выполнения интеграции Azure с управляемой виртуальной сетью имеет аналогичный механизм среды выполнения интеграции Azure, но из-за некоторых ограничений архитектуры параллелизм, который он может поддерживать, меньше, чем среда выполнения интеграции Azure.
- Параллельные действия, которые может выполнять локальная среда выполнения интеграции, зависят от размера компьютера и размера кластера. Вы можете выбрать более крупный компьютер или использовать более локальные узлы интеграции в кластере, если требуется больше параллелизма.
Требуются ли какие-либо определенные функции?
Существуют некоторые функциональные различия между типами сред выполнения интеграции.- Поток данных поддерживается средой выполнения интеграции Azure и средой выполнения интеграции Azure с управляемой виртуальной сетью. Однако невозможно запустить поток данных с помощью локальной среды выполнения интеграции.
- Если необходимо установить пользовательские компоненты, такие как драйверы ODBC, JVM или сертификат SQL Server, локальная среда выполнения интеграции — это единственный вариант. Пользовательские компоненты не поддерживаются средой выполнения интеграции Azure или средой выполнения интеграции Azure с управляемой виртуальной сетью.
Архитектура среды выполнения интеграции
В зависимости от характеристик каждой среды выполнения интеграции различные архитектуры необходимы для удовлетворения бизнес-потребностей интеграции данных. Ниже приведены некоторые типичные архитектуры, которые можно использовать в качестве ссылки.
Среда выполнения интеграции Azure
Среда выполнения интеграции Azure — это полностью управляемые автоматически масштабируемые вычислительные ресурсы, которые можно использовать для перемещения данных из источников данных Azure или других источников данных Azure.
- Трафик из среды выполнения интеграции Azure в хранилища данных осуществляется через общедоступную сеть.
- Мы предоставляем диапазон статических общедоступных IP-адресов для среды выполнения интеграции Azure, и эти IP-адреса можно добавить в список разрешений брандмауэра целевого хранилища данных. Дополнительные сведения о том, как получить общедоступные IP-адреса среды выполнения интеграции Azure, см. в статье об IP-адресах среды выполнения интеграции Azure.
- Среда выполнения интеграции Azure может быть автоматически решена в соответствии с регионом источника данных и приемника данных. Или выбрать конкретный регион. Мы рекомендуем выбрать регион, ближайший к источнику данных или приемнику, что может обеспечить более высокую производительность выполнения. Дополнительные сведения о рекомендациях по повышению производительности см. в статье об устранении неполадок с действием копирования в Azure IR.
Среда выполнения интеграции Azure с управляемой виртуальной сетью
При использовании среды выполнения интеграции Azure с управляемой виртуальной сетью следует использовать управляемые частные конечные точки для подключения источников данных для обеспечения безопасности данных во время передачи. При использовании некоторых дополнительных параметров, таких как служба Приватный канал и Load Balancer, управляемые частные конечные точки также можно использовать для доступа к локальным источникам данных.
- Управляемая частная конечная точка не может использоваться повторно в разных средах. Необходимо создать набор управляемых частных конечных точек для каждой среды. Для всех источников данных, поддерживаемых управляемыми частными конечными точками, см. статью "Поддерживаемые источники данных и службы".
- Вы также можете использовать управляемые частные конечные точки для подключений к внешним вычислительным ресурсам, которые необходимо оркестрировать, такие как Azure Databricks и Функции Azure. Полный список поддерживаемых внешних вычислительных ресурсов см. в статье "Поддерживаемые источники данных и службы".
- Управляемая виртуальная сеть управляется службой Фабрика данных Azure. Пиринг между управляемой виртуальной сетью и виртуальной сетью клиента не поддерживается.
- Клиенты не могут напрямую изменять конфигурации, такие как правило NSG в управляемой виртуальной сети.
- Если любое свойство управляемой частной конечной точки отличается от сред, его можно переопределить, параметризуя это свойство и предоставляя соответствующее значение во время развертывания. Дополнительные сведения см. в статье "Рекомендации по CI/CD".
Локальная среда выполнения интеграции
Чтобы предотвратить взаимодействие данных из разных сред и обеспечить безопасность рабочей среды, необходимо создать соответствующую локальную среду выполнения интеграции для каждой среды. Это обеспечивает достаточную изоляцию между разными средами.
Так как локальная среда выполнения интеграции выполняется на управляемом клиенте компьютере, чтобы сократить затраты, обслуживание и обновление максимально возможно, мы можем использовать общие функции локальной среды выполнения интеграции для различных проектов в одной среде. Дополнительные сведения о совместном использовании локальной среды выполнения интеграции см. в статье "Создание общей локальной среды выполнения интеграции в Фабрика данных Azure". В то же время, чтобы сделать данные более безопасными во время передачи, мы можем использовать приватный канал для подключения источников данных и хранилища ключей и подключения связи между локальной средой выполнения интеграции и службой Фабрика данных Azure.
- Express Route не является обязательным. Без Express Route данные не будут обращаться к приемнику через частные сети, такие как виртуальная сеть или приватный канал, но через общедоступную сеть.
- Если локальная сеть подключена к виртуальной сети Azure через Express Route или VPN, локальная среда выполнения интеграции может быть установлена на виртуальных машинах в виртуальной сети Концентратора.
- Архитектуру виртуальной сети концентратора можно использовать не только для различных проектов, но и для различных сред (Prod, QA и Dev).
- Локальная среда выполнения интеграции может использоваться для нескольких фабрик данных. Основная фабрика данных ссылается на нее как общую локальную среду выполнения интеграции, а другие — как связанную локальную среду выполнения интеграции. Физическая локальная среда выполнения интеграции может содержать несколько узлов в кластере. Обмен данными происходит только между основной локальной средой выполнения интеграции и основным узлом, при этом работа распространяется на вторичные узлы из первичного узла.
- Учетные данные локальных хранилищ данных можно хранить на локальном компьютере или в Azure Key Vault. Azure Key Vault настоятельно рекомендуется.
- Обмен данными между локальной средой выполнения интеграции и фабрикой данных может проходить через приватный канал. Но в настоящее время интерактивная разработка с помощью Azure Relay и автоматическое обновление до последней версии из центра загрузки не поддерживает приватный канал. Трафик проходит через брандмауэр локальной среды. Дополнительные сведения см. в статье Приватный канал Azure для Фабрика данных Azure.
- Для основной фабрики данных требуется только приватный канал. Весь трафик проходит через основную фабрику данных, а затем к другим фабрикам данных.
- Ожидается то же имя локальной среды выполнения интеграции на всех этапах CI/CD. Вы можете использовать тернарную фабрику только для хранения общих локальных сред выполнения интеграции и использования связанной локальной среды выполнения интеграции на различных этапах производства. Дополнительные сведения см. в статье "Непрерывная интеграция и доставка".
- Вы можете управлять тем, как трафик переходит в центр загрузки и Ретранслятор Azure с помощью конфигураций локальной сети и Express Route через локальный прокси-сервер или виртуальную сеть концентратора. Убедитесь, что трафик разрешен правилами прокси-сервера или группы безопасности сети.
- Если вы хотите защитить обмен данными между узлами локальной среды выполнения интеграции, вы можете включить удаленный доступ из интрасети с помощью TLS/SSL-сертификата. Дополнительные сведения см. в статье "Включение удаленного доступа из интрасети с помощью TLS/SSL-сертификата (дополнительно)".