Вычислительные среды, поддерживаемые конвейерами Фабрики данных Azure и Azure Synapse
ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics
Совет
Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !
Внимание
Поддержка Машинное обучение Azure Studio (классическая) завершится 31 августа 2024 г. Мы рекомендуем перейти на Машинное обучение Azure по этой дате.
По состоянию на 1 декабря 2021 г. нельзя создавать новые ресурсы Машинное обучение Studio (классический) (рабочая область и план веб-службы). До 31 августа 2024 г. вы можете продолжать использовать существующие эксперименты Машинное обучение Studio (классические) и веб-службы. Дополнительные сведения см. в разделе:
- Миграция на Машинное обучение Azure из студии Машинное обучение (классическая версия)
- Что такое Машинное обучение Azure?
Машинное обучение Studio (классическая) документация не обновляется и может не обновляться в будущем.
В этой статье описываются различные среды вычислений, которые можно использовать для обработки и преобразования данных. Здесь содержатся также сведения о различных конфигурациях (конфигурациях по запросу и ваших собственных), которые поддерживаются при настройке связанных служб, связывающих эти вычислительные среды.
Следующая таблица содержит список поддерживаемых вычислительных сред и доступных в них действий.
Вычислительная среда HDInsight
В таблице ниже приведены сведения о поддерживаемых типах связанных служб хранилища для конфигурации в среде по запросу и BYOC (использование собственной вычислительной среды).
В связанной службе вычислений | Имя свойства | Description | BLOB-объект | ADLS 2-го поколения | Базой данных SQL Azure | ADLS 1-го поколения |
---|---|---|---|---|---|---|
По требованию | linkedServiceName | Связанная служба хранилища Azure, которую кластер по запросу должен использовать для хранения и обработки данных. | Да | Да | No | No |
additionalLinkedServiceNames | Указывает дополнительные учетные записи хранения для связанной службы HDInsight, чтобы служба могла регистрировать их от вашего имени. | Да | No | No | No | |
hcatalogLinkedServiceName | Имя связанной службы SQL Azure, указывающее на базу данных HCatalog. При создании кластера HDInsight по запросу используется база данных SQL Azure в качестве хранилища метаданных. | No | No | Да | Нет | |
BYOC | linkedServiceName | Ссылка на связанную службу хранилища Azure. | Да | Да | No | No |
additionalLinkedServiceNames | Указывает дополнительные учетные записи хранения для связанной службы HDInsight, чтобы служба могла регистрировать их от вашего имени. | No | No | No | No | |
hcatalogLinkedServiceName | Ссылка на связанную службу Azure SQL, указывающая на базу данных HCatalog. | No | No | No | No |
Вычислительные среды, поддерживаемые фабрикой данных Azure
В конфигурации такого типа вычислительная среда полностью управляется службой. Среда автоматически создается службой перед отправкой задания для обработки данных и удаляется после его выполнения. Вы можете создать связанную службу для среды вычислений по запросу, настроить ее и управлять детализированными параметрами выполнения задания, управления кластером и параметрами действий начальной загрузки.
Примечание.
Конфигурации по запросу в настоящее время поддерживаются только для кластеров Azure HDInsight. Azure Databricks также поддерживает задания по запросу с помощью кластеров заданий. Дополнительные сведения см. в разделе о связанной службе Azure Databricks.
Для обработки данных служба автоматически создает кластер HDInsight по запросу. Кластер создается в том же регионе, что и учетная запись хранения (свойство linkedServiceName в JSON), связанная с кластером. must
должна быть стандартной универсальной учетной записью хранения Azure.
Обратите внимание на следующие важные моменты, касающиеся связанной службы HDInsight по запросу.
- Кластер HDInsight по запросу создается в вашей подписке Azure. Сразу после запуска кластер отобразится на портале Azure.
- Журналы заданий, которые выполняются в кластере HDInsight по запросу, копируются в учетную запись хранения, связанную с кластером HDInsight. ClusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword, заданные в определении связанной службы, используются для входа в кластер, чтобы выполнить глубокую диагностику в течение жизненного цикла кластера.
- Вы оплачиваете только время, когда кластер HDInsight работает и выполняет задания.
- Со связанными службами Azure HDInsight, которые доступны по запросу, можно использовать действие скрипта.
Внимание
Подготовка к работе кластера HDInsight Azure по запросу обычно занимает от 20 минут.
Пример
Представленный ниже код JSON определяет связанную службу HDInsight по запросу под управлением Linux. Служба автоматически создает кластер HDInsight на основе Linux для обработки необходимых действий.
{
"name": "HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterType": "hadoop",
"clusterSize": 1,
"timeToLive": "00:15:00",
"hostSubscriptionId": "<subscription ID>",
"servicePrincipalId": "<service principal ID>",
"servicePrincipalKey": {
"value": "<service principal key>",
"type": "SecureString"
},
"tenant": "<tenant id>",
"clusterResourceGroup": "<resource group name>",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Внимание
Кластер HDInsight создает контейнер по умолчанию в хранилище BLOB-объектов, указанном в коде JSON (linkedServiceName). При удалении кластера HDInsight этот контейнер не удаляется. Такое поведение предусмотрено программой. Если используется связанная служба HDInsight по запросу, кластер HDInsight создается всякий раз, когда нужно обработать срез данных (если не используется динамический кластерtimeToLive), после чего кластер удаляется.
По мере выполнения действий количество контейнеров в хранилище BLOB-объектов будет увеличиваться. Если их не требуется для устранения неполадок заданий, может потребоваться удалить их, чтобы сократить затраты на хранение. Имена этих контейнеров указаны по шаблону adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp
. Для удаления контейнеров в хранилище BLOB-объектов Azure используйте такие инструменты, как Обозреватель службы хранилища Microsoft Azure.
Свойства
Свойство | Описание: | Обязательное поле |
---|---|---|
type | Свойству type необходимо присвоить значение HDInsightOnDemand. | Да |
clusterSize | Общее количество рабочих узлов и узлов данных в кластере. Кластер HDInsight создается с 2 головными узлами и количеством рабочих узлов, заданным в этом свойстве. Узлы имеют размер Standard_D3 с 4 ядрами, то есть кластер с 4 рабочими узлами использует 24 ядра (4*4 = 16 для рабочих узлов + 2*4 = 8 для головных узлов). Дополнительные сведения см. в статье Установка кластеров в HDInsight с использованием Hadoop, Spark, Kafka и других технологий. | Да |
linkedServiceName | Связанная служба хранилища Azure, которую кластер по запросу должен использовать для хранения и обработки данных. Кластер HDInsight создается в том же регионе, что и учетная запись хранения Azure. Azure HDInsight имеет ограничение на общее количество ядер, которые можно использовать в каждом поддерживаемом регионе Azure. Убедитесь, что у вас есть достаточное количество квот ядер в необходимом регионе Azure в соответствии с необходимым размером кластера. Дополнительные сведения см. в статье Установка кластеров в HDInsight с использованием Hadoop, Spark, Kafka и других технологий. В настоящее время недоступно создание кластера HDInsight по запросу, который использует в качестве хранилища Azure Data Lake Storage поколения 2. Чтобы сохранить данные результатов обработки HDInsight в Azure Data Lake Storage поколения 2, воспользуйтесь действием копирования и скопируйте данные из хранилища BLOB-объектов Azure в Azure Data Lake Storage поколения 2. |
Да |
clusterResourceGroup | В этой группе ресурсов создается кластер HDInsight. | Да |
timeToLive | Допустимое время простоя кластера HDInsight по запросу. Указывает, как долго кластер HDInsight по запросу остается активным после выполнения действия, если в кластере нет других активных заданий. Минимальное допустимое значение — 5 минут (00:05:00). Например, если выполнение действия занимает 6 минут, а значение свойства timetolive равно 5 минутам, кластер остается активным в течение 5 минут по истечении 6-минутного выполнения действия. Если в течение этих 6 минут выполняется другое действие, оно обрабатывается в том же кластере. Создание кластера HDInsight по запросу является ресурсоемкой операцией и может занять некоторое время. При необходимости используйте этот параметр для повышения производительности службы путем повторного использования кластера HDInsight по запросу. Если значение timetolive равно 0, кластер удаляется сразу после выполнения действия. В то время как при установке высокого значения кластер может оставаться в состоянии простоя для входа в систему для некоторых целей устранения неполадок, но это может привести к высокой стоимости. Поэтому необходимо установить соответствующее значение в соответствии со своими потребностями. Если значение свойства timetolive задано правильно, один и тот же экземпляр кластера HDInsight по запросу могут совместно использовать несколько конвейеров. |
Да |
clusterType | Тип создаваемого кластера HDInsight. Допустимые значения: Hadoop и Spark. Если не указано другое, по умолчанию используется значение Hadoop. Кластеры с корпоративными пакетами безопасности нельзя создать по запросу, вместо этого используйте существующий кластер или ваше собственное вычисление, подробнее см. в разделе Связанная служба Azure HDInsight. | No |
версия | Версия кластера HDInsight. Если не указано другое, используется текущая заданная версия HDInsight по умолчанию. | No |
hostSubscriptionId | Идентификатор подписки Azure, используемый для создания кластера HDInsight. Если не указано другое, будет использоваться идентификатор подписки контекста входа в Azure. | No |
clusterNamePrefix | Префикс имени кластера HDI. Метка времени будет автоматически добавляться в конец имени кластера. | No |
sparkVersion | Версия Spark, если используется тип кластера Spark. | No |
additionalLinkedServiceNames | Указывает дополнительные учетные записи хранения для связанной службы HDInsight, чтобы служба могла регистрировать их от вашего имени. Эти учетные записи хранения должны находиться в том же регионе, что и кластер HDInsight, который создается в одном регионе с учетной записью хранения, указанной параметром linkedServiceName. | No |
osType | Тип операционной системы. Допустимые значения: Linux и Windows (только для HDInsight 3.3). Значение по умолчанию — Linux. | No |
hcatalogLinkedServiceName | Имя связанной службы SQL Azure, указывающее на базу данных HCatalog. При создании кластера HDInsight по запросу используется база данных SQL Azure в качестве хранилища метаданных. | No |
connectVia | Среда выполнения интеграции, используемая для отправки действий в связанную службу HDInsight. Для связанной службы HDInsight по запросу поддерживается только среда выполнения интеграции Azure. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure. | No |
clusterUserName | Имя пользователя для доступа к кластеру. | No |
clusterPassword | Пароль в строке защищенного типа для доступа к кластеру. | No |
clusterSshUserName | Имя пользователя для установки удаленного подключения SSH к узлу кластера (для Linux). | No |
clusterSshPassword | Пароль в строке защищенного типа для установки удаленного подключения SSH к узлу кластера (для Linux). | No |
scriptActions | Во время создания кластера по запросу укажите скрипт для настроек кластера HDInsight. Сейчас средство разработки пользовательского интерфейса поддерживает указание только 1 действия скрипта, но вы можете обойти это ограничение в JSON (укажите несколько действий скрипта в формате JSON). |
No |
Внимание
HDInsight поддерживает несколько версий кластера Hadoop, которые могут быть развернуты. Каждая из версий создает конкретную версию платформы HortonWorks Data Platform (HDP) и набор компонентов, содержащихся в этой версии. Список поддерживаемых версий HDInsight продолжает обновляться, чтобы предоставлять новейшие компоненты и исправления для экосистемы Hadoop. Ознакомьтесь с актуальной информацией о поддерживаемой версии HDInsight и типе ОС, чтобы убедиться, что используется поддерживаемая версия HDInsight.
Внимание
Сейчас службы, связанные с HDInsight, не поддерживают HBase, интерактивные запросы (Hive LLAP), Storm.
- Пример кода JSON additionalLinkedServiceNames
"additionalLinkedServiceNames": [{
"referenceName": "MyStorageLinkedService2",
"type": "LinkedServiceReference"
}]
Аутентификация субъекта-службы
Для связанной службы HDInsight по запросу необходимо выполнить проверку подлинности субъекта-службы, чтобы создать кластеры HDInsight от вашего имени. Чтобы использовать проверку подлинности субъекта-службы, зарегистрируйте сущность приложения в идентификаторе Microsoft Entra и предоставьте ей роль участника подписки или группы ресурсов, в которой создается кластер HDInsight. Подробные инструкции см . на портале для создания приложения Microsoft Entra и субъекта-службы, доступ к ресурсам. Запишите следующие значения, которые используются для определения связанной службы:
- Application ID
- ключ приложения.
- Идентификатор клиента
Используйте проверку подлинности на основе субъекта-службы, указав следующие свойства:
Свойство | Описание: | Обязательное поле |
---|---|---|
servicePrincipalId | Укажите идентификатора клиента приложения. | Да |
servicePrincipalKey | Укажите ключ приложения. | Да |
tenant | Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Эти сведения можно получить, наведя указатель мыши на правый верхний угол страницы портала Azure. | Да |
Дополнительные свойства
Для детализированной настройки кластера HDInsight по запросу можно также указать следующие свойства.
Свойство | Описание: | Обязательное поле |
---|---|---|
coreConfiguration | Задает параметры конфигурации ядра (как в файле core-site.xml) для создаваемого кластера HDInsight. | No |
hBaseConfiguration | Задает основные параметры конфигурации HBase (hbase-site.xml) для кластера HDInsight. | No |
hdfsConfiguration | Задает основные параметры конфигурации HDFS (hdfs-site.xml) для кластера HDInsight. | No |
hiveConfiguration | Задает основные параметры конфигурации Hive (hive-site.xml) для кластера HDInsight. | No |
mapReduceConfiguration | Задает параметры конфигурации MapReduce (mapred-site.xml) для кластера HDInsight. | No |
oozieConfiguration | Задает параметры конфигурации Oozie (oozie-site.xml) для кластера HDInsight. | No |
stormConfiguration | Задает параметры конфигурации Storm (storm-site.xml) для кластера HDInsight. | No |
yarnConfiguration | Задает параметры конфигурации Yarn (yarn-site.xml) для кластера HDInsight. | No |
- Пример. Конфигурация кластера HDInsight по запросу с расширенными свойствами
{
"name": " HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterSize": 16,
"timeToLive": "01:30:00",
"hostSubscriptionId": "<subscription ID>",
"servicePrincipalId": "<service principal ID>",
"servicePrincipalKey": {
"value": "<service principal key>",
"type": "SecureString"
},
"tenant": "<tenant id>",
"clusterResourceGroup": "<resource group name>",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"coreConfiguration": {
"templeton.mapper.memory.mb": "5000"
},
"hiveConfiguration": {
"templeton.mapper.memory.mb": "5000"
},
"mapReduceConfiguration": {
"mapreduce.reduce.java.opts": "-Xmx4000m",
"mapreduce.map.java.opts": "-Xmx4000m",
"mapreduce.map.memory.mb": "5000",
"mapreduce.reduce.memory.mb": "5000",
"mapreduce.job.reduce.slowstart.completedmaps": "0.8"
},
"yarnConfiguration": {
"yarn.app.mapreduce.am.resource.mb": "5000",
"mapreduce.map.memory.mb": "5000"
},
"additionalLinkedServiceNames": [{
"referenceName": "MyStorageLinkedService2",
"type": "LinkedServiceReference"
}]
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
Размеры узлов
Вы можете указать размеры головных узлов, узлов данных и узлов zookeeper, используя следующие свойства.
Свойство | Описание: | Обязательное поле |
---|---|---|
headNodeSize | Указывает размер головного узла. Значение по умолчанию: Standard_D3. Дополнительные сведения см. в разделе Указание размеров узлов. | No |
dataNodeSize | Задает размер узла данных. Значение по умолчанию: Standard_D3. | No |
zookeeperNodeSize | Задает размер узла Zoo Keeper. Значение по умолчанию: Standard_D3. | No |
- Указывает размер узлов. Сведения о строковых значениях, необходимых для задания указанных выше свойств, см. в статье Размеры виртуальных машин в Azure. Значения должны соответствовать указанным в статье командлетам и API. Как видно из статьи, узел данных большого размера (по умолчанию) имеет 7 ГБ памяти, что может быть недостаточно для вашего сценария.
Если вы хотите создать головные узлы и рабочие узлы размера D4, укажите Standard_D4 в качестве значения для свойств headNodeSize и dataNodeSize.
"headNodeSize": "Standard_D4",
"dataNodeSize": "Standard_D4",
Если указать неправильное значение для этих свойств, может появиться следующая ошибка: не удалось создать кластер. Исключение: не удается завершить операцию создания кластера. Операция завершилась ошибкой с кодом 400. Оставшееся состояние кластера: "Ошибка". Сообщение: "PreClusterCreationValidationFailure". При появлении этой ошибки убедитесь, что вы используете имя командлета или API из таблицы в статье Размеры виртуальных машин в Azure.
Использование собственной среды вычислений
В конфигурации такого типа вы можете зарегистрировать уже существующую вычислительную среду как связанную службу. Пользователь управляет вычислительной средой, а служба использует ее для выполнения действий.
Такая конфигурация поддерживается в следующих средах вычислений:
- Azure HDInsight
- Пакетная служба Azure
- Машинное обучение Azure
- Аналитика озера данных Azure
- Azure SQL DB, Azure Synapse Analytics, SQL Server
Связанная служба Azure HDInsight
Чтобы зарегистрировать собственный кластер HDInsight в фабрике данных или рабочей области Synapse, вы можете создать связанную службу Azure HDInsight.
Пример
{
"name": "HDInsightLinkedService",
"properties": {
"type": "HDInsight",
"typeProperties": {
"clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
"userName": "username",
"password": {
"value": "passwordvalue",
"type": "SecureString"
},
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Свойства
Свойство | Описание: | Обязательное поле |
---|---|---|
type | Свойству type необходимо присвоить значение HDInsight. | Да |
clusterUri | Универсальный код ресурса (URI) кластера HDInsight. | Да |
username | Укажите имя пользователя, которое будет использоваться для подключения к существующему кластеру HDInsight. | Да |
password | Укажите пароль для учетной записи пользователя. | Да |
linkedServiceName | Имя связанной службы для службы хранилища Azure, которая обращается к хранилищу BLOB-объектов Azure, используемому кластером HDInsight. В настоящее время для этого свойства невозможно указать связанную службу Azure Data Lake Storage поколения 2. Если кластер HDInsight имеет доступ к Data Lake Store, вы можете получить доступ к данным в Azure Data Lake Storage (2-го поколения) из скриптов Hive/Pig. |
Да |
isEspEnabled | Укажите значение true, если кластер HDInsight доступный с Корпоративными пакетами безопасности. Значение по умолчанию — false. | No |
connectVia | Среда выполнения интеграции, используемая для отправки действий в связанную службу. Вы можете использовать среду выполнения интеграции Azure или локальную среду выполнения интеграции. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure. Для кластеров HDInsight с Корпоративными пакетами безопасности (ESP) следует использовать локальную среду выполнения интеграции, которая имеет "прямую видимость" кластера или должна развертываться в той же виртуальной сети, что и кластер HDInsight для ESP. |
No |
Внимание
HDInsight поддерживает несколько версий кластера Hadoop, которые могут быть развернуты. Каждая из версий создает конкретную версию платформы HortonWorks Data Platform (HDP) и набор компонентов, содержащихся в этой версии. Список поддерживаемых версий HDInsight продолжает обновляться, чтобы предоставлять новейшие компоненты и исправления для экосистемы Hadoop. Ознакомьтесь с актуальной информацией о поддерживаемой версии HDInsight и типе ОС, чтобы убедиться, что используется поддерживаемая версия HDInsight.
Внимание
Сейчас службы, связанные с HDInsight, не поддерживают HBase, интерактивные запросы (Hive LLAP), Storm.
Связанная пакетная служба Azure
Примечание.
Мы рекомендуем использовать модуль Azure Az PowerShell для взаимодействия с Azure. Чтобы начать работу, см. статью Установка Azure PowerShell. Дополнительные сведения см. в статье Перенос Azure PowerShell с AzureRM на Az.
Чтобы зарегистрировать пакетный пул виртуальных машин (ВМ) в фабрике данных или рабочей области Synapse, можно создать связанную пакетную службу Azure. Вы можете выполнить пользовательские действия с помощью пакетной службы Azure.
Если вы еще не знакомы с пакетной службой Azure, см. следующие статьи.
- Основные сведения о пакетной службе Azure — общие сведения о пакетной службе Azure.
- Статья о командлете New-AzBatchAccount со сведениями о создании учетной записи пакетной службы Azure или статья о портале Azure со сведениями о создании учетной записи пакетной службы Azure с помощью портала Azure. Подробные инструкции по использованию этого командлета см. в статье Using PowerShell to manage Azure Batch Account (Использование PowerShell для управления учетной записью пакетной службы Azure).
- New-AzBatchPool со сведениями о создании пула пакетной службы Azure.
Внимание
При создании нового пула пакетной службы Azure необходимо использовать "VirtualMachineConfiguration", а не "CloudServiceConfiguration". Дополнительные сведения см. в руководстве по миграции пула пакетной службы Azure.
Пример
{
"name": "AzureBatchLinkedService",
"properties": {
"type": "AzureBatch",
"typeProperties": {
"accountName": "batchaccount",
"accessKey": {
"type": "SecureString",
"value": "access key"
},
"batchUri": "https://batchaccount.region.batch.azure.com",
"poolName": "poolname",
"linkedServiceName": {
"referenceName": "StorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Свойства
Свойство | Описание: | Обязательное поле |
---|---|---|
type | Свойству type необходимо присвоить значение AzureBatch. | Да |
accountName | Имя учетной записи пакетной службы Azure | Да |
accessKey | Ключ доступа к учетной записи пакетной службы Azure. | Да |
batchUri | URL-адрес учетной записи пакетной службы Azure в формате https://batchaccountname.region.batch.azure.com. | Да |
poolName | Имя пула виртуальных машин. | Да |
linkedServiceName | Имя связанной службы хранилища Azure, которая ассоциируется с этой связанной пакетной службой Azure. Эта связанная служба используется для промежуточных файлов, необходимых для выполнения действий. | Да |
connectVia | Среда выполнения интеграции, используемая для отправки действий в связанную службу. Вы можете использовать среду выполнения интеграции Azure или локальную среду выполнения интеграции. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure. | No |
Связанная служба Студии машинного обучения (классической)
Внимание
Поддержка Машинное обучение Azure Studio (классическая) завершится 31 августа 2024 г. Мы рекомендуем перейти на Машинное обучение Azure по этой дате.
По состоянию на 1 декабря 2021 г. нельзя создавать новые ресурсы Машинное обучение Studio (классический) (рабочая область и план веб-службы). До 31 августа 2024 г. вы можете продолжать использовать существующие эксперименты Машинное обучение Studio (классические) и веб-службы. Дополнительные сведения см. в разделе:
- Миграция на Машинное обучение Azure из студии Машинное обучение (классическая версия)
- Что такое Машинное обучение Azure?
Машинное обучение Studio (классическая) документация не обновляется и может не обновляться в будущем.
Вы создаете связанную службу Машинное обучение Studio (классическая) для регистрации конечной точки оценки пакетной оценки Машинное обучение Studio (классической) в фабрике данных или рабочей области Synapse.
Пример
{
"name": "AzureMLLinkedService",
"properties": {
"type": "AzureML",
"typeProperties": {
"mlEndpoint": "https://[batch scoring endpoint]/jobs",
"apiKey": {
"type": "SecureString",
"value": "access key"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Свойства
Свойство | Описание: | Обязательное поле |
---|---|---|
Тип | Свойству type необходимо присвоить значение AzureML. | Да |
mlEndpoint | URL-адрес пакетной оценки. | Да |
apiKey | API модели опубликованной рабочей области. | Да |
updateResourceEndpoint | URL-адрес обновления ресурса для конечной точки веб-службы "Студия машинного обучения (классическая версия)", используемый для обновления прогнозной веб-службы с помощью файла обученной модели. | No |
servicePrincipalId | Укажите идентификатора клиента приложения. | Требуется, если задано свойство updateResourceEndpoint |
servicePrincipalKey | Укажите ключ приложения. | Требуется, если задано свойство updateResourceEndpoint |
tenant | Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Эти сведения можно получить, наведя указатель мыши на правый верхний угол страницы портала Azure. | Требуется, если задано свойство updateResourceEndpoint |
connectVia | Среда выполнения интеграции, используемая для отправки действий в связанную службу. Вы можете использовать среду выполнения интеграции Azure или локальную среду выполнения интеграции. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure. | No |
Связанная служба Машинного обучения Azure
Создайте связанную службу Машинного обучения Azure, чтобы связать рабочую область Машинного обучения Azure с фабрикой данных или рабочей областью Synapse.
Примечание.
Сейчас для связанной службы Машинного обучения Azure поддерживается только проверка подлинности субъекта-службы.
Пример
{
"name": "AzureMLServiceLinkedService",
"properties": {
"type": "AzureMLService",
"typeProperties": {
"subscriptionId": "subscriptionId",
"resourceGroupName": "resourceGroupName",
"mlWorkspaceName": "mlWorkspaceName",
"servicePrincipalId": "service principal id",
"servicePrincipalKey": {
"value": "service principal key",
"type": "SecureString"
},
"tenant": "tenant ID"
},
"connectVia": {
"referenceName": "<name of Integration Runtime?",
"type": "IntegrationRuntimeReference"
}
}
}
Свойства
Свойство | Описание: | Обязательное поле |
---|---|---|
Тип | Свойство type должно иметь значение: AzureMLService. | Да |
subscriptionId | Идентификатор подписки Azure | Да |
resourceGroupName | name | Да |
mlWorkspaceName | Имя рабочей области службы Машинного обучения Azure | Да |
servicePrincipalId | Укажите идентификатора клиента приложения. | Да |
servicePrincipalKey | Укажите ключ приложения. | Да |
tenant | Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Эти сведения можно получить, наведя указатель мыши на правый верхний угол страницы портала Azure. | Требуется, если задано свойство updateResourceEndpoint |
connectVia | Среда выполнения интеграции, используемая для отправки действий в связанную службу. Вы можете использовать среду выполнения интеграции Azure или локальную среду выполнения интеграции. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure. | No |
Связанная служба Azure Data Lake Analytics
Можно создать связанную службу Azure Data Lake Analytics, чтобы связать службу вычислений Azure Data Lake Analytics с фабрикой данных или рабочей областью Synapse. Действие U-SQL Data Lake Analytics в конвейере ссылается на эту связанную службу.
Пример
{
"name": "AzureDataLakeAnalyticsLinkedService",
"properties": {
"type": "AzureDataLakeAnalytics",
"typeProperties": {
"accountName": "adftestaccount",
"dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
"servicePrincipalId": "service principal id",
"servicePrincipalKey": {
"value": "service principal key",
"type": "SecureString"
},
"tenant": "tenant ID",
"subscriptionId": "<optional, subscription ID of ADLA>",
"resourceGroupName": "<optional, resource group name of ADLA>"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Свойства
Свойство | Описание: | Обязательное поле |
---|---|---|
type | Свойству type необходимо присвоить значение AzureDataLakeAnalytics. | Да |
accountName | Имя учетной записи аналитики озера данных Azure. | Да |
dataLakeAnalyticsUri | Универсальный код ресурса (URI) аналитики озера данных Azure. | No |
subscriptionId | Идентификатор подписки Azure | No |
resourceGroupName | Имя группы ресурсов Azure | No |
servicePrincipalId | Укажите идентификатора клиента приложения. | Да |
servicePrincipalKey | Укажите ключ приложения. | Да |
tenant | Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Эти сведения можно получить, наведя указатель мыши на правый верхний угол страницы портала Azure. | Да |
connectVia | Среда выполнения интеграции, используемая для отправки действий в связанную службу. Вы можете использовать среду выполнения интеграции Azure или локальную среду выполнения интеграции. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure. | No |
Связанная служба Azure Databricks
Вы можете создать связанную службу Azure Databricks, чтобы зарегистрировать рабочую область Databricks, которая будет использоваться для выполнения рабочих нагрузок (записных книжек, JAR, Python) Databricks.
Внимание
Связанные модулями связи службы поддерживают Пулы экземпляров и управляемую системой аутентификацию управляемых удостоверений.
Пример. Использование нового кластера заданий в Databricks
{
"name": "AzureDatabricks_LS",
"properties": {
"type": "AzureDatabricks",
"typeProperties": {
"domain": "https://eastus.azuredatabricks.net",
"newClusterNodeType": "Standard_D3_v2",
"newClusterNumOfWorker": "1:10",
"newClusterVersion": "4.0.x-scala2.11",
"accessToken": {
"type": "SecureString",
"value": "YourAccessToken"
}
}
}
}
Пример. Использование существующего интерактивного кластера в Databricks
{
"name": " AzureDataBricksLinkedService",
"properties": {
"type": " AzureDatabricks",
"typeProperties": {
"domain": "https://westeurope.azuredatabricks.net",
"accessToken": {
"type": "SecureString",
"value": "YourAccessToken"
},
"existingClusterId": "{clusterId}"
}
}
Свойства
Свойство | Описание: | Обязательное поле |
---|---|---|
name | Имя связанной службы | Да |
type | Свойство type должно иметь значение: Azure Databricks. | Да |
domain | Укажите регион Azure на основе региона рабочей области Databricks. Пример: https://eastus.azuredatabricks.net | Да |
accessToken | Чтобы служба прошла аутентификацию в Azure Databricks, необходим маркер доступа. Маркер доступа должен быть создан в рабочей области Databricks. Подробные инструкции по поиску маркера доступа см. в этой статье. | No |
MSI | Используйте управляемое удостоверение службы (назначаемое системой) для проверки подлинности в Azure Databricks. При использовании проверки подлинности "MSI" маркер доступа не нужен. Дополнительные сведения о проверке подлинности с помощью управляемых удостоверений см. здесь. | No |
existingClusterId | Идентификатор существующего кластера, где будут выполняться все задания. Это должен быть уже созданный интерактивный кластер. Возможно, потребуется вручную перезапустить кластер, если он перестанет отвечать. Для улучшения надежности Databricks предлагает выполнять задания на новых кластерах. Идентификатор интерактивного кластера можно найти, выбрав "Рабочая область Databricks" -> "Кластеры" -> "Имя интерактивного кластера" -> "Конфигурация" -> "Теги". Дополнительные сведения | No |
instancePoolId | Идентификатор экземпляра пула существующего пула в рабочей области Databricks. | No |
newClusterVersion | Версия Spark кластера. Она создает кластер заданий в Databricks. | No |
newClusterNumOfWorker | Необходимое число рабочих узлов текущего кластера. В кластере присутствует один драйвер Spark и исполнители num_workers для такого числа узлов: Spark num_workers + 1. Строка в формате Int32, например "1", означает, что параметр numOfWorker имеет значение 1, а "1:10" означает автомасштабирование от 1 (минимум) до 10 (максимум). | No |
newClusterNodeType | Используя отдельное значение, это поле кодирует доступные ресурсы для каждого узла Spark в этом кластере. Например, узлы Spark могут быть подготовлены и оптимизированы для операций в памяти или для ресурсоемких рабочих нагрузок. Это поле обязательно для нового кластера. | No |
newClusterSparkConf | Набор необязательных, определяемых пользователем пар "ключ — значение" в конфигурации Spark. Пользователи также могут передавать строку дополнительных параметров JVM драйверу и исполнителям через spark.driver.extraJavaOptions и spark.executor.extraJavaOptions соответственно. | No |
newClusterInitScripts | Набор необязательных, определяемых пользователем скриптов инициализации для нового кластера. Скрипты инициализации можно указать в файлах рабочей области (рекомендуется) или с помощью пути DBFS (устаревшая версия). | No |
Связанная служба "База данных SQL Azure"
Связанная служба Azure SQL создается и применяется к действию хранимой процедуры для вызова хранимой процедуры из конвейера. Дополнительную информацию см. в статье о связанной службе SQL Azure.
Связанная служба Azure Synapse Analytics
Связанную службу Azure Synapse Analytics можно создать и применить к действиям хранимой процедуры для вызова хранимой процедуры из конвейера. Дополнительную информацию см. в статье о Соединителе Azure Synapse Analytics Connector.
Связанная служба SQL Server
Связанную службу SQL Server можно создать и применить к действиям хранимой процедуры для вызова хранимой процедуры из конвейера. Дополнительные сведения о связанной службе SQL Server см. в соответствующем разделе статьи Перемещение данных в базу данных SQL Server и обратно на локальных компьютерах и виртуальных машинах Azure IaaS с помощью фабрики данных Azure.
Связанная служба Azure Synapse Analytics (Artifacts)
Вы создаете связанную службу Azure Synapse Analytics (Artifacts) и используете ее с действием определения задания Synapse Notebook и Действием определения задания Synapse Spark.
Пример
{
"name": "AzureSynapseArtifacts",
"type": "Microsoft.DataFactory/factories/linkedservice",
"properties": {
"properties": {
"a":{
"type": "String"
}
},
"annotations": [],
"type": "AzureSynapseArtifacts",
"typeProperties": {
"endpoint": "@{linkedService().a}",
"authentication": "MSI",
"workspaceResourceId": ""
},
"ConnectVia":{
"referenceName": "integrationRuntime1",
"type": "IntegrationRuntimeReference"
}
}
}
Свойства
Свойство | Description | Обязательный |
---|---|---|
name | Имя связанной службы | Да |
описание | описание связанной службы | No |
annotations | заметки связанной службы | No |
type | Свойство type должно иметь значение AzureSynapseArtifacts | Да |
конечная точка | URL-адрес Azure Synapse Analytics | Да |
проверка подлинности | Параметр по умолчанию — управляемое удостоверение, назначаемое системой | Да |
workspaceResourceId | Идентификатор ресурса рабочей области | Да |
connectVia | Среда выполнения интеграции, используемая для подключения к хранилищу данных. Среду выполнения интеграции Azure можно использовать. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure. Локальная среда выполнения интеграции в настоящее время не поддерживается. | Да |
Связанные службы функции Azure
Связанную службу Функций Azure можно создать и применить к действию Функций Azure для запуска Функций Azure в конвейере. Тип возвращаемого значения функции Azure должен быть допустимым объектом JObject
. (Помните, что JArray не JObject
является .) Любой возвращаемый тип, отличный от JObject
сбоя, и вызывает содержимое ответа на ошибку пользователя не является допустимым JObject.
Свойство | Description | Обязательный |
---|---|---|
type | Свойство type должно иметь значение: AzureFunction | yes |
function app url | URL-адрес для приложения-функции Azure. Формат – https://<accountname>.azurewebsites.net . Этот URL-адрес – это значение в разделе URL при просмотре приложения-функции на портале Azure |
yes |
function key | Ключ доступа для функции Azure. Щелкните раздел Управление для соответствующей функции и скопируйте Function Key (ключ функции) или Host key (ключ хоста). Дополнительные сведения см. здесь: работа с ключами доступа | yes |
Связанный контент
Список поддерживаемых действий преобразования см. в разделе Преобразование данных.