Compartir vía


Entornos de proceso compatibles con canalizaciones de Azure Data Factory y Synapse

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.

Importante

La compatibilidad con Estudio de Azure Machine Learning (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

Desde el 1 de diciembre de 2021, no se puede crear nuevos recursos de Estudio de Machine Learning (clásico) (área de trabajo y plan de servicio web). Hasta el 31 de agosto de 2024, podrá seguir usando los experimentos y servicios web existentes de Estudio de Machine Learning (clásico). Para más información, vea:

La documentación de Machine Learning Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

En este artículo se explican distintos entornos de procesos que se pueden usar para procesar o transformar datos. También se proporcionan detalles sobre las distintas configuraciones (a petición frente traiga la suya propia) admitidas al configurar servicios vinculados que vinculan estos entornos de proceso.

En la tabla siguiente se proporciona una lista de entornos de proceso admitidos y las actividades que se pueden ejecutar en ellos.

Entorno de procesos Actividades
Clúster de HDInsight a petición o clúster HDInsight propio Hive, Pig, Spark, MapReduce, Hadoop Streaming
Azure Batch Personalizada
ML Studio (clásico) Actividades de ML Studio (clásico): ejecución de lotes y recurso de actualización
Azure Machine Learning Ejecución de canalización de Azure Machine Learning
Análisis con Azure Data Lake U-SQL de análisis con Data Lake
Azure SQL, Azure Synapse Analytics, SQL Server Procedimiento almacenado
Azure Databricks Notebook, Jar, Python
Azure Synapse Analytics (Artifacts) Actividad de Synapse Notebook, Definición de trabajo de Spark de Synapse
Función de Azure Actividad de función de Azure

Entorno de procesos de HDInsight

Consulte la tabla siguiente para detalles sobre los tipos compatibles de servicio vinculado al almacenamiento para la configuración en un entorno a petición o BYOC (Bring Your Own Compute).

En servicio vinculado de proceso Nombre de propiedad Descripción Blob ADLS Gen2 Azure SQL DB ADLS Gen1
A petición linkedServiceName El servicio vinculado de Azure Storage que usará el clúster a petición para almacenar y procesar datos. No No
additionalLinkedServiceNames Especifica cuentas de almacenamiento adicionales para el servicio vinculado de HDInsight, de forma que el servicio pueda registrarlas en su nombre. No N.º No
hcatalogLinkedServiceName Nombre del servicio vinculado de SQL de Azure que apunta a la base de datos de HCatalog. El clúster de HDInsight a petición se crea mediante la base de datos de Azure SQL como el almacén de metadatos. No No No
BYOC linkedServiceName La referencia del servicio vinculado de Azure Storage. No No
additionalLinkedServiceNames Especifica cuentas de almacenamiento adicionales para el servicio vinculado de HDInsight, de forma que el servicio pueda registrarlas en su nombre. No N.º N.º No
hcatalogLinkedServiceName Una referencia al servicio vinculado de Azure SQL que apunta a la base de datos de HCatalog. No N.º N.º No

Servicio vinculado a petición de HDInsight de Azure

En este tipo de configuración, el entorno de procesos está totalmente administrado por el servicio. El servicio lo crea automáticamente antes de que se envíe un trabajo para procesar los datos y se quita cuando finaliza el trabajo. Puede crear un servicio vinculado para el entorno de procesos a petición, configurarlo y controlar la configuración granular para la ejecución del trabajo, la administración del clúster y las acciones de arranque.

Nota

La configuración a petición solo se admite actualmente para los clústeres de HDInsight de Azure. Azure Databricks también admite trabajos a petición mediante el uso de clústeres de trabajo. Para más información, consulte Servicio vinculado de Azure Databricks.

El servicio puede crear automáticamente un clúster de HDInsight a petición para procesar los datos. El clúster se crea en la misma región que la cuenta de almacenamiento (propiedad linkedServiceName en JSON) asociada al clúster. La cuenta de almacenamiento must debe ser una cuenta de Azure Storage estándar de uso general.

Tenga en cuenta los siguientes puntos importantes acerca del servicio vinculado de HDInsight a petición:

  • El clúster de HDInsight a petición se crea bajo la suscripción de Azure. Es capaz de ver el clúster en Azure Portal cuando el clúster está activo y en ejecución.
  • Los registros de trabajos que se ejecutan en un clúster de HDInsight a petición se copian en la cuenta de almacenamiento asociada al clúster de HDInsight. clusterUserName, clusterPassword, clusterSshUserName y clusterSshPassword que aparecen en la definición del servicio vinculado se utilizan para iniciar sesión en el clúster para la solución de problemas detallada durante el ciclo de vida del clúster.
  • Se le cobrará solo por el tiempo en el que el clúster de HDInsight esté en ejecución y realizando trabajos.
  • Puede usar una acción de script con el servicio vinculado a petición de Azure HDInsight.

Importante

El aprovisionamiento bajo demanda de un clúster de Azure HDInsight suele tardar 20 minutos o más.

Ejemplo

En el siguiente JSON se define un servicio vinculado de HDInsight a petición basado en Linux. El servicio crea automáticamente un clúster de HDInsight basado en Linux para procesar la actividad requerida.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "servicePrincipalId": "<service principal ID>",
      "servicePrincipalKey": {
        "value": "<service principal key>",
        "type": "SecureString"
      },
      "tenant": "<tenant id>",
      "clusterResourceGroup": "<resource group name>",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Importante

El clúster de HDInsight crea un contenedor predeterminado en el almacenamiento de blobs que especificó en JSON (linkedServiceName). HDInsight no elimina este contenedor cuando se elimina el clúster. Este comportamiento es así por diseño. Con el servicio vinculado de HDInsight a petición se crea un clúster de HDInsight cada vez tenga que procesarse un segmento, a menos que haya un clúster existente activo (timeToLive), que se elimina cuando finaliza el procesamiento.

A medida que hay más actividad, verá numerosos contenedores en su Azure Blob Storage. Si no lo necesita para la resolución de problemas de los trabajos, es posible que desee eliminarlos para reducir el costo de almacenamiento. Los nombres de estos contenedores siguen un patrón: adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Use herramientas como el Explorador de Microsoft Azure Storage para eliminar contenedores de Azure Blob Storage.

Propiedades

Property Descripción Obligatorio
type La propiedad type se debe establecer en HDInsightOnDemand.
clusterSize Número de nodos de datos o trabajo del clúster El clúster de HDInsight se crea con dos nodos principales junto con el número de nodos de trabajo que haya especificado para esta propiedad. Los nodos son de tamaño Standard_D3 con 4 núcleos, por lo que un clúster de nodos de 4 trabajos necesitará 24 núcleos (4*4 = 16 para nodos de trabajo, más 2*4 = 8 para nodos principales). Consulte Configuración de clústeres en HDInsight con Hadoop, Spark, Kafka, etc. para detalles.
linkedServiceName El servicio vinculado de Azure Storage que usará el clúster a petición para almacenar y procesar datos. El clúster de HDInsight se crea en la misma región que esta cuenta de Azure Storage. Azure HDInsight tiene limitaciones en el número total de núcleos que se pueden utilizar en cada región de Azure que admite. Asegúrese de que dispone de suficientes cuotas de núcleo en esa región de Azure para cumplir la propiedad clusterSize necesaria. Para detalles, consulte Configuración de clústeres en HDInsight con Hadoop, Spark, Kafka, etc.

Actualmente, no se puede crear un clúster de HDInsight a petición que utilice una instancia de Azure Data Lake Storage (Gen 2) como almacenamiento. Si desea almacenar los datos de resultados del procesamiento de HDInsight en una instancia de Azure Data Lake Storage (Gen 2), utilice una actividad de copia para copiar los datos desde Azure Blob Storage a Azure Data Lake Storage (Gen 2).

clusterResourceGroup El clúster de HDInsight se crea en este grupo de recursos.
timeToLive El tiempo de inactividad permitido para el clúster de HDInsight a petición. Especifica cuánto tiempo permanece activo el clúster de HDInsight a petición después de la finalización de una ejecución de actividad si no hay ningún otro trabajo activo en el clúster. El valor mínimo permitido es 5 minutos (00: 05:00).

Por ejemplo, si una ejecución de actividad tarda 6 minutos y timetolive está establecido en 5 minutos, el clúster permanece activo durante 5 minutos después de los 6 minutos de procesamiento de la ejecución de actividad. Si se ejecuta otra actividad con un margen de 6 minutos, la procesa el mismo clúster.

Crear un clúster de HDInsight a petición es una operación costosa (podría tardar un poco), así que use esta configuración si es necesario para mejorar el rendimiento del servicio mediante la reutilización de un clúster de HDInsight a petición.

Si establece el valor de timetolive en 0, el clúster se elimina en cuanto se completa la ejecución de la actividad. En cambio, si se establece un valor alto, el clúster puede permanecer inactivo para que usted pueda conectarse con fines de resolución de problemas, pero podría dar lugar a costos elevados. Por lo tanto, es importante que establezca el valor adecuado en función de sus necesidades.

Varias canalizaciones pueden compartir la instancia del clúster de HDInsight a petición si el valor de la propiedad timetolive está correctamente configurado.
clusterType Tipo de clúster de HDInsight que se va a crear. Los valores permitidos son "hadoop" y "spark". Si no se especifica, el valor predeterminado es hadoop. El clúster habilitado por Enterprise Security Package no se puede crear a petición, en su lugar, use un clúster existente o traiga su propio proceso. No
version Versión del clúster de HDInsight. Si no se especifica, se usa la versión predeterminada definida de HDInsight. No
hostSubscriptionId Identificador de suscripción de Azure usado para crear el clúster de HDInsight. Si no se especifica, utiliza el identificador de suscripción de su contexto de inicio de sesión de Azure. No
clusterNamePrefix Prefijo del nombre del clúster de HDI, una marca de tiempo se agrega automáticamente al final del nombre del clúster. No
sparkVersion Versión de spark si el tipo de clúster es "Spark" No
additionalLinkedServiceNames Especifica cuentas de almacenamiento adicionales para el servicio vinculado de HDInsight, de forma que el servicio pueda registrarlas en su nombre. Estas cuentas de almacenamiento deben estar en la misma región que el clúster de HDInsight, que se crea en la misma región que la cuenta de almacenamiento especificada por linkedServiceName. No
osType Tipo de sistema operativo. Los valores permitidos son: Linux y Windows (solo para HDInsight 3.3). El valor predeterminado es Linux. No
hcatalogLinkedServiceName Nombre del servicio vinculado de SQL de Azure que apunta a la base de datos de HCatalog. El clúster de HDInsight a petición se crea mediante la instancia de Azure SQL Database como el almacén de metadatos. No
connectVia Integration Runtime que se utilizará para enviar las actividades a este servicio vinculado de HDInsight. Para el servicio vinculado de HDInsight a petición, solo admite Azure Integration Runtime. Si no se especifica, se usará Azure Integration Runtime. No
clusterUserName Nombre de usuario de acceso al clúster. No
clusterPassword Contraseña de tipo cadena segura de acceso al clúster. No
clusterSshUserName Nombre de usuario para que SSH se conecte de forma remota al nodo del clúster (para Linux). No
clusterSshPassword Contraseña de tipo cadena segura para que SSH se conecte de forma remota al nodo del clúster (para Linux). No
scriptActions Especifique el script para personalizaciones de clúster de HDInsight durante la creación del clúster a petición.
Actualmente, la herramienta de creación de interfaces de usuario admite la especificación de únicamente 1 acción de script, pero puede superar esta limitación en JSON (aquí puede especificar varias acciones de script).
No

Importante

HDInsight es compatible con varias versiones de clústeres de Hadoop que se pueden implementar. Cada versión crea una versión específica de la distribución HortonWorks Data Platform (HDP) y un conjunto de componentes que están incluidos en esa distribución. La lista de versiones admitidas de HDInsight se sigue actualizando para proporcionar las correcciones y componentes de ecosistema más recientes de Hadoop. Asegúrese de que siempre hace referencia a la información más reciente de Versiones compatibles de HDInsight para asegurarse de que usa una versión compatible de HDInsight.

Importante

Actualmente, los servicios vinculados de HDInsight no son compatibles con HBase, Interactive Query (Hive LLAP), Storm.

  • Ejemplo JSON de additionalLinkedServiceNames
"additionalLinkedServiceNames": [{
    "referenceName": "MyStorageLinkedService2",
    "type": "LinkedServiceReference"          
}]

Autenticación de entidad de servicio

El servicio vinculado de HDInsight a petición requiere una autenticación de entidad de servicio para crear clústeres de HDInsight en su nombre. Para usar la autenticación de entidad de servicio, registre una entidad de aplicación en Microsoft Entra ID y concédale el rol de Colaborador de la suscripción o el grupo de recursos en el que se crea el clúster de HDInsight. Para obtener pasos detallados, consulte Uso del portal para crear una aplicación y una entidad de servicio de Microsoft Entra que puedan acceder a los recursos. Anote los siguientes valores; los usará para definir el servicio vinculado:

  • Identificador de aplicación
  • Clave de la aplicación
  • Id. de inquilino

Para usar la autenticación de la entidad de servicio, especifique las siguientes propiedades:

Propiedad Descripción Obligatorio
servicePrincipalId Especifique el id. de cliente de la aplicación.
servicePrincipalKey Especifique la clave de la aplicación.
tenant Especifique la información del inquilino (nombre de dominio o identificador de inquilino) en el que reside la aplicación. Para recuperarlo, mantenga el puntero del mouse en la esquina superior derecha de Azure Portal.

Propiedades avanzadas

También puede especificar las siguientes propiedades para la configuración granular del clúster de HDInsight a petición.

Propiedad Descripción Obligatorio
coreConfiguration Especifica los parámetros de configuración Core (como en core-site.xml) para crear el clúster de HDInsight. No
hBaseConfiguration Especifica los parámetros de configuración HBase (como en hbase-site.xml) para el clúster de HDInsight. No
hdfsConfiguration Especifica los parámetros de configuración HDFS (hdfs-site.xml) para el clúster de HDInsight. No
hiveConfiguration Especifica los parámetros de configuración Hive (hive-site.xml) para el clúster de HDInsight. No
mapReduceConfiguration Especifica los parámetros de configuración MapReduce (mapred-site.xml) para el clúster de HDInsight. No
oozieConfiguration Especifica los parámetros de configuración Oozie (oozie-site.xml) para el clúster de HDInsight. No
stormConfiguration Especifica los parámetros de configuración Storm (storm-site.xml) para el clúster de HDInsight. No
yarnConfiguration Especifica los parámetros de configuración Yarn (yarn-site.xml) para el clúster de HDInsight. No
  • Ejemplo: configuración del clúster de HDInsight a petición con propiedades avanzadas
{
    "name": " HDInsightOnDemandLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
          "clusterSize": 16,
          "timeToLive": "01:30:00",
          "hostSubscriptionId": "<subscription ID>",
          "servicePrincipalId": "<service principal ID>",
          "servicePrincipalKey": {
            "value": "<service principal key>",
            "type": "SecureString"
          },
          "tenant": "<tenant id>",
          "clusterResourceGroup": "<resource group name>",
          "version": "3.6",
          "osType": "Linux",
          "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
            },
            "coreConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "hiveConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "mapReduceConfiguration": {
                "mapreduce.reduce.java.opts": "-Xmx4000m",
                "mapreduce.map.java.opts": "-Xmx4000m",
                "mapreduce.map.memory.mb": "5000",
                "mapreduce.reduce.memory.mb": "5000",
                "mapreduce.job.reduce.slowstart.completedmaps": "0.8"
            },
            "yarnConfiguration": {
                "yarn.app.mapreduce.am.resource.mb": "5000",
                "mapreduce.map.memory.mb": "5000"
            },
            "additionalLinkedServiceNames": [{
                "referenceName": "MyStorageLinkedService2",
                "type": "LinkedServiceReference"          
            }]
        }
    },
      "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
}

Tamaño de nodo

Puede especificar los tamaños de los nodos principal, de datos y de zookeeper con las siguientes propiedades:

Propiedad Descripción Obligatorio
headNodeSize Especifica el tamaño del nodo principal. El valor predeterminado es: Standard_D3. Consulte la sección Especificación de tamaños de nodos para más información. No
dataNodeSize Especifica el tamaño del nodo de datos. El valor predeterminado es: Standard_D3. No
zookeeperNodeSize Especifica el tamaño del nodo de Zoo Keeper. El valor predeterminado es: Standard_D3. No
  • Especificación de tamaños de nodo Consulte el artículo Tamaños de máquinas virtuales para conocer los valores de cadena que debe especificar para las propiedades mencionadas anteriormente. Los valores deben ser conformes a los CMDLET y API a los que se hace referencia en el artículo. Como puede ver en el artículo, el nodo de datos de tamaño grande (predeterminado) tiene 7 GB de memoria, lo que podría no ser lo suficientemente bueno para su escenario.

Si quiere crear nodos de trabajo y principales de tamaño D4, especifique Standard_D4 para el valor de las propiedades headNodeSize y dataNodeSize.

"headNodeSize": "Standard_D4",    
"dataNodeSize": "Standard_D4",

Si especifica un valor incorrecto para estas propiedades, es posible que reciba el siguiente error: no se pudo crear el clúster. Excepción: No se puede completar la operación de creación del clúster. Error en la operación con el código '400'. El clúster generó el estado: “Error”. Mensaje: “PreClusterCreationValidationFailure”. Si recibe este error, asegúrese de que está usando el nombre de CMDLET y API de la tabla del artículo Tamaños de las máquinas virtuales.

Traer su propio entorno de procesos

En este tipo de configuración, los usuarios pueden registrar un entorno de procesos existente como un servicio vinculado. El usuario administra el entorno de procesos y el servicio lo usa para ejecutar las actividades.

Este tipo de configuración se admite para los entornos de procesos siguientes:

  • HDInsight de Azure
  • Azure Batch
  • Azure Machine Learning
  • Análisis con Azure Data Lake
  • Azure SQL Database, Azure Synapse Analytics, SQL Server

Servicio vinculado de HDInsight de Azure

Puede crear un servicio vinculado de Azure HDInsight para registrar su propio clúster de HDInsight con una factoría de datos o un área de trabajo de Synapse.

Ejemplo

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "userName": "username",
        "password": {
            "value": "passwordvalue",
            "type": "SecureString"
          },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Propiedades

Property Descripción Obligatorio
type La propiedad type se debe establecer en HDInsight.
clusterUri El URI del clúster de HDInsight.
username Especifique el nombre de usuario que se usará para conectarse a un clúster de HDInsight existente.
password Especifique la contraseña para la cuenta de usuario.
linkedServiceName Nombre del servicio vinculado para Azure Storage que hace referencia al almacenamiento Azure Blob Storage que usa el clúster de HDInsight.

Actualmente, no se puede especificar un servicio vinculado de Azure Data Lake Storage (Gen 2) para esta propiedad. Si el clúster de HDInsight tiene acceso a Data Lake Store, puede acceder a los datos de Azure Data Lake Storage (Gen 2) desde scripts de Hive/Pig.

isEspEnabled Especifique "true" si el clúster de HDInsight está habilitado por Enterprise Security Package. El valor predeterminado es "false". No
connectVia Integration Runtime que se utilizará para enviar las actividades a este servicio vinculado. Puede usar Azure Integration Runtime o Integration Runtime autohospedado. Si no se especifica, se usará Azure Integration Runtime.
Para un clúster de HDInsight habilitado por Enterprise Security Package use un runtime de integración autohospedado que tenga una línea de visión al clúster o deba implementarse dentro de la misma instancia de Virtual Network que el clúster de HDInsight de ESP.
No

Importante

HDInsight es compatible con varias versiones de clústeres de Hadoop que se pueden implementar. Cada versión crea una versión específica de la distribución HortonWorks Data Platform (HDP) y un conjunto de componentes que están incluidos en esa distribución. La lista de versiones admitidas de HDInsight se sigue actualizando para proporcionar las correcciones y componentes de ecosistema más recientes de Hadoop. Asegúrese de que siempre hace referencia a la información más reciente de Versiones compatibles de HDInsight para asegurarse de que usa una versión compatible de HDInsight.

Importante

Actualmente, los servicios vinculados de HDInsight no son compatibles con HBase, Interactive Query (Hive LLAP), Storm.

Servicio vinculado de Azure Batch

Nota

Se recomienda usar el módulo Azure Az de PowerShell para interactuar con Azure. Para comenzar, consulte Instalación de Azure PowerShell. Para más información sobre cómo migrar al módulo Az de PowerShell, consulte Migración de Azure PowerShell de AzureRM a Az.

Puede crear un servicio vinculado de Azure Batch para registrar un grupo de lotes de máquinas virtuales (VM) en una factoría de datos o un área de trabajo de Synapse. Puede ejecutar la actividad personalizada con Azure Batch.

Consulte los artículos siguientes si no está familiarizado con el servicio Azure Batch:

Importante

Al crear un grupo de Azure Batch nuevo, se debe usar "VirtualMachineConfiguration", NO "CloudServiceConfiguration". Para más información, consulte la guía de migración de grupos de Azure Batch.

Ejemplo

{
    "name": "AzureBatchLinkedService",
    "properties": {
      "type": "AzureBatch",
      "typeProperties": {
        "accountName": "batchaccount",
        "accessKey": {
          "type": "SecureString",
          "value": "access key"
        },
        "batchUri": "https://batchaccount.region.batch.azure.com",
        "poolName": "poolname",
        "linkedServiceName": {
          "referenceName": "StorageLinkedService",
          "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Propiedades

Property Descripción Obligatorio
type La propiedad type se debe establecer en AzureBatch.
accountName Nombre de la cuenta de Azure Batch.
accessKey Clave de acceso de la cuenta de Azure Batch.
batchUri Dirección URL a la cuenta de Azure Batch, con el formato https://nombrecuentabatch.región.batch.azure.com.
poolName Nombre del grupo de máquinas virtuales.
linkedServiceName Nombre del servicio vinculado de Azure Storage asociado a este servicio vinculado de Azure Batch. Este servicio vinculado se usa para los archivos de almacenamiento provisional necesarios para ejecutar la actividad.
connectVia Integration Runtime que se utilizará para enviar las actividades a este servicio vinculado. Puede usar Azure Integration Runtime o Integration Runtime autohospedado. Si no se especifica, se usará Azure Integration Runtime. No

Servicio vinculado de Machine Learning Studio (clásico)

Importante

La compatibilidad con Estudio de Azure Machine Learning (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

Desde el 1 de diciembre de 2021, no se puede crear nuevos recursos de Estudio de Machine Learning (clásico) (área de trabajo y plan de servicio web). Hasta el 31 de agosto de 2024, podrá seguir usando los experimentos y servicios web existentes de Estudio de Machine Learning (clásico). Para más información, vea:

La documentación de Machine Learning Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Un servicio vinculado de Machine Learning Studio (clásico) se crea para registrar un punto de conexión de puntuación por lotes de Machine Learning Studio (clásico) en una factoría de datos o un área de trabajo de Synapse.

Ejemplo

{
    "name": "AzureMLLinkedService",
    "properties": {
      "type": "AzureML",
      "typeProperties": {
        "mlEndpoint": "https://[batch scoring endpoint]/jobs",
        "apiKey": {
            "type": "SecureString",
            "value": "access key"
        }
     },
     "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
}

Propiedades

Property Descripción Obligatorio
Tipo La propiedad type se debe establecer en: AzureML.
mlEndpoint La dirección URL de puntuación por lotes.
apiKey API del modelo de área de trabajo publicado.
updateResourceEndpoint Dirección URL de recursos de actualización para un punto de conexión de servicio web de ML Studio (clásico) utilizado para actualizar el servicio web predictivo con el archivo del modelo entrenado. No
servicePrincipalId Especifique el id. de cliente de la aplicación. Obligatorio si se especifica updateResourceEndpoint
servicePrincipalKey Especifique la clave de la aplicación. Obligatorio si se especifica updateResourceEndpoint
tenant Especifique la información del inquilino (nombre de dominio o identificador de inquilino) en el que reside la aplicación. Para recuperarlo, mantenga el puntero del mouse en la esquina superior derecha de Azure Portal. Obligatorio si se especifica updateResourceEndpoint
connectVia Integration Runtime que se utilizará para enviar las actividades a este servicio vinculado. Puede usar Azure Integration Runtime o Integration Runtime autohospedado. Si no se especifica, se usará Azure Integration Runtime. No

Servicio vinculado de Azure Machine Learning

Un servicio vinculado de Azure Machine Learning se crea para conectar un área de trabajo de Azure Machine Learning a una factoría de datos o un área de trabajo de Synapse.

Nota:

Actualmente, solo la autenticación de entidad de servicio se admite para el servicio vinculado de Azure Machine Learning.

Ejemplo

{
    "name": "AzureMLServiceLinkedService",
    "properties": {
        "type": "AzureMLService",
        "typeProperties": {
            "subscriptionId": "subscriptionId",
            "resourceGroupName": "resourceGroupName",
            "mlWorkspaceName": "mlWorkspaceName",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime?",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Propiedades

Property Descripción Obligatorio
Tipo La propiedad type se debe establecer en: AzureMLService.
subscriptionId Identificador de suscripción de Azure
resourceGroupName name
mlWorkspaceName Nombre de las áreas de trabajo de Azure Machine Learning
servicePrincipalId Especifique el id. de cliente de la aplicación.
servicePrincipalKey Especifique la clave de la aplicación.
tenant Especifique la información del inquilino (nombre de dominio o identificador de inquilino) en el que reside la aplicación. Para recuperarlo, mantenga el puntero del mouse en la esquina superior derecha de Azure Portal. Obligatorio si se especifica updateResourceEndpoint
connectVia Integration Runtime que se utilizará para enviar las actividades a este servicio vinculado. Puede usar Azure Integration Runtime o Integration Runtime autohospedado. Si no se especifica, se usará Azure Integration Runtime. No

Servicio vinculado de Azure Data Lake Analytics

Un servicio vinculado de Azure Data Lake Analytics se crea para vincular un servicio de proceso de Azure Data Lake Analytics a una factoría de datos o un área de trabajo de Synapse. La actividad de U-SQL de Data Lake Analytics de la canalización hace referencia a este servicio vinculado.

Ejemplo

{
    "name": "AzureDataLakeAnalyticsLinkedService",
    "properties": {
        "type": "AzureDataLakeAnalytics",
        "typeProperties": {
            "accountName": "adftestaccount",
            "dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID",
            "subscriptionId": "<optional, subscription ID of ADLA>",
            "resourceGroupName": "<optional, resource group name of ADLA>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Propiedades

Property Descripción Obligatorio
type La propiedad type se debe establecer en: AzureDataLakeAnalytics.
accountName Nombre de la cuenta de Análisis de Azure Data Lake
dataLakeAnalyticsUri Identificador URI de Análisis de Azure Data Lake. No
subscriptionId Identificador de suscripción de Azure No
resourceGroupName Nombre del grupo de recursos de Azure No
servicePrincipalId Especifique el id. de cliente de la aplicación.
servicePrincipalKey Especifique la clave de la aplicación.
tenant Especifique la información del inquilino (nombre de dominio o identificador de inquilino) en el que reside la aplicación. Para recuperarlo, mantenga el puntero del mouse en la esquina superior derecha de Azure Portal.
connectVia Integration Runtime que se utilizará para enviar las actividades a este servicio vinculado. Puede usar Azure Integration Runtime o Integration Runtime autohospedado. Si no se especifica, se usará Azure Integration Runtime. No

Servicio vinculado de Azure Databricks

Puede crear un servicio vinculado de Azure Databricks para registrar el área de trabajo de Databricks que utiliza para ejecutar las cargas de trabajo (cuadernos, jar, python) de Databricks.

Importante

Los servicios vinculados de Databricks admiten grupos de instancias y la autenticación de identidades administradas asignadas por el sistema.

Ejemplo: uso de un clúster de trabajo nuevo en Databricks

{
    "name": "AzureDatabricks_LS",
    "properties": {
        "type": "AzureDatabricks",
        "typeProperties": {
            "domain": "https://eastus.azuredatabricks.net",
            "newClusterNodeType": "Standard_D3_v2",
            "newClusterNumOfWorker": "1:10",
            "newClusterVersion": "4.0.x-scala2.11",
            "accessToken": {
                "type": "SecureString",
                "value": "YourAccessToken"
            }
        }
    }
}

Ejemplo: uso de un clúster interactivo existente en Databricks

{
    "name": " AzureDataBricksLinkedService",
    "properties": {
      "type": " AzureDatabricks",
      "typeProperties": {
        "domain": "https://westeurope.azuredatabricks.net",
        "accessToken": {
            "type": "SecureString", 
            "value": "YourAccessToken"
          },
        "existingClusterId": "{clusterId}"
        }
}

Propiedades

Property Descripción Obligatorio
name Nombre del servicio vinculado
type La propiedad type se debe establecer en: Azure Databricks.
dominio Especifica la región de Azure según corresponda en función de la región del área de trabajo de Databricks. Ejemplo: https://eastus.azuredatabricks.net
accessToken El token de acceso es necesario para que el servicio se autentique en Azure Databricks. El token de acceso debe generarse a partir del área de trabajo de Databricks. Aquí encontrará más pasos detallados para encontrar el token de acceso. No
MSI Use la identidad administrada del servicio (asignada por el sistema) para autenticarse en Azure Databricks. No es necesario un token de acceso cuando se usa la autenticación de "MSI". Puede encontrar más detalles sobre la autenticación de identidad administrada aquí. No
existingClusterId Identificador de un clúster existente para ejecutar todos los trabajos en él. Debe tratarse de un clúster interactivo que ya se haya creado. Es posible que tenga que reiniciar manualmente el clúster si deja de responder. Databricks sugiere la ejecución de trabajos en clústeres nuevos para mayor confiabilidad. Encontrará el identificador del clúster interactivo en el área de trabajo de Databricks -> Clústeres -> Nombre del clúster interactivo -> Configuración -> Etiquetas. Más detalles No
instancePoolId Identificador del grupo de instancias de un grupo existente en el área de trabajo de Databricks. No
newClusterVersion Versión de Spark del clúster. Crea un clúster de trabajo en Databricks. No
newClusterNumOfWorker Número de nodos de trabajo que debería tener este clúster. Los clústeres tienen un controlador de Spark y num_workers ejecutores para un total de num_workers + 1 nodos de Spark. Cadena con formato Int32, en que "1" significa que numOfWorker es 1 o que "1:10" significa que la escala automática va de 1 como mínimo a 10 como máximo. No
newClusterNodeType Este campo codifica, mediante un solo valor, los recursos disponibles para cada uno de los nodos de Spark de este clúster. Por ejemplo, los nodos de Spark se pueden aprovisionar y optimizar para cargas de trabajo intensivas de memoria o proceso. Este campo es obligatorio para el nuevo clúster. No
newClusterSparkConf Conjunto de pares de clave-valor de configuración de Spark opcionales especificado por el usuario. Los usuarios también pueden pasar una cadena de opciones adicionales de JVM al controlador y los ejecutores con spark.driver.extraJavaOptions y spark.executor.extraJavaOptions respectivamente. No
newClusterInitScripts Conjunto de scripts de inicialización opcional definido por el usuario para el nuevo clúster. Puede especificar los scripts de inicialización en los archivos del área de trabajo (recomendado) o a través de la ruta de acceso de DBFS (heredada). No

Servicio vinculado de Azure SQL Database

Cree un servicio vinculado de Azure SQL y úselo con la actividad de procedimiento almacenado para invocar un procedimiento almacenado desde una canalización. Vea el artículo Conector SQL de Azure para más información sobre este servicio vinculado.

Servicio vinculado Azure Synapse Analytics

Cree un servicio vinculado de Azure Synapse Analytics y úselo con la actividad de procedimiento almacenado para invocar un procedimiento almacenado desde una canalización. Para obtener más información sobre este servicio vinculado, consulte el artículo Azure Synapse Analytics Connector.

Servicio vinculado de SQL Server

Cree un servicio vinculado de SQL Server y úselo con la actividad de procedimiento almacenado para invocar un procedimiento almacenado desde una canalización. Consulte el artículo sobre el conector de SQL Server para más información acerca de este servicio vinculado.

Servicio vinculado de Azure Synapse Analytics (Artifacts)

Cree un servicio vinculado de Azure Synapse Analytics (Artifacts) y úselo con la Actividad de cuaderno de Synapse y la Actividad de definición de trabajo de Spark de Synapse.

Ejemplo

{
    "name": "AzureSynapseArtifacts",
    "type": "Microsoft.DataFactory/factories/linkedservice",
    "properties": {
      "properties": {
        "a":{
          "type": "String"
        }
      },
        "annotations": [],
        "type": "AzureSynapseArtifacts",
        "typeProperties": {
            "endpoint": "@{linkedService().a}",
            "authentication": "MSI",
            "workspaceResourceId": ""
        },
        "ConnectVia":{
          "referenceName": "integrationRuntime1",
          "type": "IntegrationRuntimeReference"
        }
    }
}

Propiedades

Propiedad Descripción Obligatorio
name Nombre del servicio vinculado
description descripción del servicio vinculado No
annotations anotaciones del servicio vinculado No
type La propiedad type debe establecerse en AzureSynapseArtifacts
endpoint Dirección URL de Azure Synapse Analytics
autenticación La configuración predeterminada es Identidad administrada asignada por el sistema.
workspaceResourceId id. de recurso del área de trabajo
connectVia El entorno de ejecución de integración que se usará para conectarse al almacén de datos. Puede usar Azure Integration Runtime. Si no se especifica, se usará Azure Integration Runtime. El entorno de ejecución de integración autohospedado no se admite actualmente.

Servicio vinculado de la función de Azure

Cree un servicio vinculado de función de Azure y úselo con la actividad de la función de Azure para ejecutar Azure Functions en una canalización. El tipo de valor devuelto de la función de Azure tiene que ser un elemento JObject válido. (Tenga en cuenta que JArrayno es un JObject.) Los tipos de valor devuelto que no sean JObject producen un error y generan el error de usuario El contenido de la respuesta no es un elemento JObject válido.

Propiedad Descripción Obligatorio
type La propiedad type debe establecerse en: AzureFunction
Dirección URL de Function App Dirección URL de la instancia de Azure Function App. El formato es https://<accountname>.azurewebsites.net. Esta dirección URL es el valor que aparece en la sección URL al visualizar la instancia de Function App en Azure Portal.
Tecla de función Tecla de acceso de la función de Azure. Haga clic en la sección Administrar de la función correspondiente y copie la tecla de función o la tecla del host. Obtenga más información aquí: Trabajar con claves de acceso

Para ver una lista de las actividades de transformación admitidas, consulte Transformación de datos.