Entornos de proceso compatibles con canalizaciones de Azure Data Factory y Synapse

Artículo
10/03/2024

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.

Importante

La compatibilidad con Estudio de Azure Machine Learning (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

Desde el 1 de diciembre de 2021, no se puede crear nuevos recursos de Estudio de Machine Learning (clásico) (área de trabajo y plan de servicio web). Hasta el 31 de agosto de 2024, podrá seguir usando los experimentos y servicios web existentes de Estudio de Machine Learning (clásico). Para más información, vea:

La documentación de Machine Learning Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

En este artículo se explican distintos entornos de procesos que se pueden usar para procesar o transformar datos. También se proporcionan detalles sobre las distintas configuraciones (a petición frente traiga la suya propia) admitidas al configurar servicios vinculados que vinculan estos entornos de proceso.

En la tabla siguiente se proporciona una lista de entornos de proceso admitidos y las actividades que se pueden ejecutar en ellos.

Entorno de procesos	Actividades
Clúster de HDInsight a petición o clúster HDInsight propio	Hive, Pig, Spark, MapReduce, Hadoop Streaming
Azure Batch	Personalizada
ML Studio (clásico)	Actividades de ML Studio (clásico): ejecución de lotes y recurso de actualización
Azure Machine Learning	Ejecución de canalización de Azure Machine Learning
Análisis con Azure Data Lake	U-SQL de análisis con Data Lake
Azure SQL, Azure Synapse Analytics, SQL Server	Procedimiento almacenado
Azure Databricks	Notebook, Jar, Python
Azure Synapse Analytics (Artifacts)	Actividad de Synapse Notebook, Definición de trabajo de Spark de Synapse
Función de Azure	Actividad de función de Azure

Entorno de procesos de HDInsight

Consulte la tabla siguiente para detalles sobre los tipos compatibles de servicio vinculado al almacenamiento para la configuración en un entorno a petición o BYOC (Bring Your Own Compute).

En servicio vinculado de proceso	Nombre de propiedad	Descripción	Blob	ADLS Gen2	Azure SQL DB	ADLS Gen1
A petición	linkedServiceName	El servicio vinculado de Azure Storage que usará el clúster a petición para almacenar y procesar datos.	Sí	Sí	No	No
	additionalLinkedServiceNames	Especifica cuentas de almacenamiento adicionales para el servicio vinculado de HDInsight, de forma que el servicio pueda registrarlas en su nombre.	Sí	No	N.º	No
	hcatalogLinkedServiceName	Nombre del servicio vinculado de SQL de Azure que apunta a la base de datos de HCatalog. El clúster de HDInsight a petición se crea mediante la base de datos de Azure SQL como el almacén de metadatos.	No	No	Sí	No
BYOC	linkedServiceName	La referencia del servicio vinculado de Azure Storage.	Sí	Sí	No	No
	additionalLinkedServiceNames	Especifica cuentas de almacenamiento adicionales para el servicio vinculado de HDInsight, de forma que el servicio pueda registrarlas en su nombre.	No	N.º	N.º	No
	hcatalogLinkedServiceName	Una referencia al servicio vinculado de Azure SQL que apunta a la base de datos de HCatalog.	No	N.º	N.º	No

Servicio vinculado a petición de HDInsight de Azure

En este tipo de configuración, el entorno de procesos está totalmente administrado por el servicio. El servicio lo crea automáticamente antes de que se envíe un trabajo para procesar los datos y se quita cuando finaliza el trabajo. Puede crear un servicio vinculado para el entorno de procesos a petición, configurarlo y controlar la configuración granular para la ejecución del trabajo, la administración del clúster y las acciones de arranque.

Nota

La configuración a petición solo se admite actualmente para los clústeres de HDInsight de Azure. Azure Databricks también admite trabajos a petición mediante el uso de clústeres de trabajo. Para más información, consulte Servicio vinculado de Azure Databricks.

El servicio puede crear automáticamente un clúster de HDInsight a petición para procesar los datos. El clúster se crea en la misma región que la cuenta de almacenamiento (propiedad linkedServiceName en JSON) asociada al clúster. La cuenta de almacenamiento must debe ser una cuenta de Azure Storage estándar de uso general.

Tenga en cuenta los siguientes puntos importantes acerca del servicio vinculado de HDInsight a petición:

El clúster de HDInsight a petición se crea bajo la suscripción de Azure. Es capaz de ver el clúster en Azure Portal cuando el clúster está activo y en ejecución.
Los registros de trabajos que se ejecutan en un clúster de HDInsight a petición se copian en la cuenta de almacenamiento asociada al clúster de HDInsight. clusterUserName, clusterPassword, clusterSshUserName y clusterSshPassword que aparecen en la definición del servicio vinculado se utilizan para iniciar sesión en el clúster para la solución de problemas detallada durante el ciclo de vida del clúster.
Se le cobrará solo por el tiempo en el que el clúster de HDInsight esté en ejecución y realizando trabajos.
Puede usar una acción de script con el servicio vinculado a petición de Azure HDInsight.

Importante

El aprovisionamiento bajo demanda de un clúster de Azure HDInsight suele tardar 20 minutos o más.

Ejemplo

En el siguiente JSON se define un servicio vinculado de HDInsight a petición basado en Linux. El servicio crea automáticamente un clúster de HDInsight basado en Linux para procesar la actividad requerida.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "servicePrincipalId": "<service principal ID>",
      "servicePrincipalKey": {
        "value": "<service principal key>",
        "type": "SecureString"
      },
      "tenant": "<tenant id>",
      "clusterResourceGroup": "<resource group name>",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Importante

El clúster de HDInsight crea un contenedor predeterminado en el almacenamiento de blobs que especificó en JSON (linkedServiceName). HDInsight no elimina este contenedor cuando se elimina el clúster. Este comportamiento es así por diseño. Con el servicio vinculado de HDInsight a petición se crea un clúster de HDInsight cada vez tenga que procesarse un segmento, a menos que haya un clúster existente activo (timeToLive), que se elimina cuando finaliza el procesamiento.

A medida que hay más actividad, verá numerosos contenedores en su Azure Blob Storage. Si no lo necesita para la resolución de problemas de los trabajos, es posible que desee eliminarlos para reducir el costo de almacenamiento. Los nombres de estos contenedores siguen un patrón: adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Use herramientas como el Explorador de Microsoft Azure Storage para eliminar contenedores de Azure Blob Storage.

Propiedades

Property	Descripción	Obligatorio
type	La propiedad type se debe establecer en HDInsightOnDemand.	Sí
clusterSize	Número de nodos de datos o trabajo del clúster El clúster de HDInsight se crea con dos nodos principales junto con el número de nodos de trabajo que haya especificado para esta propiedad. Los nodos son de tamaño Standard_D3 con 4 núcleos, por lo que un clúster de nodos de 4 trabajos necesitará 24 núcleos (44 = 16 para nodos de trabajo, más 24 = 8 para nodos principales). Consulte Configuración de clústeres en HDInsight con Hadoop, Spark, Kafka, etc. para detalles.	Sí
linkedServiceName	El servicio vinculado de Azure Storage que usará el clúster a petición para almacenar y procesar datos. El clúster de HDInsight se crea en la misma región que esta cuenta de Azure Storage. Azure HDInsight tiene limitaciones en el número total de núcleos que se pueden utilizar en cada región de Azure que admite. Asegúrese de que dispone de suficientes cuotas de núcleo en esa región de Azure para cumplir la propiedad clusterSize necesaria. Para detalles, consulte Configuración de clústeres en HDInsight con Hadoop, Spark, Kafka, etc. Actualmente, no se puede crear un clúster de HDInsight a petición que utilice una instancia de Azure Data Lake Storage (Gen 2) como almacenamiento. Si desea almacenar los datos de resultados del procesamiento de HDInsight en una instancia de Azure Data Lake Storage (Gen 2), utilice una actividad de copia para copiar los datos desde Azure Blob Storage a Azure Data Lake Storage (Gen 2).	Sí
clusterResourceGroup	El clúster de HDInsight se crea en este grupo de recursos.	Sí
timeToLive	El tiempo de inactividad permitido para el clúster de HDInsight a petición. Especifica cuánto tiempo permanece activo el clúster de HDInsight a petición después de la finalización de una ejecución de actividad si no hay ningún otro trabajo activo en el clúster. El valor mínimo permitido es 5 minutos (00: 05:00). Por ejemplo, si una ejecución de actividad tarda 6 minutos y timetolive está establecido en 5 minutos, el clúster permanece activo durante 5 minutos después de los 6 minutos de procesamiento de la ejecución de actividad. Si se ejecuta otra actividad con un margen de 6 minutos, la procesa el mismo clúster. Crear un clúster de HDInsight a petición es una operación costosa (podría tardar un poco), así que use esta configuración si es necesario para mejorar el rendimiento del servicio mediante la reutilización de un clúster de HDInsight a petición. Si establece el valor de timetolive en 0, el clúster se elimina en cuanto se completa la ejecución de la actividad. En cambio, si se establece un valor alto, el clúster puede permanecer inactivo para que usted pueda conectarse con fines de resolución de problemas, pero podría dar lugar a costos elevados. Por lo tanto, es importante que establezca el valor adecuado en función de sus necesidades. Varias canalizaciones pueden compartir la instancia del clúster de HDInsight a petición si el valor de la propiedad timetolive está correctamente configurado.	Sí
clusterType	Tipo de clúster de HDInsight que se va a crear. Los valores permitidos son "hadoop" y "spark". Si no se especifica, el valor predeterminado es hadoop. El clúster habilitado por Enterprise Security Package no se puede crear a petición, en su lugar, use un clúster existente o traiga su propio proceso.	No
version	Versión del clúster de HDInsight. Si no se especifica, se usa la versión predeterminada definida de HDInsight.	No
hostSubscriptionId	Identificador de suscripción de Azure usado para crear el clúster de HDInsight. Si no se especifica, utiliza el identificador de suscripción de su contexto de inicio de sesión de Azure.	No
clusterNamePrefix	Prefijo del nombre del clúster de HDI, una marca de tiempo se agrega automáticamente al final del nombre del clúster.	No
sparkVersion	Versión de spark si el tipo de clúster es "Spark"	No
additionalLinkedServiceNames	Especifica cuentas de almacenamiento adicionales para el servicio vinculado de HDInsight, de forma que el servicio pueda registrarlas en su nombre. Estas cuentas de almacenamiento deben estar en la misma región que el clúster de HDInsight, que se crea en la misma región que la cuenta de almacenamiento especificada por linkedServiceName.	No
osType	Tipo de sistema operativo. Los valores permitidos son: Linux y Windows (solo para HDInsight 3.3). El valor predeterminado es Linux.	No
hcatalogLinkedServiceName	Nombre del servicio vinculado de SQL de Azure que apunta a la base de datos de HCatalog. El clúster de HDInsight a petición se crea mediante la instancia de Azure SQL Database como el almacén de metadatos.	No
connectVia	Integration Runtime que se utilizará para enviar las actividades a este servicio vinculado de HDInsight. Para el servicio vinculado de HDInsight a petición, solo admite Azure Integration Runtime. Si no se especifica, se usará Azure Integration Runtime.	No
clusterUserName	Nombre de usuario de acceso al clúster.	No
clusterPassword	Contraseña de tipo cadena segura de acceso al clúster.	No
clusterSshUserName	Nombre de usuario para que SSH se conecte de forma remota al nodo del clúster (para Linux).	No
clusterSshPassword	Contraseña de tipo cadena segura para que SSH se conecte de forma remota al nodo del clúster (para Linux).	No
scriptActions	Especifique el script para personalizaciones de clúster de HDInsight durante la creación del clúster a petición. Actualmente, la herramienta de creación de interfaces de usuario admite la especificación de únicamente 1 acción de script, pero puede superar esta limitación en JSON (aquí puede especificar varias acciones de script).	No

Importante

HDInsight es compatible con varias versiones de clústeres de Hadoop que se pueden implementar. Cada versión crea una versión específica de la distribución HortonWorks Data Platform (HDP) y un conjunto de componentes que están incluidos en esa distribución. La lista de versiones admitidas de HDInsight se sigue actualizando para proporcionar las correcciones y componentes de ecosistema más recientes de Hadoop. Asegúrese de que siempre hace referencia a la información más reciente de Versiones compatibles de HDInsight para asegurarse de que usa una versión compatible de HDInsight.

Importante

Actualmente, los servicios vinculados de HDInsight no son compatibles con HBase, Interactive Query (Hive LLAP), Storm.

Ejemplo JSON de additionalLinkedServiceNames

"additionalLinkedServiceNames": [{
    "referenceName": "MyStorageLinkedService2",
    "type": "LinkedServiceReference"          
}]

Autenticación de entidad de servicio

El servicio vinculado de HDInsight a petición requiere una autenticación de entidad de servicio para crear clústeres de HDInsight en su nombre. Para usar la autenticación de entidad de servicio, registre una entidad de aplicación en Microsoft Entra ID y concédale el rol de Colaborador de la suscripción o el grupo de recursos en el que se crea el clúster de HDInsight. Para obtener pasos detallados, consulte Uso del portal para crear una aplicación y una entidad de servicio de Microsoft Entra que puedan acceder a los recursos. Anote los siguientes valores; los usará para definir el servicio vinculado:

Identificador de aplicación
Clave de la aplicación
Id. de inquilino

Para usar la autenticación de la entidad de servicio, especifique las siguientes propiedades:

Propiedad	Descripción	Obligatorio
servicePrincipalId	Especifique el id. de cliente de la aplicación.	Sí
servicePrincipalKey	Especifique la clave de la aplicación.	Sí
tenant	Especifique la información del inquilino (nombre de dominio o identificador de inquilino) en el que reside la aplicación. Para recuperarlo, mantenga el puntero del mouse en la esquina superior derecha de Azure Portal.	Sí

Propiedades avanzadas

También puede especificar las siguientes propiedades para la configuración granular del clúster de HDInsight a petición.

Propiedad	Descripción	Obligatorio
coreConfiguration	Especifica los parámetros de configuración Core (como en core-site.xml) para crear el clúster de HDInsight.	No
hBaseConfiguration	Especifica los parámetros de configuración HBase (como en hbase-site.xml) para el clúster de HDInsight.	No
hdfsConfiguration	Especifica los parámetros de configuración HDFS (hdfs-site.xml) para el clúster de HDInsight.	No
hiveConfiguration	Especifica los parámetros de configuración Hive (hive-site.xml) para el clúster de HDInsight.	No
mapReduceConfiguration	Especifica los parámetros de configuración MapReduce (mapred-site.xml) para el clúster de HDInsight.	No
oozieConfiguration	Especifica los parámetros de configuración Oozie (oozie-site.xml) para el clúster de HDInsight.	No
stormConfiguration	Especifica los parámetros de configuración Storm (storm-site.xml) para el clúster de HDInsight.	No
yarnConfiguration	Especifica los parámetros de configuración Yarn (yarn-site.xml) para el clúster de HDInsight.	No

Ejemplo: configuración del clúster de HDInsight a petición con propiedades avanzadas

{
    "name": " HDInsightOnDemandLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
          "clusterSize": 16,
          "timeToLive": "01:30:00",
          "hostSubscriptionId": "<subscription ID>",
          "servicePrincipalId": "<service principal ID>",
          "servicePrincipalKey": {
            "value": "<service principal key>",
            "type": "SecureString"
          },
          "tenant": "<tenant id>",
          "clusterResourceGroup": "<resource group name>",
          "version": "3.6",
          "osType": "Linux",
          "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
            },
            "coreConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "hiveConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "mapReduceConfiguration": {
                "mapreduce.reduce.java.opts": "-Xmx4000m",
                "mapreduce.map.java.opts": "-Xmx4000m",
                "mapreduce.map.memory.mb": "5000",
                "mapreduce.reduce.memory.mb": "5000",
                "mapreduce.job.reduce.slowstart.completedmaps": "0.8"
            },
            "yarnConfiguration": {
                "yarn.app.mapreduce.am.resource.mb": "5000",
                "mapreduce.map.memory.mb": "5000"
            },
            "additionalLinkedServiceNames": [{
                "referenceName": "MyStorageLinkedService2",
                "type": "LinkedServiceReference"          
            }]
        }
    },
      "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
}

Tamaño de nodo

Puede especificar los tamaños de los nodos principal, de datos y de zookeeper con las siguientes propiedades:

Propiedad	Descripción	Obligatorio
headNodeSize	Especifica el tamaño del nodo principal. El valor predeterminado es: Standard_D3. Consulte la sección Especificación de tamaños de nodos para más información.	No
dataNodeSize	Especifica el tamaño del nodo de datos. El valor predeterminado es: Standard_D3.	No
zookeeperNodeSize	Especifica el tamaño del nodo de Zoo Keeper. El valor predeterminado es: Standard_D3.	No

Especificación de tamaños de nodo Consulte el artículo Tamaños de máquinas virtuales para conocer los valores de cadena que debe especificar para las propiedades mencionadas anteriormente. Los valores deben ser conformes a los CMDLET y API a los que se hace referencia en el artículo. Como puede ver en el artículo, el nodo de datos de tamaño grande (predeterminado) tiene 7 GB de memoria, lo que podría no ser lo suficientemente bueno para su escenario.

Si quiere crear nodos de trabajo y principales de tamaño D4, especifique Standard_D4 para el valor de las propiedades headNodeSize y dataNodeSize.

"headNodeSize": "Standard_D4",    
"dataNodeSize": "Standard_D4",

Si especifica un valor incorrecto para estas propiedades, es posible que reciba el siguiente error: no se pudo crear el clúster. Excepción: No se puede completar la operación de creación del clúster. Error en la operación con el código '400'. El clúster generó el estado: “Error”. Mensaje: “PreClusterCreationValidationFailure”. Si recibe este error, asegúrese de que está usando el nombre de CMDLET y API de la tabla del artículo Tamaños de las máquinas virtuales.

Traer su propio entorno de procesos

En este tipo de configuración, los usuarios pueden registrar un entorno de procesos existente como un servicio vinculado. El usuario administra el entorno de procesos y el servicio lo usa para ejecutar las actividades.

Este tipo de configuración se admite para los entornos de procesos siguientes:

HDInsight de Azure
Azure Batch
Azure Machine Learning
Análisis con Azure Data Lake
Azure SQL Database, Azure Synapse Analytics, SQL Server

Servicio vinculado de HDInsight de Azure

Puede crear un servicio vinculado de Azure HDInsight para registrar su propio clúster de HDInsight con una factoría de datos o un área de trabajo de Synapse.

Ejemplo

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "userName": "username",
        "password": {
            "value": "passwordvalue",
            "type": "SecureString"
          },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Propiedades

Property	Descripción	Obligatorio
type	La propiedad type se debe establecer en HDInsight.	Sí
clusterUri	El URI del clúster de HDInsight.	Sí
username	Especifique el nombre de usuario que se usará para conectarse a un clúster de HDInsight existente.	Sí
password	Especifique la contraseña para la cuenta de usuario.	Sí
linkedServiceName	Nombre del servicio vinculado para Azure Storage que hace referencia al almacenamiento Azure Blob Storage que usa el clúster de HDInsight. Actualmente, no se puede especificar un servicio vinculado de Azure Data Lake Storage (Gen 2) para esta propiedad. Si el clúster de HDInsight tiene acceso a Data Lake Store, puede acceder a los datos de Azure Data Lake Storage (Gen 2) desde scripts de Hive/Pig.	Sí
isEspEnabled	Especifique "true" si el clúster de HDInsight está habilitado por Enterprise Security Package. El valor predeterminado es "false".	No
connectVia	Integration Runtime que se utilizará para enviar las actividades a este servicio vinculado. Puede usar Azure Integration Runtime o Integration Runtime autohospedado. Si no se especifica, se usará Azure Integration Runtime. Para un clúster de HDInsight habilitado por Enterprise Security Package use un runtime de integración autohospedado que tenga una línea de visión al clúster o deba implementarse dentro de la misma instancia de Virtual Network que el clúster de HDInsight de ESP.	No

Importante

Actualmente, los servicios vinculados de HDInsight no son compatibles con HBase, Interactive Query (Hive LLAP), Storm.

Servicio vinculado de Azure Batch

Nota

Se recomienda usar el módulo Azure Az de PowerShell para interactuar con Azure. Para comenzar, consulte Instalación de Azure PowerShell. Para más información sobre cómo migrar al módulo Az de PowerShell, consulte Migración de Azure PowerShell de AzureRM a Az.

Puede crear un servicio vinculado de Azure Batch para registrar un grupo de lotes de máquinas virtuales (VM) en una factoría de datos o un área de trabajo de Synapse. Puede ejecutar la actividad personalizada con Azure Batch.

Consulte los artículos siguientes si no está familiarizado con el servicio Azure Batch:

Aspectos básicos de Azure Batch para información general del servicio Azure Batch.
Cmdlet New-AzBatchAccount para crear una cuenta de Azure Batch, o Azure Portal para crear la cuenta de Azure Batch con Azure Portal. Consulte el artículo Using PowerShell to manage Azure Batch Account (Administración de cuentas de Azure Batch con PowerShell) para instrucciones detalladas sobre el uso del cmdlet.
New-AzBatchPool para crear un grupo de Azure Batch.

Importante

Al crear un grupo de Azure Batch nuevo, se debe usar "VirtualMachineConfiguration", NO "CloudServiceConfiguration". Para más información, consulte la guía de migración de grupos de Azure Batch.

Ejemplo

{
    "name": "AzureBatchLinkedService",
    "properties": {
      "type": "AzureBatch",
      "typeProperties": {
        "accountName": "batchaccount",
        "accessKey": {
          "type": "SecureString",
          "value": "access key"
        },
        "batchUri": "https://batchaccount.region.batch.azure.com",
        "poolName": "poolname",
        "linkedServiceName": {
          "referenceName": "StorageLinkedService",
          "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Propiedades

Property	Descripción	Obligatorio
type	La propiedad type se debe establecer en AzureBatch.	Sí
accountName	Nombre de la cuenta de Azure Batch.	Sí
accessKey	Clave de acceso de la cuenta de Azure Batch.	Sí
batchUri	Dirección URL a la cuenta de Azure Batch, con el formato https://nombrecuentabatch.región.batch.azure.com.	Sí
poolName	Nombre del grupo de máquinas virtuales.	Sí
linkedServiceName	Nombre del servicio vinculado de Azure Storage asociado a este servicio vinculado de Azure Batch. Este servicio vinculado se usa para los archivos de almacenamiento provisional necesarios para ejecutar la actividad.	Sí
connectVia	Integration Runtime que se utilizará para enviar las actividades a este servicio vinculado. Puede usar Azure Integration Runtime o Integration Runtime autohospedado. Si no se especifica, se usará Azure Integration Runtime.	No

Servicio vinculado de Machine Learning Studio (clásico)

Importante

La compatibilidad con Estudio de Azure Machine Learning (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

La documentación de Machine Learning Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Un servicio vinculado de Machine Learning Studio (clásico) se crea para registrar un punto de conexión de puntuación por lotes de Machine Learning Studio (clásico) en una factoría de datos o un área de trabajo de Synapse.

Ejemplo

{
    "name": "AzureMLLinkedService",
    "properties": {
      "type": "AzureML",
      "typeProperties": {
        "mlEndpoint": "https://[batch scoring endpoint]/jobs",
        "apiKey": {
            "type": "SecureString",
            "value": "access key"
        }
     },
     "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
}

Propiedades

Property	Descripción	Obligatorio
Tipo	La propiedad type se debe establecer en: AzureML.	Sí
mlEndpoint	La dirección URL de puntuación por lotes.	Sí
apiKey	API del modelo de área de trabajo publicado.	Sí
updateResourceEndpoint	Dirección URL de recursos de actualización para un punto de conexión de servicio web de ML Studio (clásico) utilizado para actualizar el servicio web predictivo con el archivo del modelo entrenado.	No
servicePrincipalId	Especifique el id. de cliente de la aplicación.	Obligatorio si se especifica updateResourceEndpoint
servicePrincipalKey	Especifique la clave de la aplicación.	Obligatorio si se especifica updateResourceEndpoint
tenant	Especifique la información del inquilino (nombre de dominio o identificador de inquilino) en el que reside la aplicación. Para recuperarlo, mantenga el puntero del mouse en la esquina superior derecha de Azure Portal.	Obligatorio si se especifica updateResourceEndpoint
connectVia	Integration Runtime que se utilizará para enviar las actividades a este servicio vinculado. Puede usar Azure Integration Runtime o Integration Runtime autohospedado. Si no se especifica, se usará Azure Integration Runtime.	No

Servicio vinculado de Azure Machine Learning

Un servicio vinculado de Azure Machine Learning se crea para conectar un área de trabajo de Azure Machine Learning a una factoría de datos o un área de trabajo de Synapse.

Nota:

Actualmente, solo la autenticación de entidad de servicio se admite para el servicio vinculado de Azure Machine Learning.

Ejemplo

{
    "name": "AzureMLServiceLinkedService",
    "properties": {
        "type": "AzureMLService",
        "typeProperties": {
            "subscriptionId": "subscriptionId",
            "resourceGroupName": "resourceGroupName",
            "mlWorkspaceName": "mlWorkspaceName",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime?",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Propiedades

Property	Descripción	Obligatorio
Tipo	La propiedad type se debe establecer en: AzureMLService.	Sí
subscriptionId	Identificador de suscripción de Azure	Sí
resourceGroupName	name	Sí
mlWorkspaceName	Nombre de las áreas de trabajo de Azure Machine Learning	Sí
servicePrincipalId	Especifique el id. de cliente de la aplicación.	Sí
servicePrincipalKey	Especifique la clave de la aplicación.	Sí
tenant	Especifique la información del inquilino (nombre de dominio o identificador de inquilino) en el que reside la aplicación. Para recuperarlo, mantenga el puntero del mouse en la esquina superior derecha de Azure Portal.	Obligatorio si se especifica updateResourceEndpoint
connectVia	Integration Runtime que se utilizará para enviar las actividades a este servicio vinculado. Puede usar Azure Integration Runtime o Integration Runtime autohospedado. Si no se especifica, se usará Azure Integration Runtime.	No

Servicio vinculado de Azure Data Lake Analytics

Un servicio vinculado de Azure Data Lake Analytics se crea para vincular un servicio de proceso de Azure Data Lake Analytics a una factoría de datos o un área de trabajo de Synapse. La actividad de U-SQL de Data Lake Analytics de la canalización hace referencia a este servicio vinculado.

Ejemplo

{
    "name": "AzureDataLakeAnalyticsLinkedService",
    "properties": {
        "type": "AzureDataLakeAnalytics",
        "typeProperties": {
            "accountName": "adftestaccount",
            "dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID",
            "subscriptionId": "<optional, subscription ID of ADLA>",
            "resourceGroupName": "<optional, resource group name of ADLA>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Propiedades

Property	Descripción	Obligatorio
type	La propiedad type se debe establecer en: AzureDataLakeAnalytics.	Sí
accountName	Nombre de la cuenta de Análisis de Azure Data Lake	Sí
dataLakeAnalyticsUri	Identificador URI de Análisis de Azure Data Lake.	No
subscriptionId	Identificador de suscripción de Azure	No
resourceGroupName	Nombre del grupo de recursos de Azure	No
servicePrincipalId	Especifique el id. de cliente de la aplicación.	Sí
servicePrincipalKey	Especifique la clave de la aplicación.	Sí
tenant	Especifique la información del inquilino (nombre de dominio o identificador de inquilino) en el que reside la aplicación. Para recuperarlo, mantenga el puntero del mouse en la esquina superior derecha de Azure Portal.	Sí
connectVia	Integration Runtime que se utilizará para enviar las actividades a este servicio vinculado. Puede usar Azure Integration Runtime o Integration Runtime autohospedado. Si no se especifica, se usará Azure Integration Runtime.	No

Servicio vinculado de Azure Databricks

Puede crear un servicio vinculado de Azure Databricks para registrar el área de trabajo de Databricks que utiliza para ejecutar las cargas de trabajo (cuadernos, jar, python) de Databricks.

Importante

Los servicios vinculados de Databricks admiten grupos de instancias y la autenticación de identidades administradas asignadas por el sistema.

Ejemplo: uso de un clúster de trabajo nuevo en Databricks

{
    "name": "AzureDatabricks_LS",
    "properties": {
        "type": "AzureDatabricks",
        "typeProperties": {
            "domain": "https://eastus.azuredatabricks.net",
            "newClusterNodeType": "Standard_D3_v2",
            "newClusterNumOfWorker": "1:10",
            "newClusterVersion": "4.0.x-scala2.11",
            "accessToken": {
                "type": "SecureString",
                "value": "YourAccessToken"
            }
        }
    }
}

Ejemplo: uso de un clúster interactivo existente en Databricks

{
    "name": " AzureDataBricksLinkedService",
    "properties": {
      "type": " AzureDatabricks",
      "typeProperties": {
        "domain": "https://westeurope.azuredatabricks.net",
        "accessToken": {
            "type": "SecureString", 
            "value": "YourAccessToken"
          },
        "existingClusterId": "{clusterId}"
        }
}

Propiedades

Property	Descripción	Obligatorio
name	Nombre del servicio vinculado	Sí
type	La propiedad type se debe establecer en: Azure Databricks.	Sí
dominio	Especifica la región de Azure según corresponda en función de la región del área de trabajo de Databricks. Ejemplo: https://eastus.azuredatabricks.net	Sí
accessToken	El token de acceso es necesario para que el servicio se autentique en Azure Databricks. El token de acceso debe generarse a partir del área de trabajo de Databricks. Aquí encontrará más pasos detallados para encontrar el token de acceso.	No
MSI	Use la identidad administrada del servicio (asignada por el sistema) para autenticarse en Azure Databricks. No es necesario un token de acceso cuando se usa la autenticación de "MSI". Puede encontrar más detalles sobre la autenticación de identidad administrada aquí.	No
existingClusterId	Identificador de un clúster existente para ejecutar todos los trabajos en él. Debe tratarse de un clúster interactivo que ya se haya creado. Es posible que tenga que reiniciar manualmente el clúster si deja de responder. Databricks sugiere la ejecución de trabajos en clústeres nuevos para mayor confiabilidad. Encontrará el identificador del clúster interactivo en el área de trabajo de Databricks -> Clústeres -> Nombre del clúster interactivo -> Configuración -> Etiquetas. Más detalles	No
instancePoolId	Identificador del grupo de instancias de un grupo existente en el área de trabajo de Databricks.	No
newClusterVersion	Versión de Spark del clúster. Crea un clúster de trabajo en Databricks.	No
newClusterNumOfWorker	Número de nodos de trabajo que debería tener este clúster. Los clústeres tienen un controlador de Spark y num_workers ejecutores para un total de num_workers + 1 nodos de Spark. Cadena con formato Int32, en que "1" significa que numOfWorker es 1 o que "1:10" significa que la escala automática va de 1 como mínimo a 10 como máximo.	No
newClusterNodeType	Este campo codifica, mediante un solo valor, los recursos disponibles para cada uno de los nodos de Spark de este clúster. Por ejemplo, los nodos de Spark se pueden aprovisionar y optimizar para cargas de trabajo intensivas de memoria o proceso. Este campo es obligatorio para el nuevo clúster.	No
newClusterSparkConf	Conjunto de pares de clave-valor de configuración de Spark opcionales especificado por el usuario. Los usuarios también pueden pasar una cadena de opciones adicionales de JVM al controlador y los ejecutores con spark.driver.extraJavaOptions y spark.executor.extraJavaOptions respectivamente.	No
newClusterInitScripts	Conjunto de scripts de inicialización opcional definido por el usuario para el nuevo clúster. Puede especificar los scripts de inicialización en los archivos del área de trabajo (recomendado) o a través de la ruta de acceso de DBFS (heredada).	No

Servicio vinculado de Azure SQL Database

Cree un servicio vinculado de Azure SQL y úselo con la actividad de procedimiento almacenado para invocar un procedimiento almacenado desde una canalización. Vea el artículo Conector SQL de Azure para más información sobre este servicio vinculado.

Servicio vinculado Azure Synapse Analytics

Cree un servicio vinculado de Azure Synapse Analytics y úselo con la actividad de procedimiento almacenado para invocar un procedimiento almacenado desde una canalización. Para obtener más información sobre este servicio vinculado, consulte el artículo Azure Synapse Analytics Connector.

Servicio vinculado de SQL Server

Cree un servicio vinculado de SQL Server y úselo con la actividad de procedimiento almacenado para invocar un procedimiento almacenado desde una canalización. Consulte el artículo sobre el conector de SQL Server para más información acerca de este servicio vinculado.

Servicio vinculado de Azure Synapse Analytics (Artifacts)

Cree un servicio vinculado de Azure Synapse Analytics (Artifacts) y úselo con la Actividad de cuaderno de Synapse y la Actividad de definición de trabajo de Spark de Synapse.

Ejemplo

{
    "name": "AzureSynapseArtifacts",
    "type": "Microsoft.DataFactory/factories/linkedservice",
    "properties": {
      "properties": {
        "a":{
          "type": "String"
        }
      },
        "annotations": [],
        "type": "AzureSynapseArtifacts",
        "typeProperties": {
            "endpoint": "@{linkedService().a}",
            "authentication": "MSI",
            "workspaceResourceId": ""
        },
        "ConnectVia":{
          "referenceName": "integrationRuntime1",
          "type": "IntegrationRuntimeReference"
        }
    }
}

Propiedades

Propiedad	Descripción	Obligatorio
name	Nombre del servicio vinculado	Sí
description	descripción del servicio vinculado	No
annotations	anotaciones del servicio vinculado	No
type	La propiedad type debe establecerse en AzureSynapseArtifacts	Sí
endpoint	Dirección URL de Azure Synapse Analytics	Sí
autenticación	La configuración predeterminada es Identidad administrada asignada por el sistema.	Sí
workspaceResourceId	id. de recurso del área de trabajo	Sí
connectVia	El entorno de ejecución de integración que se usará para conectarse al almacén de datos. Puede usar Azure Integration Runtime. Si no se especifica, se usará Azure Integration Runtime. El entorno de ejecución de integración autohospedado no se admite actualmente.	Sí

Servicio vinculado de la función de Azure

Cree un servicio vinculado de función de Azure y úselo con la actividad de la función de Azure para ejecutar Azure Functions en una canalización. El tipo de valor devuelto de la función de Azure tiene que ser un elemento JObject válido. (Tenga en cuenta que JArrayno es un JObject.) Los tipos de valor devuelto que no sean JObject producen un error y generan el error de usuario El contenido de la respuesta no es un elemento JObject válido.

Propiedad	Descripción	Obligatorio
type	La propiedad type debe establecerse en: AzureFunction	sí
Dirección URL de Function App	Dirección URL de la instancia de Azure Function App. El formato es `https://<accountname>.azurewebsites.net`. Esta dirección URL es el valor que aparece en la sección URL al visualizar la instancia de Function App en Azure Portal.	sí
Tecla de función	Tecla de acceso de la función de Azure. Haga clic en la sección Administrar de la función correspondiente y copie la tecla de función o la tecla del host. Obtenga más información aquí: Trabajar con claves de acceso	sí

Para ver una lista de las actividades de transformación admitidas, consulte Transformación de datos.

Compartir vía

Entornos de proceso compatibles con canalizaciones de Azure Data Factory y Synapse

Entorno de procesos de HDInsight

Servicio vinculado a petición de HDInsight de Azure

Ejemplo

Propiedades

Autenticación de entidad de servicio

Propiedades avanzadas

Tamaño de nodo

Traer su propio entorno de procesos

Servicio vinculado de HDInsight de Azure

Ejemplo

Propiedades

Servicio vinculado de Azure Batch

Ejemplo

Propiedades

Servicio vinculado de Machine Learning Studio (clásico)

Ejemplo

Propiedades

Servicio vinculado de Azure Machine Learning

Ejemplo

Propiedades

Servicio vinculado de Azure Data Lake Analytics

Ejemplo

Propiedades

Servicio vinculado de Azure Databricks

Ejemplo: uso de un clúster de trabajo nuevo en Databricks

Ejemplo: uso de un clúster interactivo existente en Databricks

Propiedades

Servicio vinculado de Azure SQL Database

Servicio vinculado Azure Synapse Analytics

Servicio vinculado de SQL Server

Servicio vinculado de Azure Synapse Analytics (Artifacts)

Ejemplo

Propiedades

Servicio vinculado de la función de Azure

Comentarios

Recursos adicionales

Compartir vía

Entornos de proceso compatibles con canalizaciones de Azure Data Factory y Synapse

Entorno de procesos de HDInsight

Servicio vinculado a petición de HDInsight de Azure

Ejemplo

Propiedades

Autenticación de entidad de servicio

Propiedades avanzadas

Tamaño de nodo

Traer su propio entorno de procesos

Servicio vinculado de HDInsight de Azure

Ejemplo

Propiedades

Servicio vinculado de Azure Batch

Ejemplo

Propiedades

Servicio vinculado de Machine Learning Studio (clásico)

Ejemplo

Propiedades

Servicio vinculado de Azure Machine Learning

Ejemplo

Propiedades

Servicio vinculado de Azure Data Lake Analytics

Ejemplo

Propiedades

Servicio vinculado de Azure Databricks

Ejemplo: uso de un clúster de trabajo nuevo en Databricks

Ejemplo: uso de un clúster interactivo existente en Databricks

Propiedades

Servicio vinculado de Azure SQL Database

Servicio vinculado Azure Synapse Analytics

Servicio vinculado de SQL Server

Servicio vinculado de Azure Synapse Analytics (Artifacts)

Ejemplo

Propiedades

Servicio vinculado de la función de Azure

Contenido relacionado

Comentarios

Recursos adicionales