Partager via


Environnements Compute pris en charge par les pipelines Azure Data Factory et Synapse

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

Important

La prise en charge d’Azure Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

Depuis le 1er décembre 2021, vous ne pouvez plus créer de nouvelles ressources Machine Learning Studio (classique) (plan d’espace de travail et de service web). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les expériences et services web Machine Learning Studio (classique) existants. Pour plus d’informations, consultez l’article suivant :

La documentation de Machine Learning Studio (classique) est en cours de retrait et pourrait ne pas être mise à jour à l’avenir.

Cet article décrit les différents environnements de calcul que vous pouvez utiliser pour traiter ou transformer des données. Il fournit également des détails sur les différentes configurations (à la demande ou de type « apporter votre propre configuration ») prises en charge lors de la configuration des services liés qui relient ces environnements Compute.

Le tableau suivant fournit une liste d’environnements Compute pris en charge et les activités qui peuvent s’exécuter sur ces derniers.

Environnement de calcul Activités
Cluster HDInsight à la demande ou votre propre cluster HDInsight Hive, Pig, Spark, MapReduce, Streaming Hadoop
Azure Batch Personnalisée
ML Studio (classique) Activités ML Studio (classique) : Batch Execution et Update Resource
Azure Machine Learning Activité d’exécution des pipelines Azure Machine Learning
Service Analytique Azure Data Lake Langage U-SQL du service Analytique Data Lake
Azure SQL, Azure Synapse Analytics, SQL Server Procédure stockée
Azure Databricks Notebook, Jar, Python
Azure Synapse Analytics (Artifacts) Activité Synapse Notebook, définition de travail Synapse Spark
Fonction Azure Activité de fonction Azure

Environnement de calcul HDInsight à la demande

Reportez-vous au tableau ci-dessous pour plus d’informations sur les types de services liés de stockage pris en charge pour la configuration dans des environnements à la demande et BYOC.

Dans Services liés de calcul Nom de la propriété Description Objet blob ADLS Gen2 Azure SQL DB ADLS Gen 1
À la demande linkedServiceName Le service lié Azure Storage utilisé par le cluster à la demande pour le stockage et le traitement des données. Oui Oui No Non
additionalLinkedServiceNames Comptes de stockage supplémentaires pour le service lié HDInsight, que le service peut inscrire pour vous. Oui No Non Non
hcatalogLinkedServiceName Le nom du service lié à SQL Azure pointant vers la base de données HCatalog. Le cluster HDInsight à la demande est créé en utilisant la base de données Azure SQL en tant que metastore. Non Non Oui Non
BYOC linkedServiceName Référence du service lié Stockage Azure. Oui Oui No Non
additionalLinkedServiceNames Comptes de stockage supplémentaires pour le service lié HDInsight, que le service peut inscrire pour vous. Non Non Non Non
hcatalogLinkedServiceName Nom du service lié Azure SQL pointant vers la base de données HCatalog. Non Non Non Non

Service lié à la demande Azure HDInsight

Dans ce type de configuration, l'environnement de calcul est entièrement géré par le service. Il est automatiquement créé par le service avant qu'une tâche de traitement des données ne soit soumise, puis il est supprimé lorsque la tâche est terminée. Vous pouvez créer un service lié pour un environnement de calcul à la demande, le configurer et contrôler les paramètres granulaires pour l'exécution de la tâche, la gestion du cluster et les actions d'amorçage.

Notes

La configuration à la demande est actuellement prise en charge uniquement pour les clusters Azure HDInsight. Azure Databricks prend également en charge les travaux à la demande en utilisant des clusters de travail. Pour plus d’informations, consultez Service Azure Databricks lié.

Le service peut créer automatiquement un cluster HDInsight à la demande pour traiter des données. Le cluster est créé dans la même région que celle du compte de stockage (propriété linkedServiceName dans JSON) associé au cluster. Le compte de stockage must doit être un compte Stockage Azure standard universel.

Notez les points importants suivants sur le service lié HDInsight à la demande :

  • Le cluster HDInsight à la demande est créé sous votre abonnement Azure. Vous pouvez voir le cluster dans votre portail Azure lorsque le cluster est opérationnel.
  • Les journaux d’activité des tâches exécutées sur un cluster HDInsight à la demande sont copiés dans le compte de stockage associé au cluster HDInsight. Les valeurs clusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword spécifiées dans votre définition de service lié sont utilisées pour la connexion au cluster à des fins de dépannage approfondi pendant le cycle de vie du cluster.
  • Vous êtes facturé uniquement lorsque le cluster HDInsight est actif et exécute des tâches.
  • Vous pouvez utiliser une action de script avec le service lié à la demande Azure HDInsight.

Important

Il faut généralement au moins 20 minutes pour mettre en service un cluster Azure HDInsight à la demande.

Exemple

Le JSON suivant définit un service lié HDInsight à la demande sous Linux. Le service crée automatiquement un cluster HDInsight Linux pour traiter l’activité requise.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "servicePrincipalId": "<service principal ID>",
      "servicePrincipalKey": {
        "value": "<service principal key>",
        "type": "SecureString"
      },
      "tenant": "<tenant id>",
      "clusterResourceGroup": "<resource group name>",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Important

Le cluster HDInsight crée un conteneur par défaut dans le stockage d’objets blob que vous avez spécifié dans le JSON (linkedServiceName). HDInsight ne supprime pas ce conteneur lorsque le cluster est supprimé. Ce comportement est normal. Avec le service lié HDInsight à la demande, un cluster HDInsight est créé à chaque fois qu’une tranche doit être traitée, à moins qu’il n’existe un cluster activé (timeToLive), et est supprimé une fois le traitement activé.

Pendant la poursuite de l’activité, vous voyez de nombreux conteneurs dans votre Stockage Blob Azure. Si vous n’en avez pas besoin pour dépanner les travaux, vous pouvez les supprimer afin de réduire les frais de stockage. Les noms de ces conteneurs sont conformes au modèle suivant : adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Utilisez des outils tels que l’Explorateur Stockage Microsoft Azure pour supprimer des conteneurs dans votre stockage Blob Azure.

Propriétés

Property Description Obligatoire
type La propriété de type doit être définie sur HDInsightOnDemand. Oui
clusterSize Nombre de nœuds worker/données dans le cluster. Le cluster HDInsight est créé avec 2 nœuds principaux et le nombre de nœuds worker que vous spécifiez pour cette propriété. Les nœuds étant de taille Standard_D3 à 4 cœurs, un cluster à 4 nœuds de travail prend 24 cœurs (4*4 = 16 cœurs pour les nœuds Worker + 2*4 = 8 cœurs pour les nœuds principaux). Pour plus de détails, voir Configurer des clusters dans HDInsight avec Hadoop, Spark, Kafka et bien plus encore. Oui
linkedServiceName Le service lié Azure Storage utilisé par le cluster à la demande pour le stockage et le traitement des données. Le cluster HDInsight est créé dans la même région que ce compte de stockage Azure. Azure HDInsight présente une limite relative au nombre total de cœurs que vous pouvez utiliser dans chaque région Azure prise en charge. Assurez-vous que vous disposez de quotas de cœurs suffisants dans cette région Azure pour offrir la taille de cluster requise. Pour plus de détails, voir, Configurer des clusters dans HDInsight avec Hadoop, Spark, Kafka et bien plus encore

Actuellement, vous ne pouvez pas créer un cluster HDInsight à la demande qui utilise Azure Data Lake Storage (Gen2) en guise de stockage. Si vous souhaitez stocker les données de résultat à partir du traitement HDInsight dans Azure Data Lake Storage (Gen2), utilisez une activité de copie pour copier les données de Stockage Blob Azure dans Azure Data Lake Storage (Gen2).

Oui
clusterResourceGroup Le cluster HDInsight est créé dans ce groupe de ressources. Oui
timetolive La durée d’inactivité autorisée pour le cluster HDInsight à la demande. Spécifie la durée pendant laquelle le cluster HDInsight à la demande reste actif après l’achèvement d’une exécution d’activité s’il n’existe aucun autre travail actif dans le cluster. La valeur minimale autorisée est 5 minutes (00:05:00).

Par exemple, si une exécution d’activité prend 6 minutes et si la propriété TimeToLive est définie sur 5 minutes, le cluster reste actif pendant 5 minutes après les 6 minutes du traitement de l’exécution d’activité. Si une autre exécution d’activité intervient dans la fenêtre de 6 minutes, elle est traitée par le même cluster.

La création d’un cluster HDInsight à la demande étant une opération coûteuse (elle peut prendre du temps), utilisez ce paramètre selon le besoin pour améliorer les performances du service en réutilisant un cluster HDInsight à la demande.

Si vous définissez la valeur de la propriété TimeToLive sur 0, le cluster est supprimé dès que l’exécution d’activité est terminée. Alors que, si vous définissez une valeur élevée, le cluster peut rester inactif pour vous permettre de vous connecter à des fins de dépannage, mais cela peut entraîner des coûts importants. Par conséquent, il est important de définir la valeur appropriée en fonction de vos besoins.

Plusieurs pipelines peuvent partager l’instance du cluster HDInsight à la demande si la valeur de la propriété timetolive est correctement définie.
Oui
clusterType Type du cluster HDInsight à créer. Valeurs autorisées : « hadoop » et « spark ». Si aucune valeur n’est spécifiée, la valeur par défaut est hadoop. Un cluster activé avec le Pack Sécurité Entreprise ne peut pas être créé à la demande. Utilisez plutôt un cluster existant / apportez votre propre environnement de calcul. Non
version Version du cluster HDInsight. À défaut de spécification, la version actuelle par défaut de HDInsight est utilisée. Non
hostSubscriptionId ID d’abonnement Azure utilisé pour créer le cluster HDInsight. Si non spécifié, l’ID d’abonnement de votre contexte de connexion Azure est utilisé. Non
clusterNamePrefix Préfixe du nom de cluster HDI. Un horodatage est ajouté automatiquement à la fin du nom du cluster. Non
sparkVersion Version de spark si le type de cluster est « Spark » Non
additionalLinkedServiceNames Comptes de stockage supplémentaires pour le service lié HDInsight, que le service peut inscrire pour vous. Ces comptes de stockage doivent être dans la même région que le cluster HDInsight, qui est créé dans la même région que le compte de stockage spécifié par linkedServiceName. Non
osType Type de système d'exploitation. Les valeurs autorisées sont les suivantes : Linux et Windows (pour HDInsight 3.3 uniquement). Par défaut, c’est Linux. Non
hcatalogLinkedServiceName Le nom du service lié à SQL Azure pointant vers la base de données HCatalog. Le cluster HDInsight à la demande est créé en utilisant la base de données Azure SQL en tant que metastore. Non
connectVia Runtime d’intégration à utiliser pour répartir les activités à ce service lié HDInsight. Pour le service lié HDInsight à la demande, il prend uniquement en charge un runtime d’intégration Azure. À défaut de spécification, le runtime d’intégration Azure par défaut est utilisé. Non
clusterUserName Nom d’utilisateur pour accéder au cluster. Non
clusterPassword Mot de passe sous forme de chaîne sécurisée pour accéder au cluster. Non
clusterSshUserName Nom d'utilisateur SSH pour se connecter à distance au nœud du cluster (pour Linux). Non
clusterSshPassword Mot de passe sous forme de chaîne sécurisée pour établir une connexion SSH à distance au nœud du cluster (pour Linux). Non
scriptActions Spécifiez un script pour les personnalisations de cluster HDInsight lors de la création d'un cluster à la demande.
Actuellement, l'outil de création d'interface utilisateur prend en charge la spécification d'une seule action de script, mais vous pouvez contourner cette limitation dans le JSON (spécifiez plusieurs actions de script dans le JSON).
Non

Important

HDInsight prend en charge plusieurs versions de cluster Hadoop qui peuvent être déployées. Le choix d'une version crée une version spécifique de la distribution de la plateforme de données Hortonworks (HDP) et un ensemble de composants qui sont contenus dans cette distribution. La liste des versions de HDInsight prises en charge continue à être actualisée afin de fournir les correctifs et composants les plus récents de l’écosystème Hadoop. Assurez-vous de toujours faire référence aux informations les plus récentes sur la version de HDInsight et le type de système d’exploitation pris en charge pour être certain d’utiliser la version prise en charge de HDInsight.

Important

Les services HDInsight liés ne prennent actuellement pas en charge les clusters HBase, Interactive Query (Hive LLAP) et Storm.

  • Exemple JSON additionalLinkedServiceNames
"additionalLinkedServiceNames": [{
    "referenceName": "MyStorageLinkedService2",
    "type": "LinkedServiceReference"          
}]

Authentification d’un principal du service

Le service lié de HDInsight à la demande nécessite une authentification du principal du service pour créer des clusters HDInsight à votre place. Pour utiliser une authentification du principal du service, inscrivez une entité d’application dans Microsoft Entra ID, et octroyez-lui le rôle de contributeur de l’abonnement ou du groupe de ressources dans lequel le cluster HDInsight est créé. Pour plus d’informations, consultez Utiliser le portail pour créer une application et un principal de service Microsoft Entra pouvant accéder aux ressources. Prenez note des valeurs suivantes, qui vous permettent de définir le service lié :

  • ID de l'application
  • Clé de l'application
  • ID client

Utilisez l’authentification par principal de service en spécifiant les propriétés suivantes :

Propriété Description Obligatoire
servicePrincipalId Spécifiez l’ID client de l’application. Oui
servicePrincipalKey Spécifiez la clé de l’application. Oui
client Spécifiez les informations de locataire (nom de domaine ou ID de locataire) dans lesquels se trouve votre application. Vous pouvez le récupérer en pointant la souris dans le coin supérieur droit du portail Azure. Oui

Propriétés avancées

Vous pouvez également spécifier les propriétés suivantes pour la configuration granulaire du cluster HDInsight à la demande.

Propriété Description Obligatoire
coreConfiguration Spécifie les paramètres de configuration de base (par exemple, core-site.xml) pour le cluster HDInsight à créer. Non
hBaseConfiguration Spécifie les paramètres de configuration HBase (hbase-site.xml) pour le cluster HDInsight. Non
hdfsConfiguration Spécifie les paramètres de configuration HDFS (hdfs-site.xml) pour le cluster HDInsight. Non
hiveConfiguration Spécifie les paramètres de configuration Hive (hive-site.xml) pour le cluster HDInsight. Non
mapReduceConfiguration Spécifie les paramètres de configuration MapReduce (mapred-site.xml) pour le cluster HDInsight. Non
oozieConfiguration Spécifie les paramètres de configuration Oozie (oozie-site.xml) pour le cluster HDInsight. Non
stormConfiguration Spécifie les paramètres de configuration Storm (storm-site.xml) pour le cluster HDInsight. Non
yarnConfiguration Spécifie les paramètres de configuration Yarn (yarn-site.xml) pour le cluster HDInsight. Non
  • Exemple – Configuration à la demande du cluster HDInsight avec des propriétés avancées
{
    "name": " HDInsightOnDemandLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
          "clusterSize": 16,
          "timeToLive": "01:30:00",
          "hostSubscriptionId": "<subscription ID>",
          "servicePrincipalId": "<service principal ID>",
          "servicePrincipalKey": {
            "value": "<service principal key>",
            "type": "SecureString"
          },
          "tenant": "<tenant id>",
          "clusterResourceGroup": "<resource group name>",
          "version": "3.6",
          "osType": "Linux",
          "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
            },
            "coreConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "hiveConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "mapReduceConfiguration": {
                "mapreduce.reduce.java.opts": "-Xmx4000m",
                "mapreduce.map.java.opts": "-Xmx4000m",
                "mapreduce.map.memory.mb": "5000",
                "mapreduce.reduce.memory.mb": "5000",
                "mapreduce.job.reduce.slowstart.completedmaps": "0.8"
            },
            "yarnConfiguration": {
                "yarn.app.mapreduce.am.resource.mb": "5000",
                "mapreduce.map.memory.mb": "5000"
            },
            "additionalLinkedServiceNames": [{
                "referenceName": "MyStorageLinkedService2",
                "type": "LinkedServiceReference"          
            }]
        }
    },
      "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
}

Tailles de nœuds

Vous pouvez spécifier les tailles du nœud principal, du nœud de données et du nœud zookeeper en utilisant les propriétés suivantes :

Propriété Description Obligatoire
headNodeSize Spécifie la taille du nœud principal. La valeur par défaut est : Standard_D3. Pour plus d’informations, consultez la section Spécification des tailles de nœud. Non
dataNodeSize Spécifie la taille du nœud de données. La valeur par défaut est : Standard_D3. Non
zookeeperNodeSize Spécifie la taille du nœud ZooKeeper. La valeur par défaut est : Standard_D3. Non
  • Pour connaître les valeurs des chaînes à spécifier pour les propriétés mentionnées dans la section précédente, consultez Tailles des machines virtuelles. Les valeurs doivent être conformes aux applets de commande et API référencées dans l’article. Comme vous pouvez le voir dans l’article, le nœud de données de grande taille (par défaut) a 7 Go de mémoire, ce qui risque de s’avérer insuffisant pour votre scénario.

Si vous voulez créer des nœuds principaux et des nœuds worker de taille D4, spécifiez la valeur Standard_D4 pour les propriétés headNodeSize et dataNodeSize.

"headNodeSize": "Standard_D4",    
"dataNodeSize": "Standard_D4",

Si vous spécifiez une valeur incorrecte pour ces propriétés, vous risquez de rencontrer l’ erreur suivante : Impossible de créer le cluster. Exception : Impossible de terminer l’opération de création du cluster. Operation failed with code ’400’. Cluster left behind state (État du cluster abandonné) : 'Error' (« Error »). Message : 'PreClusterCreationValidationFailure'. Quand vous recevez ce message d’erreur, vérifiez que vous utilisez les noms d’applet de commande et d’API figurant dans l’article Tailles des machines virtuelles.

Apportez votre propre environnement de calcul

Dans ce type de configuration, les utilisateurs peuvent inscrire un environnement de calcul existant en tant que service lié. C’est l’utilisateur qui gère l'environnement de calcul, et le service l'utilise pour exécuter les activités.

Ce type de configuration est pris en charge pour les environnements de calcul suivants :

  • Azure HDInsight
  • Azure Batch
  • Azure Machine Learning
  • Service Analytique Azure Data Lake
  • Azure SQL DB, Azure Synapse Analytics, SQL Server

Service lié Azure HDInsight

Vous pouvez créer un service lié Azure HDInsight pour inscrire votre propre cluster HDInsight avec une fabrique de données ou l’espace de travail Synapse.

Exemple

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "userName": "username",
        "password": {
            "value": "passwordvalue",
            "type": "SecureString"
          },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Propriétés

Property Description Obligatoire
type La propriété de type doit être définie sur HDInsight. Oui
clusterUri L'URI du cluster HDInsight. Oui
username Spécifiez le nom de l'utilisateur à utiliser pour se connecter à un cluster HDInsight existant. Oui
mot de passe Spécifiez le mot de passe du compte d'utilisateur. Oui
linkedServiceName Nom du service lié de stockage Azure faisant référence au stockage Blob Azure utilisé par le cluster HDInsight.

Actuellement, vous ne pouvez pas spécifier un service lié Azure Data Lake Storage (Gen2) pour cette propriété. Vous pouvez accéder aux données Azure Data Lake Storage (Gen2) à partir de scripts Hive/Pig si le cluster HDInsight a accès à Data Lake Store.

Oui
isEspEnabled Spécifiez « true » si le cluster HDInsight est activé avec le Pack Sécurité Entreprise. La valeur par défaut est « false ». Non
connectVia Runtime d’intégration à utiliser pour répartir les activités à ce service lié. Vous pouvez utiliser un runtime d’intégration Azure ou un runtime d’intégration auto-hébergé. À défaut de spécification, le runtime d’intégration Azure par défaut est utilisé.
Pour un cluster HDInsight activé avec le Pack Sécurité Entreprise, utilisez un runtime d'intégration auto-hébergé qui dispose d’une visibilité directe sur le cluster ou qui doit être déployé dans le même réseau virtuel que le cluster HDInsight activé avec le Pack Sécurité Entreprise.
Non

Important

HDInsight prend en charge plusieurs versions de cluster Hadoop qui peuvent être déployées. Le choix d'une version crée une version spécifique de la distribution de la plateforme de données Hortonworks (HDP) et un ensemble de composants qui sont contenus dans cette distribution. La liste des versions de HDInsight prises en charge continue à être actualisée afin de fournir les correctifs et composants les plus récents de l’écosystème Hadoop. Assurez-vous de toujours faire référence aux informations les plus récentes sur la version de HDInsight et le type de système d’exploitation pris en charge pour être certain d’utiliser la version prise en charge de HDInsight.

Important

Les services HDInsight liés ne prennent actuellement pas en charge les clusters HBase, Interactive Query (Hive LLAP) et Storm.

Service lié Azure Batch

Notes

Nous vous recommandons d’utiliser le module Azure Az PowerShell pour interagir avec Azure. Pour bien démarrer, consultez Installer Azure PowerShell. Pour savoir comment migrer vers le module Az PowerShell, consultez Migrer Azure PowerShell depuis AzureRM vers Az.

Vous pouvez créer un service lié Azure Batch pour inscrire un pool de machines virtuelles (VM) Batch dans une fabrique de données ou un espace de travail Synapse. Vous pouvez exécuter l’activité personnalisée à l’aide d’Azure Batch.

Consultez les articles suivants si vous ne connaissez pas le service Azure Batch :

Important

Lors de la création d’un pool Azure Batch, ‘VirtualMachineConfiguration’ doit être utilisé et NON ‘CloudServiceConfiguration’. Pour plus d’informations, consultez la section Conseils de migration du pool Azure Batch.

Exemple

{
    "name": "AzureBatchLinkedService",
    "properties": {
      "type": "AzureBatch",
      "typeProperties": {
        "accountName": "batchaccount",
        "accessKey": {
          "type": "SecureString",
          "value": "access key"
        },
        "batchUri": "https://batchaccount.region.batch.azure.com",
        "poolName": "poolname",
        "linkedServiceName": {
          "referenceName": "StorageLinkedService",
          "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Propriétés

Property Description Obligatoire
type La propriété de type doit être définie sur AzureBatch. Oui
accountName Nom du compte Azure Batch. Oui
accessKey Clé d'accès du compte Azure Batch. Oui
batchUri URL de votre compte Azure Batch, au format https://batchaccountname.region.batch.azure.com. Oui
poolName Nom du pool de machines virtuelles. Oui
linkedServiceName Nom du service lié Azure Storage associé à ce service lié Azure Batch. Ce service lié est utilisé pour les fichiers intermédiaires requis pour exécuter l’activité. Oui
connectVia Runtime d’intégration à utiliser pour répartir les activités à ce service lié. Vous pouvez utiliser un runtime d’intégration Azure ou un runtime d’intégration auto-hébergé. À défaut de spécification, le runtime d’intégration Azure par défaut est utilisé. Non

Service lié Machine Learning Studio (classique)

Important

La prise en charge d’Azure Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

Depuis le 1er décembre 2021, vous ne pouvez plus créer de nouvelles ressources Machine Learning Studio (classique) (plan d’espace de travail et de service web). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les expériences et services web Machine Learning Studio (classique) existants. Pour plus d’informations, consultez l’article suivant :

La documentation de Machine Learning Studio (classique) est en cours de retrait et pourrait ne pas être mise à jour à l’avenir.

Vous créez un service lié Machine Learning Studio (classique) pour inscrire un point de terminaison de scoring par lot Machine Learning Studio (classique) pour une fabrique de données ou un espace de travail Synapse.

Exemple

{
    "name": "AzureMLLinkedService",
    "properties": {
      "type": "AzureML",
      "typeProperties": {
        "mlEndpoint": "https://[batch scoring endpoint]/jobs",
        "apiKey": {
            "type": "SecureString",
            "value": "access key"
        }
     },
     "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
}

Propriétés

Property Description Obligatoire
Type La propriété de type doit être définie sur : AzureML. Oui
mlEndpoint L'URL de la notation par lot. Oui
apiKey API du modèle d'espace de travail publié. Oui
updateResourceEndpoint URL d’Update Resource pour un point de terminaison du service web ML Studio (classique) utilisé pour mettre à jour le service web prédictif avec le fichier de modèle entrainé Non
servicePrincipalId Spécifiez l’ID client de l’application. Obligatoire si updateResourceEndpoint est spécifié
servicePrincipalKey Spécifiez la clé de l’application. Obligatoire si updateResourceEndpoint est spécifié
tenant Spécifiez les informations de locataire (nom de domaine ou ID de locataire) dans lesquels se trouve votre application. Vous pouvez le récupérer en pointant la souris dans le coin supérieur droit du portail Azure. Obligatoire si updateResourceEndpoint est spécifié
connectVia Runtime d’intégration à utiliser pour répartir les activités à ce service lié. Vous pouvez utiliser un runtime d’intégration Azure ou un runtime d’intégration auto-hébergé. À défaut de spécification, le runtime d’intégration Azure par défaut est utilisé. Non

Service lié Microsoft Azure Machine Learning

Vous créez un service lié Azure Machine Learning Service pour connecter un espace de travail Azure Machine Learning à une fabrique de données ou un espace de travail Synapse.

Notes

Actuellement, seule l’authentification du principal du service est prise en charge pour le service lié Azure Machine Learning.

Exemple

{
    "name": "AzureMLServiceLinkedService",
    "properties": {
        "type": "AzureMLService",
        "typeProperties": {
            "subscriptionId": "subscriptionId",
            "resourceGroupName": "resourceGroupName",
            "mlWorkspaceName": "mlWorkspaceName",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime?",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Propriétés

Property Description Obligatoire
Type La propriété de type doit être définie sur : AzureMLService. Oui
subscriptionId ID d’abonnement Azure Oui
resourceGroupName name Oui
mlWorkspaceName Nom d’espace de travail Azure Machine Learning Oui
servicePrincipalId Spécifiez l’ID client de l’application. Oui
servicePrincipalKey Spécifiez la clé de l’application. Oui
tenant Spécifiez les informations de locataire (nom de domaine ou ID de locataire) dans lesquels se trouve votre application. Vous pouvez le récupérer en pointant la souris dans le coin supérieur droit du portail Azure. Obligatoire si updateResourceEndpoint est spécifié
connectVia Runtime d’intégration à utiliser pour répartir les activités à ce service lié. Vous pouvez utiliser un runtime d’intégration Azure ou un runtime d’intégration auto-hébergé. À défaut de spécification, le runtime d’intégration Azure par défaut est utilisé. Non

Service lié Azure Data Lake Analytics

Vous créez un service lié Azure Data Lake Analytics pour lier un service de calcul Azure Data Lake Analytics à une fabrique de données ou un espace de travail Synapse. L’activité U-SQL Analytique Data Lake dans le pipeline fait référence à ce service lié.

Exemple

{
    "name": "AzureDataLakeAnalyticsLinkedService",
    "properties": {
        "type": "AzureDataLakeAnalytics",
        "typeProperties": {
            "accountName": "adftestaccount",
            "dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID",
            "subscriptionId": "<optional, subscription ID of ADLA>",
            "resourceGroupName": "<optional, resource group name of ADLA>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Propriétés

Property Description Obligatoire
type La propriété de type doit être définie sur : AzureDataLakeAnalytics. Oui
accountName Nom du compte du service Analytique Azure Data Lake. Oui
dataLakeAnalyticsUri URI du service Analytique Azure Data Lake. Non
subscriptionId ID d’abonnement Azure Non
resourceGroupName Nom du groupe de ressources Azure Non
servicePrincipalId Spécifiez l’ID client de l’application. Oui
servicePrincipalKey Spécifiez la clé de l’application. Oui
tenant Spécifiez les informations de locataire (nom de domaine ou ID de locataire) dans lesquels se trouve votre application. Vous pouvez le récupérer en pointant la souris dans le coin supérieur droit du portail Azure. Oui
connectVia Runtime d’intégration à utiliser pour répartir les activités à ce service lié. Vous pouvez utiliser un runtime d’intégration Azure ou un runtime d’intégration auto-hébergé. À défaut de spécification, le runtime d’intégration Azure par défaut est utilisé. Non

Service Azure Databricks lié

Vous pouvez créer un service lié Azure Databricks pour inscrire l’espace de travail Databricks que vous utilisez pour exécuter les charges de travail Databricks (notebook, Jar, Python).

Important

Les services liés Databricks prennent en charge les pools d’instances et l’authentification d’identité managée attribuée par le système.

Exemple : utilisation d’un nouveau cluster de travail dans Databricks

{
    "name": "AzureDatabricks_LS",
    "properties": {
        "type": "AzureDatabricks",
        "typeProperties": {
            "domain": "https://eastus.azuredatabricks.net",
            "newClusterNodeType": "Standard_D3_v2",
            "newClusterNumOfWorker": "1:10",
            "newClusterVersion": "4.0.x-scala2.11",
            "accessToken": {
                "type": "SecureString",
                "value": "YourAccessToken"
            }
        }
    }
}

Exemple : utilisation d’un cluster interactif existant dans Databricks

{
    "name": " AzureDataBricksLinkedService",
    "properties": {
      "type": " AzureDatabricks",
      "typeProperties": {
        "domain": "https://westeurope.azuredatabricks.net",
        "accessToken": {
            "type": "SecureString", 
            "value": "YourAccessToken"
          },
        "existingClusterId": "{clusterId}"
        }
}

Propriétés

Property Description Obligatoire
name Nom du service lié Oui
type La propriété de type doit être définie sur : Azure Databricks. Oui
domaine Spécifiez la région Azure en fonction de la région de l’espace de travail Databricks. Exemple : https://eastus.azuredatabricks.net Oui
accessToken Un jeton d’accès est requis pour que le service s’authentifie auprès d’Azure Databricks. Un jeton d’accès doit être généré à partir de l’espace de travail Databricks. Des étapes plus détaillées pour rechercher le jeton d’accès sont disponibles ici Non
MSI Utilisez l’identité managée du service (attribuée par le système) pour vous authentifier auprès d’Azure Databricks. Vous n’avez pas besoin d’un jeton d’accès quand vous utilisez l’authentification « MSI » Vous trouverez plus d’informations sur l’authentification de l’identité managée ici Non
existingClusterId ID de cluster d’un cluster existant pour exécuter tous les travaux dessus. Il doit s’agit d’un cluster interactif déjà créé. Vous devrez peut-être redémarrer manuellement le cluster s’il ne répond pas. Databricks suggère d’exécuter des travaux sur les nouveaux clusters pour une plus grande fiabilité. Vous pouvez trouver l’ID de cluster d’un cluster interactif dans l’espace de travail Databricks -> Clusters -> Nom du cluster interactif -> Configuration -> Étiquettes. En savoir plus Non
instancePoolId ID d’un pool d’instances existant dans l’espace de travail Databricks. Non
newClusterVersion La version Spark du cluster. Cela crée un cluster de travail dans Databricks. Non
newClusterNumOfWorker Nombre de nœuds de travail que ce cluster doit avoir. Un cluster dispose d’un pilote de Spark et num_workers exécuteurs pour un total de num_workers + 1 nœuds Spark. Une chaîne au format Int32, telle que « 1 », signifie que numOfWorker est égal à 1, ou « 1:10 » désigne une mise à l'échelle automatique à partir de 1 comme minimum et 10 comme maximum. Non
newClusterNodeType Ce champ code, via une seule valeur, les ressources disponibles pour chacun des nœuds Spark de ce cluster. Par exemple, les nœuds Spark peuvent être configurés et optimisés pour des charges de travail gourmandes en mémoire ou en calcul. Ce champ est obligatoire pour les nouveaux clusters Non
newClusterSparkConf un ensemble de paires clé-valeur de configuration Spark spécifiées par l’utilisateur et facultatives. Les utilisateurs peuvent également transmettre une chaîne d’options JVM supplémentaires au pilote et aux exécuteurs, respectivement via spark.driver.extraJavaOptions et spark.executor.extraJavaOptions. Non
newClusterInitScripts un ensemble de scripts d’initialisation facultatifs définis par l’utilisateur pour le nouveau cluster. Vous pouvez spécifier les scripts init dans les fichiers d’espace de travail (recommandé) ou via le chemin DBFS (hérité). Non

Service lié Azure SQL Database

Créez un service lié Azure SQL et utilisez-le avec l’activité de procédure stockée pour appeler une procédure stockée à partir d’un pipeline. Pour plus d’informations sur ce service lié, consultez la page Connecteur SQL Azure .

Service lié Azure Synapse Analytics

Créez un service lié Azure Synapse Analytics et utilisez-le avec l’activité de procédure stockée pour appeler une procédure stockée à partir d’un pipeline. Pour plus d’informations sur ce service lié, consultez la page Connecteur Azure Synapse Analytics.

Service lié SQL Server

Créez un service lié à SQL Server et utilisez-le avec l’activité de procédure stockée pour appeler une procédure stockée à partir d’un pipeline. Pour plus d’informations sur ce service lié, consultez la page Connecteur SQL Server .

Service lié Azure Synapse Analytics (Artifacts)

Vous créez un service lié Azure Synapse Analytics (Artifacts) et l’utilisez avec l’activité de notebook Synapse et l’activité d’une définition de travail Synapse Spark.

Exemple

{
    "name": "AzureSynapseArtifacts",
    "type": "Microsoft.DataFactory/factories/linkedservice",
    "properties": {
      "properties": {
        "a":{
          "type": "String"
        }
      },
        "annotations": [],
        "type": "AzureSynapseArtifacts",
        "typeProperties": {
            "endpoint": "@{linkedService().a}",
            "authentication": "MSI",
            "workspaceResourceId": ""
        },
        "ConnectVia":{
          "referenceName": "integrationRuntime1",
          "type": "IntegrationRuntimeReference"
        }
    }
}

Propriétés

Propriété Description Obligatoire
name Nom du service lié Oui
description description du service lié Non
annotations annotations du service lié Non
type La propriété type doit être définie sur AzureSynapseArtifacts Oui
endpoint URL Azure Synapse Analytics Oui
Authentification Le paramètre par défaut est Identité managée affectée par le système Oui
workspaceResourceId ID de la ressource d’espace de travail Oui
connectVia Le runtime d’intégration à utiliser pour se connecter à la banque de données. Vous pouvez utiliser Azure Integration Runtime. À défaut de spécification, le runtime d’intégration Azure par défaut est utilisé. Le runtime d’intégration auto-hébergé n’est actuellement pas pris en charge. Oui

Service lié de fonction Azure

Créez un service lié Azure Function et utilisez-le avec l’activité Azure Function pour exécuter Azure Functions dans un pipeline. Le type de retour de la fonction Azure doit être un JObject valide (n’oubliez pas que JArray est pas un JObject). Tout type de retour autre que JObject échoue et génère l’erreur utilisateur Le contenu de la réponse n’est pas un JObject valide.

Propriété Description Obligatoire
type La propriété type doit être définie sur : AzureFunction Oui
URL de l’application de fonction URL de l’application de fonction Azure. Son format est https://<accountname>.azurewebsites.net. Cette URL correspond à la valeur indiquée dans la section URL quand vous affichez votre application de fonction dans le portail Azure. Oui
clé de fonction Clé d’accès de la fonction Azure. Cliquez sur la section Gérer de la fonction correspondante, puis copiez la clé de fonction ou la clé d’hôte. En savoir plus ici : Utiliser des clés d’accès Oui

Pour obtenir la liste des activités de transformation prises en charge, consultez Transformer les données.