Compute-omgevingen die worden ondersteund door Azure Data Factory- en Synapse-pijplijnen

Artikel
10/03/2024

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

Belangrijk

Ondersteuning voor Azure Machine Learning Studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden op die datum over te stappen naar Azure Machine Learning .

Vanaf 1 december 2021 kunt u geen nieuwe Machine Learning Studio-resources (klassiek) maken (werkruimte- en webserviceplan). Tot en met 31 augustus 2024 kunt u de bestaande Experimenten en webservices van Machine Learning Studio (klassiek) blijven gebruiken. Zie voor meer informatie:

Machine Learning Studio -documentatie (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet bijgewerkt.

In dit artikel worden verschillende rekenomgevingen uitgelegd die u kunt gebruiken om gegevens te verwerken of te transformeren. Het biedt ook informatie over verschillende configuraties (on-demand versus bring your own) die worden ondersteund bij het configureren van gekoppelde services die deze rekenomgevingen koppelen.

De volgende tabel bevat een lijst met ondersteunde rekenomgevingen en de activiteiten die erop kunnen worden uitgevoerd.

Compute-omgeving	Activiteiten
HdInsight-cluster op aanvraag of uw eigen HDInsight-cluster	Hive, Pig, Spark, MapReduce, Hadoop Streaming
Azure Batch	Aangepast
ML Studio (klassiek)	ML Studio-activiteiten (klassiek): Batch-uitvoering en resource bijwerken
Azure Machine Learning	Pijplijn uitvoeren van Azure Machine Learning
Azure Data Lake Analytics	Data Lake Analytics U-SQL
Azure SQL, Azure Synapse Analytics, SQL Server	Opgeslagen procedure
Azure Databricks	Notebook, Jar, Python
Azure Synapse Analytics (artefacten)	Synapse Notebook-activiteit, Synapse Spark-taakdefinitie
Azure-functie	Azure Function-activiteit

HDInsight-rekenomgeving

Raadpleeg de onderstaande tabel voor meer informatie over de ondersteunde gekoppelde opslagservicetypen voor configuratie in een on-demand en BYOC-omgeving (Bring Your Own Compute).

Gekoppelde compute-service	Eigenschapsnaam	Beschrijving	Blob	ADLS Gen2	Azure SQL Database	ADLS Gen 1
Op aanvraag	linkedServiceName	Gekoppelde Azure Storage-service die moet worden gebruikt door het cluster op aanvraag voor het opslaan en verwerken van gegevens.	Ja	Ja	No	Nr.
	additionalLinkedServiceNames	Hiermee geeft u extra opslagaccounts op voor de gekoppelde HDInsight-service, zodat de service deze namens u kan registreren.	Ja	No	Nee	Nr.
	hcatalogLinkedServiceName	De naam van de gekoppelde Azure SQL-service die verwijst naar de HCatalog-database. Het HDInsight-cluster op aanvraag wordt gemaakt met behulp van de Azure SQL-database als metastore.	Nee	No	Ja	Nr.
BYOC	linkedServiceName	De naslaginformatie over de gekoppelde Azure Storage-service.	Ja	Ja	No	Nr.
	additionalLinkedServiceNames	Hiermee geeft u extra opslagaccounts op voor de gekoppelde HDInsight-service, zodat de service deze namens u kan registreren.	Nee	Nee	Nee	Nr.
	hcatalogLinkedServiceName	Een verwijzing naar de gekoppelde Azure SQL-service die verwijst naar de HCatalog-database.	Nee	Nee	Nee	Nr.

Een gekoppelde Azure HDInsight-service op aanvraag

In dit type configuratie wordt de computeromgeving volledig beheerd door de service. Deze wordt automatisch door de service gemaakt voordat een taak wordt verzonden om gegevens te verwerken en te verwijderen wanneer de taak is voltooid. U kunt een gekoppelde service maken voor de on-demand rekenomgeving, deze configureren en gedetailleerde instellingen beheren voor taakuitvoering, clusterbeheer en bootstrapping-acties.

Notitie

De configuratie op aanvraag wordt momenteel alleen ondersteund voor Azure HDInsight-clusters. Azure Databricks biedt ook ondersteuning voor on-demand taken met behulp van taakclusters. Zie de gekoppelde Azure Databricks-service voor meer informatie.

De service kan automatisch een HDInsight-cluster op aanvraag maken om gegevens te verwerken. Het cluster wordt gemaakt in dezelfde regio als het opslagaccount (de eigenschap linkedServiceName in de JSON) die is gekoppeld aan het cluster. Het opslagaccount must is een standaard Azure Storage-account voor algemeen gebruik.

Let op de volgende belangrijke punten over gekoppelde HDInsight-service op aanvraag:

Het HDInsight-cluster op aanvraag wordt gemaakt onder uw Azure-abonnement. U kunt het cluster in Azure Portal zien wanneer het cluster actief is.
De logboeken voor taken die worden uitgevoerd op een HDInsight-cluster op aanvraag, worden gekopieerd naar het opslagaccount dat is gekoppeld aan het HDInsight-cluster. De clusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword die in uw gekoppelde servicedefinitie is gedefinieerd, worden gebruikt om u aan te melden bij het cluster voor uitgebreide probleemoplossing tijdens de levenscyclus van het cluster.
Er worden alleen kosten in rekening gebracht voor het moment waarop het HDInsight-cluster actief en actief is.
U kunt een scriptactie gebruiken met de gekoppelde Azure HDInsight-service op aanvraag.

Belangrijk

Het duurt doorgaans 20 minuten of langer om een Azure HDInsight-cluster op aanvraag in te richten.

Opmerking

De volgende JSON definieert een gekoppelde HDInsight-service op basis van Linux op aanvraag. De service maakt automatisch een HDInsight-cluster op basis van Linux om de vereiste activiteit te verwerken.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "servicePrincipalId": "<service principal ID>",
      "servicePrincipalKey": {
        "value": "<service principal key>",
        "type": "SecureString"
      },
      "tenant": "<tenant id>",
      "clusterResourceGroup": "<resource group name>",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Belangrijk

Het HDInsight-cluster maakt een standaardcontainer in de blobopslag die u hebt opgegeven in de JSON (linkedServiceName). HDInsight verwijdert deze container niet wanneer het cluster wordt verwijderd. Dit is zo ontworpen. Met een gekoppelde on-demand HDInsight-service wordt er steeds een HDInsight-cluster gemaakt wanneer er een segment moet worden verwerkt, tenzij er een bestaand livecluster is (timeToLive). Het cluster wordt verwijderd wanneer het verwerken is voltooid.

Naarmate er meer activiteit wordt uitgevoerd, ziet u veel containers in uw Azure Blob Storage. Als u ze niet nodig hebt voor het oplossen van problemen met de taken, kunt u ze verwijderen om de opslagkosten te verlagen. De namen van deze containers volgen een patroon: adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Gebruik hulpprogramma's zoals Microsoft Azure Storage Explorer om containers in uw Azure-blobopslag te verwijderen.

Eigenschappen

Eigenschappen	Beschrijving	Vereist
type	De eigenschap type moet worden ingesteld op HDInsightOnDemand.	Ja
clusterSize	Aantal werkknooppunten/gegevensknooppunten in het cluster. Het HDInsight-cluster wordt gemaakt met 2 hoofdknooppunten, samen met het aantal werkknooppunten dat u voor deze eigenschap opgeeft. De knooppunten hebben een grootte Standard_D3 met vier kernen, dus een cluster met 4 werkknooppunten heeft 24 kernen (44 = 16 kernen voor werkknooppunten, plus 24 = 8 kernen voor hoofdknooppunten). Zie Clusters instellen in HDInsight met Hadoop, Spark, Kafka en meer voor meer informatie.	Ja
linkedServiceName	Gekoppelde Azure Storage-service die moet worden gebruikt door het cluster op aanvraag voor het opslaan en verwerken van gegevens. Het HDInsight-cluster wordt gemaakt in dezelfde regio als dit Azure Storage-account. Voor Azure HDInsight geldt een beperking voor het totale aantal kernen dat u kunt gebruiken in elke Azure-regio die wordt ondersteund. Zorg ervoor dat u voldoende kernquota in die Azure-regio hebt om te voldoen aan de vereiste clusterSize. Raadpleeg clusters instellen in HDInsight met Hadoop, Spark, Kafka en meer voor meer informatie. Op dit moment kunt u geen HDInsight-cluster op aanvraag maken dat gebruikmaakt van een Azure Data Lake Storage (Gen 2) als opslag. Als u de resultaatgegevens uit HDInsight-verwerking wilt opslaan in een Azure Data Lake Storage (Gen 2), gebruikt u een kopieeractiviteit om de gegevens van Azure Blob Storage naar Azure Data Lake Storage (Gen 2) te kopiëren.	Ja
clusterResourceGroup	Het HDInsight-cluster wordt gemaakt in deze resourcegroep.	Ja
tijdtolief	De toegestane niet-actieve tijd voor het HDInsight-cluster op aanvraag. Hiermee geeft u op hoe lang het HDInsight-cluster op aanvraag actief blijft na voltooiing van een activiteitsuitvoering als er geen andere actieve taken in het cluster zijn. De minimaal toegestane waarde is 5 minuten (00:05:00). Als een activiteitsuitvoering bijvoorbeeld 6 minuten duurt en tijdtolief is ingesteld op 5 minuten, blijft het cluster 5 minuten actief na de 6 minuten na het verwerken van de activiteitsuitvoering. Als een andere activiteitsuitvoering wordt uitgevoerd met het venster van 6 minuten, wordt deze door hetzelfde cluster verwerkt. Het maken van een HDInsight-cluster op aanvraag is een dure bewerking (kan enige tijd duren). Gebruik deze instelling dus indien nodig om de prestaties van de service te verbeteren door een HDInsight-cluster op aanvraag opnieuw te gebruiken. Als u een tijdtolieve waarde instelt op 0, wordt het cluster verwijderd zodra de uitvoering van de activiteit is voltooid. Terwijl, als u een hoge waarde instelt, het cluster niet actief kan blijven om u aan te melden voor een bepaald doel voor probleemoplossing, maar dit kan leiden tot hoge kosten. Daarom is het belangrijk dat u de juiste waarde instelt op basis van uw behoeften. Als de waarde van de tijdtolieve eigenschap op de juiste wijze is ingesteld, kunnen meerdere pijplijnen het exemplaar van het HDInsight-cluster op aanvraag delen.	Ja
clusterType	Het type HDInsight-cluster dat moet worden gemaakt. Toegestane waarden zijn 'hadoop' en 'spark'. Als dit niet is opgegeven, is de standaardwaarde hadoop. Een cluster waarvoor Enterprise Security Package is ingeschakeld, kan niet op aanvraag worden gemaakt. Gebruik in plaats daarvan een bestaand cluster of bring your own compute.	Nee
version	Versie van het HDInsight-cluster. Als dit niet is opgegeven, wordt de huidige standaardversie van HDInsight gebruikt.	Nee
hostSubscriptionId	De Azure-abonnements-id die wordt gebruikt voor het maken van een HDInsight-cluster. Als dit niet is opgegeven, wordt de abonnements-id van uw Azure-aanmeldingscontext gebruikt.	Nee
clusterNamePrefix	Het voorvoegsel van de HDI-clusternaam, een tijdstempel wordt automatisch toegevoegd aan het einde van de clusternaam	Nee
sparkVersion	De versie van Spark als het clustertype Spark is	Nee
additionalLinkedServiceNames	Hiermee geeft u extra opslagaccounts op voor de gekoppelde HDInsight-service, zodat de service deze namens u kan registreren. Deze opslagaccounts moeten zich in dezelfde regio bevinden als het HDInsight-cluster, dat wordt gemaakt in dezelfde regio als het opslagaccount dat is opgegeven door linkedServiceName.	Nee
osType	Type besturingssysteem. Toegestane waarden zijn: Linux en Windows (alleen voor HDInsight 3.3). Standaard is Linux.	Nee
hcatalogLinkedServiceName	De naam van de gekoppelde Azure SQL-service die verwijst naar de HCatalog-database. Het HDInsight-cluster op aanvraag wordt gemaakt met behulp van de Azure SQL Database als metastore.	Nee
connectVia	De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde HDInsight-service te verzenden. Voor een gekoppelde HDInsight-service op aanvraag ondersteunt deze alleen Azure Integration Runtime. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt.	Nee
clusterUserName	De gebruikersnaam voor toegang tot het cluster.	Nee
clusterPassword	Het wachtwoord in het type beveiligde tekenreeks voor toegang tot het cluster.	Nee
clusterSshUserName	De gebruikersnaam voor SSH maakt extern verbinding met het knooppunt van het cluster (voor Linux).	Nee
clusterSshPassword	Het wachtwoord in het type beveiligde tekenreeks om het clusterknooppunt (voor Linux) op afstand te verbinden met SSH.	Nee
scriptActions	Geef een script op voor HDInsight-clusteraanpassingen tijdens het maken van een cluster op aanvraag. Het bewerkingsprogramma voor de gebruikersinterface ondersteunt momenteel het opgeven van slechts één scriptactie, maar u kunt deze beperking in de JSON doorlopen (geef meerdere scriptacties op in de JSON).	Nee

Belangrijk

HDInsight ondersteunt meerdere Hadoop-clusterversies die kunnen worden geïmplementeerd. Elke versiekeuze maakt een specifieke versie van de HDP-distributie (Hortonworks Data Platform) en een set onderdelen die zich in die distributie bevinden. De lijst met ondersteunde HDInsight-versies wordt bijgewerkt om de meest recente Onderdelen en oplossingen van het Hadoop-ecosysteem te bieden. Zorg ervoor dat u altijd verwijst naar de meest recente informatie van de ondersteunde HDInsight-versie en het besturingssysteemtype om ervoor te zorgen dat u een ondersteunde versie van HDInsight gebruikt.

Belangrijk

Momenteel bieden gekoppelde HDInsight-services geen ondersteuning voor HBase, Interactive Query (Hive LLAP), Storm.

additionalLinkedServiceNames JSON-voorbeeld

"additionalLinkedServiceNames": [{
    "referenceName": "MyStorageLinkedService2",
    "type": "LinkedServiceReference"          
}]

Verificatie van service-principal

Voor de gekoppelde on-demand HDInsight-service is een service-principal-verificatie vereist voor het maken van HDInsight-clusters namens u. Als u service-principalverificatie wilt gebruiken, registreert u een toepassingsentiteit in Microsoft Entra ID en verleent u deze de rol Inzender van het abonnement of de resourcegroep waarin het HDInsight-cluster wordt gemaakt. Zie De portal gebruiken om een Microsoft Entra-toepassing en service-principal te maken die toegang heeft tot resources voor gedetailleerde stappen. Noteer de volgende waarden die u gebruikt om de gekoppelde service te definiëren:

Toepassings-id
Toepassingssleutel
Tenant-id

Gebruik service-principalverificatie door de volgende eigenschappen op te geven:

Eigenschappen	Beschrijving	Vereist
servicePrincipalId	Geef de client-id van de toepassing op.	Ja
servicePrincipalKey	Geef de sleutel van de toepassing op.	Ja
tenant	Geef de tenantgegevens (domeinnaam of tenant-id) op waaronder uw toepassing zich bevindt. U kunt deze ophalen door de muisaanwijzer in de rechterbovenhoek van Azure Portal te bewegen.	Ja

Geavanceerde eigenschappen

U kunt ook de volgende eigenschappen opgeven voor de gedetailleerde configuratie van het HDInsight-cluster op aanvraag.

Eigenschappen	Beschrijving	Vereist
coreConfiguration	Hiermee geeft u de kernconfiguratieparameters (zoals in core-site.xml) op voor het HDInsight-cluster dat moet worden gemaakt.	Nee
hBaseConfiguration	Hiermee geeft u de HBase-configuratieparameters (hbase-site.xml) voor het HDInsight-cluster op.	Nee
hdfsConfiguration	Hiermee geeft u de HDFS-configuratieparameters (hdfs-site.xml) voor het HDInsight-cluster op.	Nee
hiveConfiguration	Hiermee geeft u de hive-configuratieparameters (hive-site.xml) voor het HDInsight-cluster op.	Nee
mapReduceConfiguration	Hiermee geeft u de MapReduce-configuratieparameters (mapred-site.xml) voor het HDInsight-cluster op.	Nee
oozieConfiguration	Hiermee geeft u de Oozie-configuratieparameters (oozie-site.xml) voor het HDInsight-cluster op.	Nee
stormConfiguration	Hiermee geeft u de Storm-configuratieparameters (storm-site.xml) voor het HDInsight-cluster op.	Nee
yarnConfiguration	Hiermee geeft u de Yarn-configuratieparameters (yarn-site.xml) voor het HDInsight-cluster op.	Nee

Voorbeeld: on-demand HDInsight-clusterconfiguratie met geavanceerde eigenschappen

{
    "name": " HDInsightOnDemandLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
          "clusterSize": 16,
          "timeToLive": "01:30:00",
          "hostSubscriptionId": "<subscription ID>",
          "servicePrincipalId": "<service principal ID>",
          "servicePrincipalKey": {
            "value": "<service principal key>",
            "type": "SecureString"
          },
          "tenant": "<tenant id>",
          "clusterResourceGroup": "<resource group name>",
          "version": "3.6",
          "osType": "Linux",
          "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
            },
            "coreConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "hiveConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "mapReduceConfiguration": {
                "mapreduce.reduce.java.opts": "-Xmx4000m",
                "mapreduce.map.java.opts": "-Xmx4000m",
                "mapreduce.map.memory.mb": "5000",
                "mapreduce.reduce.memory.mb": "5000",
                "mapreduce.job.reduce.slowstart.completedmaps": "0.8"
            },
            "yarnConfiguration": {
                "yarn.app.mapreduce.am.resource.mb": "5000",
                "mapreduce.map.memory.mb": "5000"
            },
            "additionalLinkedServiceNames": [{
                "referenceName": "MyStorageLinkedService2",
                "type": "LinkedServiceReference"          
            }]
        }
    },
      "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
}

Knooppuntgrootten

U kunt de grootte van hoofd-, gegevens- en zookeeper-knooppunten opgeven met behulp van de volgende eigenschappen:

Eigenschappen	Beschrijving	Vereist
headNodeSize	Hiermee geeft u de grootte van het hoofdknooppunt. De standaardwaarde is: Standard_D3. Zie de sectie Knooppuntgrootten opgeven voor meer informatie.	Nee
dataNodeSize	Hiermee geeft u de grootte van het gegevensknooppunt. De standaardwaarde is: Standard_D3.	Nee
zookeeperNodeSize	Hiermee geeft u de grootte van het Zoo Keeper-knooppunt. De standaardwaarde is: Standard_D3.	Nee

Knooppuntgrootten opgeven Zie het artikel Grootten van virtuele machines voor tekenreekswaarden die u moet opgeven voor de eigenschappen die in de vorige sectie worden genoemd. De waarden moeten voldoen aan de CMDLETs & APIS waarnaar in het artikel wordt verwezen. Zoals u in het artikel kunt zien, heeft het gegevensknooppunt van grote grootte (standaard) 7 GB geheugen, wat mogelijk niet goed genoeg is voor uw scenario.

Als u hoofdknooppunten en werkknooppunten van D4-grootte wilt maken, geeft u Standard_D4 op als de waarde voor de eigenschappen headNodeSize en dataNodeSize.

"headNodeSize": "Standard_D4",    
"dataNodeSize": "Standard_D4",

Als u een verkeerde waarde voor deze eigenschappen opgeeft, wordt mogelijk de volgende fout weergegeven: Kan cluster niet maken. Uitzondering: Kan het cluster niet maken. Bewerking is mislukt met code 400. Cluster heeft status: 'Fout'. Bericht: 'PreClusterCreationValidationFailure'. Wanneer u deze fout ontvangt, moet u ervoor zorgen dat u de naam van de CMDLET & APIS uit de tabel in het artikel Grootten van virtuele machines gebruikt.

Uw eigen rekenomgeving gebruiken

In dit type configuratie kunnen gebruikers een al bestaande computeromgeving registreren als een gekoppelde service. De computeromgeving wordt beheerd door de gebruiker en de service gebruikt deze om de activiteiten uit te voeren.

Dit type configuratie wordt ondersteund voor de volgende rekenomgevingen:

Azure HDInsight
Azure Batch
Azure Machine Learning
Azure Data Lake Analytics
Azure SQL DB, Azure Synapse Analytics, SQL Server

Gekoppelde Azure HDInsight-service

U kunt een gekoppelde Azure HDInsight-service maken om uw eigen HDInsight-cluster te registreren met een data factory of Synapse-werkruimte.

Opmerking

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "userName": "username",
        "password": {
            "value": "passwordvalue",
            "type": "SecureString"
          },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Eigenschappen

Eigenschappen	Beschrijving	Vereist
type	De eigenschap type moet worden ingesteld op HDInsight.	Ja
clusterUri	De URI van het HDInsight-cluster.	Ja
gebruikersnaam	Geef de naam op van de gebruiker die moet worden gebruikt om verbinding te maken met een bestaand HDInsight-cluster.	Ja
password	Geef het wachtwoord op voor het gebruikersaccount.	Ja
linkedServiceName	Naam van de gekoppelde Azure Storage-service die verwijst naar de Azure Blob Storage die wordt gebruikt door het HDInsight-cluster. Momenteel kunt u geen gekoppelde Azure Data Lake Storage-service (Gen 2) voor deze eigenschap opgeven. Als het HDInsight-cluster toegang heeft tot Data Lake Store, hebt u toegang tot gegevens in Azure Data Lake Storage (Gen 2) vanuit Hive/Pig-scripts.	Ja
isEspEnabled	Geef 'true' op als het HDInsight-cluster Enterprise Security Package is ingeschakeld. De standaardwaarde is 'false'.	Nee
connectVia	De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde service te verzenden. U kunt Azure Integration Runtime of zelf-hostende Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. Voor HDInsight-cluster met Enterprise Security Package (ESP) gebruikt u een zelf-hostende Integration Runtime, die een detectieregel heeft voor het cluster of moet worden geïmplementeerd in hetzelfde virtuele netwerk als het ESP HDInsight-cluster.	Nee

Belangrijk

Momenteel bieden gekoppelde HDInsight-services geen ondersteuning voor HBase, Interactive Query (Hive LLAP), Storm.

Gekoppelde Azure Batch-service

Notitie

Het wordt aanbevolen de Azure Az PowerShell-module te gebruiken om te communiceren met Azure. Zie Azure PowerShell installeren om aan de slag te gaan. Raadpleeg Azure PowerShell migreren van AzureRM naar Az om te leren hoe u naar de Azure PowerShell-module migreert.

U kunt een gekoppelde Azure Batch-service maken om een Batch-pool met virtuele machines (VM's) te registreren bij een gegevens- of Synapse-werkruimte. U kunt aangepaste activiteiten uitvoeren met Behulp van Azure Batch.

Zie de volgende artikelen als u geen gebruik hebt gemaakt van de Azure Batch-service:

Basisbeginselen van Azure Batch voor een overzicht van de Azure Batch-service.
Cmdlet New-AzBatchAccount voor het maken van een Azure Batch-account (of) Azure Portal om het Azure Batch-account te maken met behulp van Azure Portal. Zie Het artikel PowerShell gebruiken om het Azure Batch-account te beheren voor gedetailleerde instructies over het gebruik van de cmdlet.
Cmdlet New-AzBatchPool voor het maken van een Azure Batch-pool.

Belangrijk

Bij het maken van een nieuwe Azure Batch-pool moet VirtualMachineConfiguration worden gebruikt en NIET CloudServiceConfiguration. Raadpleeg de migratierichtlijnen voor Azure Batch-pool voor meer informatie.

Opmerking

{
    "name": "AzureBatchLinkedService",
    "properties": {
      "type": "AzureBatch",
      "typeProperties": {
        "accountName": "batchaccount",
        "accessKey": {
          "type": "SecureString",
          "value": "access key"
        },
        "batchUri": "https://batchaccount.region.batch.azure.com",
        "poolName": "poolname",
        "linkedServiceName": {
          "referenceName": "StorageLinkedService",
          "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Eigenschappen

Eigenschappen	Beschrijving	Vereist
type	De typeeigenschap moet worden ingesteld op AzureBatch.	Ja
accountName	Naam van het Azure Batch-account.	Ja
accessKey	Toegangssleutel voor het Azure Batch-account.	Ja
batchUri	URL naar uw Azure Batch-account, in de indeling van https:// batchaccountname.region.batch.azure.com.	Ja
poolName	Naam van de pool van virtuele machines.	Ja
linkedServiceName	Naam van de gekoppelde Azure Storage-service die is gekoppeld aan deze gekoppelde Azure Batch-service. Deze gekoppelde service wordt gebruikt voor faseringsbestanden die nodig zijn om de activiteit uit te voeren.	Ja
connectVia	De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde service te verzenden. U kunt Azure Integration Runtime of zelf-hostende Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt.	Nee

Gekoppelde Machine Learning Studio-service (klassiek)

Belangrijk

Ondersteuning voor Azure Machine Learning Studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden op die datum over te stappen naar Azure Machine Learning .

Machine Learning Studio -documentatie (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet bijgewerkt.

U maakt een gekoppelde Machine Learning Studio-service (klassiek) om een score-eindpunt voor Machine Learning Studio (klassiek) te registreren voor een data factory of Synapse-werkruimte.

Opmerking

{
    "name": "AzureMLLinkedService",
    "properties": {
      "type": "AzureML",
      "typeProperties": {
        "mlEndpoint": "https://[batch scoring endpoint]/jobs",
        "apiKey": {
            "type": "SecureString",
            "value": "access key"
        }
     },
     "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
}

Eigenschappen

Eigenschappen	Beschrijving	Vereist
Type	De typeeigenschap moet worden ingesteld op: AzureML.	Ja
mlEndpoint	De batchscore-URL.	Ja
apiKey	De API van het gepubliceerde werkruimtemodel.	Ja
updateResourceEndpoint	De RESOURCE-URL bijwerken voor een ML Studio-webservice-eindpunt (klassiek) dat wordt gebruikt om de voorspellende webservice bij te werken met een getraind modelbestand	Nee
servicePrincipalId	Geef de client-id van de toepassing op.	Vereist als updateResourceEndpoint is opgegeven
servicePrincipalKey	Geef de sleutel van de toepassing op.	Vereist als updateResourceEndpoint is opgegeven
tenant	Geef de tenantgegevens (domeinnaam of tenant-id) op waaronder uw toepassing zich bevindt. U kunt deze ophalen door de muisaanwijzer in de rechterbovenhoek van Azure Portal te bewegen.	Vereist als updateResourceEndpoint is opgegeven
connectVia	De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde service te verzenden. U kunt Azure Integration Runtime of zelf-hostende Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt.	Nee

Gekoppelde Azure Machine Learning-service

U maakt een gekoppelde Azure Machine Learning-service om een Azure Machine Learning-werkruimte te verbinden met een data factory of Synapse-werkruimte.

Notitie

Momenteel wordt alleen verificatie van service-principals ondersteund voor de gekoppelde Azure Machine Learning-service.

Opmerking

{
    "name": "AzureMLServiceLinkedService",
    "properties": {
        "type": "AzureMLService",
        "typeProperties": {
            "subscriptionId": "subscriptionId",
            "resourceGroupName": "resourceGroupName",
            "mlWorkspaceName": "mlWorkspaceName",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime?",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Eigenschappen

Eigenschappen	Beschrijving	Vereist
Type	De typeeigenschap moet worden ingesteld op: AzureMLService.	Ja
subscriptionId	Azure-abonnements-id	Ja
resourceGroupName	naam	Ja
mlWorkspaceName	Naam van Azure Machine Learning-werkruimte	Ja
servicePrincipalId	Geef de client-id van de toepassing op.	Ja
servicePrincipalKey	Geef de sleutel van de toepassing op.	Ja
tenant	Geef de tenantgegevens (domeinnaam of tenant-id) op waaronder uw toepassing zich bevindt. U kunt deze ophalen door de muisaanwijzer in de rechterbovenhoek van Azure Portal te bewegen.	Vereist als updateResourceEndpoint is opgegeven
connectVia	De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde service te verzenden. U kunt Azure Integration Runtime of zelf-hostende Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt.	Nee

Gekoppelde Azure Data Lake Analytics-service

U maakt een gekoppelde Azure Data Lake Analytics-service om een Azure Data Lake Analytics-rekenservice te koppelen aan een data factory of Synapse-werkruimte. De Data Lake Analytics U-SQL-activiteit in de pijplijn verwijst naar deze gekoppelde service.

Opmerking

{
    "name": "AzureDataLakeAnalyticsLinkedService",
    "properties": {
        "type": "AzureDataLakeAnalytics",
        "typeProperties": {
            "accountName": "adftestaccount",
            "dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID",
            "subscriptionId": "<optional, subscription ID of ADLA>",
            "resourceGroupName": "<optional, resource group name of ADLA>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Eigenschappen

Eigenschappen	Beschrijving	Vereist
type	De typeeigenschap moet worden ingesteld op: AzureDataLakeAnalytics.	Ja
accountName	Azure Data Lake Analytics-accountnaam.	Ja
dataLakeAnalyticsUri	Azure Data Lake Analytics-URI.	Nee
subscriptionId	Azure-abonnements-id	Nee
resourceGroupName	Naam van Azure-resourcegroep	Nee
servicePrincipalId	Geef de client-id van de toepassing op.	Ja
servicePrincipalKey	Geef de sleutel van de toepassing op.	Ja
tenant	Geef de tenantgegevens (domeinnaam of tenant-id) op waaronder uw toepassing zich bevindt. U kunt deze ophalen door de muisaanwijzer in de rechterbovenhoek van Azure Portal te bewegen.	Ja
connectVia	De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde service te verzenden. U kunt Azure Integration Runtime of zelf-hostende Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt.	Nee

Gekoppelde Azure Databricks-service

U kunt een gekoppelde Azure Databricks-service maken om de Databricks-werkruimte te registreren die u gebruikt om de Databricks-workloads (notebook, jar, python) uit te voeren.

Belangrijk

Gekoppelde Databricks-services ondersteunen instantiegroepen en door het systeem toegewezen verificatie van beheerde identiteiten.

Voorbeeld: nieuw taakcluster gebruiken in Databricks

{
    "name": "AzureDatabricks_LS",
    "properties": {
        "type": "AzureDatabricks",
        "typeProperties": {
            "domain": "https://eastus.azuredatabricks.net",
            "newClusterNodeType": "Standard_D3_v2",
            "newClusterNumOfWorker": "1:10",
            "newClusterVersion": "4.0.x-scala2.11",
            "accessToken": {
                "type": "SecureString",
                "value": "YourAccessToken"
            }
        }
    }
}

Voorbeeld: bestaand interactief cluster gebruiken in Databricks

{
    "name": " AzureDataBricksLinkedService",
    "properties": {
      "type": " AzureDatabricks",
      "typeProperties": {
        "domain": "https://westeurope.azuredatabricks.net",
        "accessToken": {
            "type": "SecureString", 
            "value": "YourAccessToken"
          },
        "existingClusterId": "{clusterId}"
        }
}

Eigenschappen

Eigenschappen	Beschrijving	Vereist
naam	Naam van de gekoppelde service	Ja
type	De eigenschap type moet worden ingesteld op: Azure Databricks.	Ja
domain	Geef de Azure-regio dienovereenkomstig op op basis van de regio van de Databricks-werkruimte. Voorbeeld: https://eastus.azuredatabricks.net	Ja
accessToken	Toegangstoken is vereist voor de service om te verifiëren bij Azure Databricks. Het toegangstoken moet worden gegenereerd op basis van de databricks-werkruimte. Meer gedetailleerde stappen voor het vinden van het toegangstoken vindt u hier	Nee
MSI	Gebruik de beheerde identiteit van de service (door het systeem toegewezen) om te verifiëren bij Azure Databricks. U hebt geen toegangstoken nodig bij het gebruik van MSI-verificatie. Meer informatie over verificatie van beheerde identiteiten vindt u hier	Nee
existingClusterId	Cluster-id van een bestaand cluster om alle taken op dit cluster uit te voeren. Dit moet een al gemaakt interactief cluster zijn. Mogelijk moet u het cluster handmatig opnieuw opstarten als het niet meer reageert. Databricks stelt voor om taken uit te voeren op nieuwe clusters voor een grotere betrouwbaarheid. U vindt de cluster-id van een interactief cluster in de Databricks-werkruimte - Clusters ->> Interactieve clusternaam -> Configuratie -> Tags. Meer informatie	Nee
instancePoolId	Exemplaargroep-id van een bestaande pool in databricks-werkruimte.	Nee
newClusterVersion	De Spark-versie van het cluster. Er wordt een taakcluster gemaakt in Databricks.	Nee
newClusterNumOfWorker	Het aantal werkknooppunten dat dit cluster moet hebben. Een cluster heeft één Spark-stuurprogramma en num_workers Executors voor in totaal num_workers + 1 Spark-knooppunten. Een tekenreeks die is opgemaakt int32, zoals '1', betekent dat numOfWorker 1 of 1:10 is, betekent automatisch schalen van 1 als min en 10 als max.	Nee
newClusterNodeType	Dit veld codeert, via één waarde, de resources die beschikbaar zijn voor elk van de Spark-knooppunten in dit cluster. De Spark-knooppunten kunnen bijvoorbeeld worden ingericht en geoptimaliseerd voor geheugen- of rekenintensieve workloads. Dit veld is vereist voor een nieuw cluster	Nee
newClusterSparkConf	een set optionele, door de gebruiker opgegeven Spark-configuratiesleutel-waardeparen. Gebruikers kunnen ook een reeks extra JVM-opties doorgeven aan het stuurprogramma en de uitvoerders via spark.driver.extraJavaOptions en spark.executor.extraJavaOptions.	Nee
newClusterInitScripts	een set optionele door de gebruiker gedefinieerde initialisatiescripts voor het nieuwe cluster. U kunt de init-scripts opgeven in werkruimtebestanden (aanbevolen) of via het DBFS-pad (verouderd).	Nee

Een gekoppelde Azure SQL Database-service

U maakt een gekoppelde Azure SQL-service en gebruikt deze met de opgeslagen procedureactiviteit om een opgeslagen procedure vanuit een pijplijn aan te roepen. Zie het artikel over Azure SQL Connector voor meer informatie over deze gekoppelde service.

Gekoppelde Azure Synapse Analytics-service

U maakt een gekoppelde Azure Synapse Analytics-service en gebruikt deze met de opgeslagen procedureactiviteit om een opgeslagen procedure aan te roepen vanuit een pijplijn. Zie het artikel azure Synapse Analytics Connector voor meer informatie over deze gekoppelde service.

Gekoppelde SQL Server-service

U maakt een gekoppelde SQL Server-service en gebruikt deze met de opgeslagen procedureactiviteit om een opgeslagen procedure vanuit een pijplijn aan te roepen. Zie het artikel over de SQL Server-connector voor meer informatie over deze gekoppelde service.

Gekoppelde Azure Synapse Analytics-service (artefacten)

U maakt een gekoppelde Azure Synapse Analytics-service (Artifacts) en gebruikt deze met de Synapse Notebook-activiteit en synapse Spark-taakdefinitieactiviteit.

Opmerking

{
    "name": "AzureSynapseArtifacts",
    "type": "Microsoft.DataFactory/factories/linkedservice",
    "properties": {
      "properties": {
        "a":{
          "type": "String"
        }
      },
        "annotations": [],
        "type": "AzureSynapseArtifacts",
        "typeProperties": {
            "endpoint": "@{linkedService().a}",
            "authentication": "MSI",
            "workspaceResourceId": ""
        },
        "ConnectVia":{
          "referenceName": "integrationRuntime1",
          "type": "IntegrationRuntimeReference"
        }
    }
}

Eigenschappen

Eigenschappen	Beschrijving	Vereist
naam	Naam van de gekoppelde service	Ja
beschrijving	beschrijving van de gekoppelde service	Nee
Aantekeningen	aantekeningen van de gekoppelde service	Nee
type	De eigenschap type moet worden ingesteld op AzureSynapseArtifacts	Ja
endpoint	De URL van Azure Synapse Analytics	Ja
verificatie	De standaardinstelling is Door het systeem toegewezen beheerde identiteit	Ja
workspaceResourceId	werkruimteresource-id	Ja
connectVia	De Integration Runtime die moet worden gebruikt om verbinding te maken met het gegevensarchief. U kunt Azure Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. De zelf-hostende Integration Runtime wordt momenteel niet ondersteund.	Ja

Gekoppelde Azure Function-service

U maakt een gekoppelde Azure-functieservice en gebruikt deze met de Azure Function-activiteit om Azure Functions in een pijplijn uit te voeren. Het retourtype van de Azure-functie moet een geldige JObjectwaarde zijn. (Houd er rekening mee dat JArray is geen JObject.) Een ander retourtype dan JObject mislukt en genereert de inhoud van het antwoord van de gebruiker een ongeldig JObject.

Eigenschappen	Beschrijving	Vereist
type	De eigenschap Type moet worden ingesteld op: AzureFunction	ja
URL van functie-app	URL voor de Azure Function-app. Indeling is `https://<accountname>.azurewebsites.net`. Deze URL is de waarde onder de URL-sectie bij het weergeven van uw functie-app in Azure Portal	ja
functietoets	Toegangssleutel voor de Azure-functie. Klik op de sectie Beheren voor de respectieve functie en kopieer de functiesleutel of de hostsleutel. Meer informatie hier: Werken met toegangssleutels	ja

Zie Gegevens transformeren voor een lijst met de ondersteunde transformatieactiviteiten.

Delen via

Compute-omgevingen die worden ondersteund door Azure Data Factory- en Synapse-pijplijnen

HDInsight-rekenomgeving

Een gekoppelde Azure HDInsight-service op aanvraag

Opmerking

Eigenschappen

Verificatie van service-principal

Geavanceerde eigenschappen

Knooppuntgrootten

Uw eigen rekenomgeving gebruiken

Gekoppelde Azure HDInsight-service

Opmerking

Eigenschappen

Gekoppelde Azure Batch-service

Opmerking

Eigenschappen

Gekoppelde Machine Learning Studio-service (klassiek)

Opmerking

Eigenschappen

Gekoppelde Azure Machine Learning-service

Opmerking

Eigenschappen

Gekoppelde Azure Data Lake Analytics-service

Opmerking

Eigenschappen

Gekoppelde Azure Databricks-service

Voorbeeld: nieuw taakcluster gebruiken in Databricks

Voorbeeld: bestaand interactief cluster gebruiken in Databricks

Eigenschappen

Een gekoppelde Azure SQL Database-service

Gekoppelde Azure Synapse Analytics-service

Gekoppelde SQL Server-service

Gekoppelde Azure Synapse Analytics-service (artefacten)

Opmerking

Eigenschappen

Gekoppelde Azure Function-service

Feedback

Aanvullende resources

Delen via

Compute-omgevingen die worden ondersteund door Azure Data Factory- en Synapse-pijplijnen

HDInsight-rekenomgeving

Een gekoppelde Azure HDInsight-service op aanvraag

Opmerking

Eigenschappen

Verificatie van service-principal

Geavanceerde eigenschappen

Knooppuntgrootten

Uw eigen rekenomgeving gebruiken

Gekoppelde Azure HDInsight-service

Opmerking

Eigenschappen

Gekoppelde Azure Batch-service

Opmerking

Eigenschappen

Gekoppelde Machine Learning Studio-service (klassiek)

Opmerking

Eigenschappen

Gekoppelde Azure Machine Learning-service

Opmerking

Eigenschappen

Gekoppelde Azure Data Lake Analytics-service

Opmerking

Eigenschappen

Gekoppelde Azure Databricks-service

Voorbeeld: nieuw taakcluster gebruiken in Databricks

Voorbeeld: bestaand interactief cluster gebruiken in Databricks

Eigenschappen

Een gekoppelde Azure SQL Database-service

Gekoppelde Azure Synapse Analytics-service

Gekoppelde SQL Server-service

Gekoppelde Azure Synapse Analytics-service (artefacten)

Opmerking

Eigenschappen

Gekoppelde Azure Function-service

Gerelateerde inhoud

Feedback

Aanvullende resources