Compute-omgevingen die worden ondersteund door Azure Data Factory- en Synapse-pijplijnen
VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics
Tip
Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .
Belangrijk
Ondersteuning voor Azure Machine Learning Studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden op die datum over te stappen naar Azure Machine Learning .
Vanaf 1 december 2021 kunt u geen nieuwe Machine Learning Studio-resources (klassiek) maken (werkruimte- en webserviceplan). Tot en met 31 augustus 2024 kunt u de bestaande Experimenten en webservices van Machine Learning Studio (klassiek) blijven gebruiken. Zie voor meer informatie:
- Migreren naar Azure Machine Learning vanuit Machine Learning Studio (klassiek)
- Wat is Azure Machine Learning?
Machine Learning Studio -documentatie (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet bijgewerkt.
In dit artikel worden verschillende rekenomgevingen uitgelegd die u kunt gebruiken om gegevens te verwerken of te transformeren. Het biedt ook informatie over verschillende configuraties (on-demand versus bring your own) die worden ondersteund bij het configureren van gekoppelde services die deze rekenomgevingen koppelen.
De volgende tabel bevat een lijst met ondersteunde rekenomgevingen en de activiteiten die erop kunnen worden uitgevoerd.
HDInsight-rekenomgeving
Raadpleeg de onderstaande tabel voor meer informatie over de ondersteunde gekoppelde opslagservicetypen voor configuratie in een on-demand en BYOC-omgeving (Bring Your Own Compute).
Gekoppelde compute-service | Eigenschapsnaam | Beschrijving | Blob | ADLS Gen2 | Azure SQL Database | ADLS Gen 1 |
---|---|---|---|---|---|---|
Op aanvraag | linkedServiceName | Gekoppelde Azure Storage-service die moet worden gebruikt door het cluster op aanvraag voor het opslaan en verwerken van gegevens. | Ja | Ja | No | Nr. |
additionalLinkedServiceNames | Hiermee geeft u extra opslagaccounts op voor de gekoppelde HDInsight-service, zodat de service deze namens u kan registreren. | Ja | No | Nee | Nr. | |
hcatalogLinkedServiceName | De naam van de gekoppelde Azure SQL-service die verwijst naar de HCatalog-database. Het HDInsight-cluster op aanvraag wordt gemaakt met behulp van de Azure SQL-database als metastore. | Nee | No | Ja | Nr. | |
BYOC | linkedServiceName | De naslaginformatie over de gekoppelde Azure Storage-service. | Ja | Ja | No | Nr. |
additionalLinkedServiceNames | Hiermee geeft u extra opslagaccounts op voor de gekoppelde HDInsight-service, zodat de service deze namens u kan registreren. | Nee | Nee | Nee | Nr. | |
hcatalogLinkedServiceName | Een verwijzing naar de gekoppelde Azure SQL-service die verwijst naar de HCatalog-database. | Nee | Nee | Nee | Nr. |
Een gekoppelde Azure HDInsight-service op aanvraag
In dit type configuratie wordt de computeromgeving volledig beheerd door de service. Deze wordt automatisch door de service gemaakt voordat een taak wordt verzonden om gegevens te verwerken en te verwijderen wanneer de taak is voltooid. U kunt een gekoppelde service maken voor de on-demand rekenomgeving, deze configureren en gedetailleerde instellingen beheren voor taakuitvoering, clusterbeheer en bootstrapping-acties.
Notitie
De configuratie op aanvraag wordt momenteel alleen ondersteund voor Azure HDInsight-clusters. Azure Databricks biedt ook ondersteuning voor on-demand taken met behulp van taakclusters. Zie de gekoppelde Azure Databricks-service voor meer informatie.
De service kan automatisch een HDInsight-cluster op aanvraag maken om gegevens te verwerken. Het cluster wordt gemaakt in dezelfde regio als het opslagaccount (de eigenschap linkedServiceName in de JSON) die is gekoppeld aan het cluster. Het opslagaccount must
is een standaard Azure Storage-account voor algemeen gebruik.
Let op de volgende belangrijke punten over gekoppelde HDInsight-service op aanvraag:
- Het HDInsight-cluster op aanvraag wordt gemaakt onder uw Azure-abonnement. U kunt het cluster in Azure Portal zien wanneer het cluster actief is.
- De logboeken voor taken die worden uitgevoerd op een HDInsight-cluster op aanvraag, worden gekopieerd naar het opslagaccount dat is gekoppeld aan het HDInsight-cluster. De clusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword die in uw gekoppelde servicedefinitie is gedefinieerd, worden gebruikt om u aan te melden bij het cluster voor uitgebreide probleemoplossing tijdens de levenscyclus van het cluster.
- Er worden alleen kosten in rekening gebracht voor het moment waarop het HDInsight-cluster actief en actief is.
- U kunt een scriptactie gebruiken met de gekoppelde Azure HDInsight-service op aanvraag.
Belangrijk
Het duurt doorgaans 20 minuten of langer om een Azure HDInsight-cluster op aanvraag in te richten.
Opmerking
De volgende JSON definieert een gekoppelde HDInsight-service op basis van Linux op aanvraag. De service maakt automatisch een HDInsight-cluster op basis van Linux om de vereiste activiteit te verwerken.
{
"name": "HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterType": "hadoop",
"clusterSize": 1,
"timeToLive": "00:15:00",
"hostSubscriptionId": "<subscription ID>",
"servicePrincipalId": "<service principal ID>",
"servicePrincipalKey": {
"value": "<service principal key>",
"type": "SecureString"
},
"tenant": "<tenent id>",
"clusterResourceGroup": "<resource group name>",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Belangrijk
Het HDInsight-cluster maakt een standaardcontainer in de blobopslag die u hebt opgegeven in de JSON (linkedServiceName). HDInsight verwijdert deze container niet wanneer het cluster wordt verwijderd. Dit is zo ontworpen. Met een gekoppelde on-demand HDInsight-service wordt er steeds een HDInsight-cluster gemaakt wanneer er een segment moet worden verwerkt, tenzij er een bestaand livecluster is (timeToLive). Het cluster wordt verwijderd wanneer het verwerken is voltooid.
Naarmate er meer activiteit wordt uitgevoerd, ziet u veel containers in uw Azure Blob Storage. Als u ze niet nodig hebt voor het oplossen van problemen met de taken, kunt u ze verwijderen om de opslagkosten te verlagen. De namen van deze containers volgen een patroon: adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp
. Gebruik hulpprogramma's zoals Microsoft Azure Storage Explorer om containers in uw Azure-blobopslag te verwijderen.
Eigenschappen
Eigenschappen | Beschrijving | Vereist |
---|---|---|
type | De eigenschap type moet worden ingesteld op HDInsightOnDemand. | Ja |
clusterSize | Aantal werkknooppunten/gegevensknooppunten in het cluster. Het HDInsight-cluster wordt gemaakt met 2 hoofdknooppunten, samen met het aantal werkknooppunten dat u voor deze eigenschap opgeeft. De knooppunten hebben een grootte Standard_D3 met vier kernen, dus een cluster met 4 werkknooppunten heeft 24 kernen (4*4 = 16 kernen voor werkknooppunten, plus 2*4 = 8 kernen voor hoofdknooppunten). Zie Clusters instellen in HDInsight met Hadoop, Spark, Kafka en meer voor meer informatie. | Ja |
linkedServiceName | Gekoppelde Azure Storage-service die moet worden gebruikt door het cluster op aanvraag voor het opslaan en verwerken van gegevens. Het HDInsight-cluster wordt gemaakt in dezelfde regio als dit Azure Storage-account. Voor Azure HDInsight geldt een beperking voor het totale aantal kernen dat u kunt gebruiken in elke Azure-regio die wordt ondersteund. Zorg ervoor dat u voldoende kernquota in die Azure-regio hebt om te voldoen aan de vereiste clusterSize. Raadpleeg clusters instellen in HDInsight met Hadoop, Spark, Kafka en meer voor meer informatie. Op dit moment kunt u geen HDInsight-cluster op aanvraag maken dat gebruikmaakt van een Azure Data Lake Storage (Gen 2) als opslag. Als u de resultaatgegevens uit HDInsight-verwerking wilt opslaan in een Azure Data Lake Storage (Gen 2), gebruikt u een kopieeractiviteit om de gegevens van Azure Blob Storage naar Azure Data Lake Storage (Gen 2) te kopiëren. |
Ja |
clusterResourceGroup | Het HDInsight-cluster wordt gemaakt in deze resourcegroep. | Ja |
tijdtolief | De toegestane niet-actieve tijd voor het HDInsight-cluster op aanvraag. Hiermee geeft u op hoe lang het HDInsight-cluster op aanvraag actief blijft na voltooiing van een activiteitsuitvoering als er geen andere actieve taken in het cluster zijn. De minimaal toegestane waarde is 5 minuten (00:05:00). Als een activiteitsuitvoering bijvoorbeeld 6 minuten duurt en tijdtolief is ingesteld op 5 minuten, blijft het cluster 5 minuten actief na de 6 minuten na het verwerken van de activiteitsuitvoering. Als een andere activiteitsuitvoering wordt uitgevoerd met het venster van 6 minuten, wordt deze door hetzelfde cluster verwerkt. Het maken van een HDInsight-cluster op aanvraag is een dure bewerking (kan enige tijd duren). Gebruik deze instelling dus indien nodig om de prestaties van de service te verbeteren door een HDInsight-cluster op aanvraag opnieuw te gebruiken. Als u een tijdtolieve waarde instelt op 0, wordt het cluster verwijderd zodra de uitvoering van de activiteit is voltooid. Terwijl, als u een hoge waarde instelt, het cluster niet actief kan blijven om u aan te melden voor een bepaald doel voor probleemoplossing, maar dit kan leiden tot hoge kosten. Daarom is het belangrijk dat u de juiste waarde instelt op basis van uw behoeften. Als de waarde van de tijdtolieve eigenschap op de juiste wijze is ingesteld, kunnen meerdere pijplijnen het exemplaar van het HDInsight-cluster op aanvraag delen. |
Ja |
clusterType | Het type HDInsight-cluster dat moet worden gemaakt. Toegestane waarden zijn 'hadoop' en 'spark'. Als dit niet is opgegeven, is de standaardwaarde hadoop. Een cluster waarvoor Enterprise Security Package is ingeschakeld, kan niet op aanvraag worden gemaakt. Gebruik in plaats daarvan een bestaand cluster of bring your own compute. | Nee |
version | Versie van het HDInsight-cluster. Als dit niet is opgegeven, wordt de huidige standaardversie van HDInsight gebruikt. | Nee |
hostSubscriptionId | De Azure-abonnements-id die wordt gebruikt voor het maken van een HDInsight-cluster. Als dit niet is opgegeven, wordt de abonnements-id van uw Azure-aanmeldingscontext gebruikt. | Nee |
clusterNamePrefix | Het voorvoegsel van de HDI-clusternaam, een tijdstempel wordt automatisch toegevoegd aan het einde van de clusternaam | Nee |
sparkVersion | De versie van Spark als het clustertype Spark is | Nee |
additionalLinkedServiceNames | Hiermee geeft u extra opslagaccounts op voor de gekoppelde HDInsight-service, zodat de service deze namens u kan registreren. Deze opslagaccounts moeten zich in dezelfde regio bevinden als het HDInsight-cluster, dat wordt gemaakt in dezelfde regio als het opslagaccount dat is opgegeven door linkedServiceName. | Nee |
osType | Type besturingssysteem. Toegestane waarden zijn: Linux en Windows (alleen voor HDInsight 3.3). Standaard is Linux. | Nee |
hcatalogLinkedServiceName | De naam van de gekoppelde Azure SQL-service die verwijst naar de HCatalog-database. Het HDInsight-cluster op aanvraag wordt gemaakt met behulp van de Azure SQL Database als metastore. | Nee |
connectVia | De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde HDInsight-service te verzenden. Voor een gekoppelde HDInsight-service op aanvraag ondersteunt deze alleen Azure Integration Runtime. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. | Nee |
clusterUserName | De gebruikersnaam voor toegang tot het cluster. | Nee |
clusterPassword | Het wachtwoord in het type beveiligde tekenreeks voor toegang tot het cluster. | Nee |
clusterSshUserName | De gebruikersnaam voor SSH maakt extern verbinding met het knooppunt van het cluster (voor Linux). | Nee |
clusterSshPassword | Het wachtwoord in het type beveiligde tekenreeks om het clusterknooppunt (voor Linux) op afstand te verbinden met SSH. | Nee |
scriptActions | Geef een script op voor HDInsight-clusteraanpassingen tijdens het maken van een cluster op aanvraag. Het bewerkingsprogramma voor de gebruikersinterface ondersteunt momenteel het opgeven van slechts één scriptactie, maar u kunt deze beperking in de JSON doorlopen (geef meerdere scriptacties op in de JSON). |
Nee |
Belangrijk
HDInsight ondersteunt meerdere Hadoop-clusterversies die kunnen worden geïmplementeerd. Elke versiekeuze maakt een specifieke versie van de HDP-distributie (Hortonworks Data Platform) en een set onderdelen die zich in die distributie bevinden. De lijst met ondersteunde HDInsight-versies wordt bijgewerkt om de meest recente Onderdelen en oplossingen van het Hadoop-ecosysteem te bieden. Zorg ervoor dat u altijd verwijst naar de meest recente informatie van de ondersteunde HDInsight-versie en het besturingssysteemtype om ervoor te zorgen dat u een ondersteunde versie van HDInsight gebruikt.
Belangrijk
Momenteel bieden gekoppelde HDInsight-services geen ondersteuning voor HBase, Interactive Query (Hive LLAP), Storm.
- additionalLinkedServiceNames JSON-voorbeeld
"additionalLinkedServiceNames": [{
"referenceName": "MyStorageLinkedService2",
"type": "LinkedServiceReference"
}]
Verificatie van service-principal
Voor de gekoppelde on-demand HDInsight-service is een service-principal-verificatie vereist voor het maken van HDInsight-clusters namens u. Als u service-principalverificatie wilt gebruiken, registreert u een toepassingsentiteit in Microsoft Entra ID en verleent u deze de rol Inzender van het abonnement of de resourcegroep waarin het HDInsight-cluster wordt gemaakt. Zie De portal gebruiken om een Microsoft Entra-toepassing en service-principal te maken die toegang heeft tot resources voor gedetailleerde stappen. Noteer de volgende waarden die u gebruikt om de gekoppelde service te definiëren:
- Toepassings-id
- Toepassingssleutel
- Tenant-id
Gebruik service-principalverificatie door de volgende eigenschappen op te geven:
Eigenschappen | Beschrijving | Vereist |
---|---|---|
servicePrincipalId | Geef de client-id van de toepassing op. | Ja |
servicePrincipalKey | Geef de sleutel van de toepassing op. | Ja |
tenant | Geef de tenantgegevens (domeinnaam of tenant-id) op waaronder uw toepassing zich bevindt. U kunt deze ophalen door de muisaanwijzer in de rechterbovenhoek van Azure Portal te bewegen. | Ja |
Geavanceerde eigenschappen
U kunt ook de volgende eigenschappen opgeven voor de gedetailleerde configuratie van het HDInsight-cluster op aanvraag.
Eigenschappen | Beschrijving | Vereist |
---|---|---|
coreConfiguration | Hiermee geeft u de kernconfiguratieparameters (zoals in core-site.xml) op voor het HDInsight-cluster dat moet worden gemaakt. | Nee |
hBaseConfiguration | Hiermee geeft u de HBase-configuratieparameters (hbase-site.xml) voor het HDInsight-cluster op. | Nee |
hdfsConfiguration | Hiermee geeft u de HDFS-configuratieparameters (hdfs-site.xml) voor het HDInsight-cluster op. | Nee |
hiveConfiguration | Hiermee geeft u de hive-configuratieparameters (hive-site.xml) voor het HDInsight-cluster op. | Nee |
mapReduceConfiguration | Hiermee geeft u de MapReduce-configuratieparameters (mapred-site.xml) voor het HDInsight-cluster op. | Nee |
oozieConfiguration | Hiermee geeft u de Oozie-configuratieparameters (oozie-site.xml) voor het HDInsight-cluster op. | Nee |
stormConfiguration | Hiermee geeft u de Storm-configuratieparameters (storm-site.xml) voor het HDInsight-cluster op. | Nee |
yarnConfiguration | Hiermee geeft u de Yarn-configuratieparameters (yarn-site.xml) voor het HDInsight-cluster op. | Nee |
- Voorbeeld: on-demand HDInsight-clusterconfiguratie met geavanceerde eigenschappen
{
"name": " HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterSize": 16,
"timeToLive": "01:30:00",
"hostSubscriptionId": "<subscription ID>",
"servicePrincipalId": "<service principal ID>",
"servicePrincipalKey": {
"value": "<service principal key>",
"type": "SecureString"
},
"tenant": "<tenent id>",
"clusterResourceGroup": "<resource group name>",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"coreConfiguration": {
"templeton.mapper.memory.mb": "5000"
},
"hiveConfiguration": {
"templeton.mapper.memory.mb": "5000"
},
"mapReduceConfiguration": {
"mapreduce.reduce.java.opts": "-Xmx4000m",
"mapreduce.map.java.opts": "-Xmx4000m",
"mapreduce.map.memory.mb": "5000",
"mapreduce.reduce.memory.mb": "5000",
"mapreduce.job.reduce.slowstart.completedmaps": "0.8"
},
"yarnConfiguration": {
"yarn.app.mapreduce.am.resource.mb": "5000",
"mapreduce.map.memory.mb": "5000"
},
"additionalLinkedServiceNames": [{
"referenceName": "MyStorageLinkedService2",
"type": "LinkedServiceReference"
}]
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
Knooppuntgrootten
U kunt de grootte van hoofd-, gegevens- en zookeeper-knooppunten opgeven met behulp van de volgende eigenschappen:
Eigenschappen | Beschrijving | Vereist |
---|---|---|
headNodeSize | Hiermee geeft u de grootte van het hoofdknooppunt. De standaardwaarde is: Standard_D3. Zie de sectie Knooppuntgrootten opgeven voor meer informatie. | Nee |
dataNodeSize | Hiermee geeft u de grootte van het gegevensknooppunt. De standaardwaarde is: Standard_D3. | Nee |
zookeeperNodeSize | Hiermee geeft u de grootte van het Zoo Keeper-knooppunt. De standaardwaarde is: Standard_D3. | Nee |
- Knooppuntgrootten opgeven Zie het artikel Grootten van virtuele machines voor tekenreekswaarden die u moet opgeven voor de eigenschappen die in de vorige sectie worden genoemd. De waarden moeten voldoen aan de CMDLETs & APIS waarnaar in het artikel wordt verwezen. Zoals u in het artikel kunt zien, heeft het gegevensknooppunt van grote grootte (standaard) 7 GB geheugen, wat mogelijk niet goed genoeg is voor uw scenario.
Als u hoofdknooppunten en werkknooppunten van D4-grootte wilt maken, geeft u Standard_D4 op als de waarde voor de eigenschappen headNodeSize en dataNodeSize.
"headNodeSize": "Standard_D4",
"dataNodeSize": "Standard_D4",
Als u een verkeerde waarde voor deze eigenschappen opgeeft, wordt mogelijk de volgende fout weergegeven: Kan cluster niet maken. Uitzondering: Kan het cluster niet maken. Bewerking is mislukt met code 400. Cluster heeft status: 'Fout'. Bericht: 'PreClusterCreationValidationFailure'. Wanneer u deze fout ontvangt, moet u ervoor zorgen dat u de naam van de CMDLET & APIS uit de tabel in het artikel Grootten van virtuele machines gebruikt.
Uw eigen rekenomgeving gebruiken
In dit type configuratie kunnen gebruikers een al bestaande computeromgeving registreren als een gekoppelde service. De computeromgeving wordt beheerd door de gebruiker en de service gebruikt deze om de activiteiten uit te voeren.
Dit type configuratie wordt ondersteund voor de volgende rekenomgevingen:
- Azure HDInsight
- Azure Batch
- Azure Machine Learning
- Azure Data Lake Analytics
- Azure SQL DB, Azure Synapse Analytics, SQL Server
Gekoppelde Azure HDInsight-service
U kunt een gekoppelde Azure HDInsight-service maken om uw eigen HDInsight-cluster te registreren met een data factory of Synapse-werkruimte.
Opmerking
{
"name": "HDInsightLinkedService",
"properties": {
"type": "HDInsight",
"typeProperties": {
"clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
"userName": "username",
"password": {
"value": "passwordvalue",
"type": "SecureString"
},
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Eigenschappen
Eigenschappen | Beschrijving | Vereist |
---|---|---|
type | De eigenschap type moet worden ingesteld op HDInsight. | Ja |
clusterUri | De URI van het HDInsight-cluster. | Ja |
gebruikersnaam | Geef de naam op van de gebruiker die moet worden gebruikt om verbinding te maken met een bestaand HDInsight-cluster. | Ja |
password | Geef het wachtwoord op voor het gebruikersaccount. | Ja |
linkedServiceName | Naam van de gekoppelde Azure Storage-service die verwijst naar de Azure Blob Storage die wordt gebruikt door het HDInsight-cluster. Momenteel kunt u geen gekoppelde Azure Data Lake Storage-service (Gen 2) voor deze eigenschap opgeven. Als het HDInsight-cluster toegang heeft tot Data Lake Store, hebt u toegang tot gegevens in Azure Data Lake Storage (Gen 2) vanuit Hive/Pig-scripts. |
Ja |
isEspEnabled | Geef 'true' op als het HDInsight-cluster Enterprise Security Package is ingeschakeld. De standaardwaarde is 'false'. | Nee |
connectVia | De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde service te verzenden. U kunt Azure Integration Runtime of zelf-hostende Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. Voor HDInsight-cluster met Enterprise Security Package (ESP) gebruikt u een zelf-hostende Integration Runtime, die een detectieregel heeft voor het cluster of moet worden geïmplementeerd in hetzelfde virtuele netwerk als het ESP HDInsight-cluster. |
Nee |
Belangrijk
HDInsight ondersteunt meerdere Hadoop-clusterversies die kunnen worden geïmplementeerd. Elke versiekeuze maakt een specifieke versie van de HDP-distributie (Hortonworks Data Platform) en een set onderdelen die zich in die distributie bevinden. De lijst met ondersteunde HDInsight-versies wordt bijgewerkt om de meest recente Onderdelen en oplossingen van het Hadoop-ecosysteem te bieden. Zorg ervoor dat u altijd verwijst naar de meest recente informatie van de ondersteunde HDInsight-versie en het besturingssysteemtype om ervoor te zorgen dat u een ondersteunde versie van HDInsight gebruikt.
Belangrijk
Momenteel bieden gekoppelde HDInsight-services geen ondersteuning voor HBase, Interactive Query (Hive LLAP), Storm.
Gekoppelde Azure Batch-service
Notitie
Het wordt aanbevolen de Azure Az PowerShell-module te gebruiken om te communiceren met Azure. Zie Azure PowerShell installeren om aan de slag te gaan. Raadpleeg Azure PowerShell migreren van AzureRM naar Az om te leren hoe u naar de Azure PowerShell-module migreert.
U kunt een gekoppelde Azure Batch-service maken om een Batch-pool met virtuele machines (VM's) te registreren bij een gegevens- of Synapse-werkruimte. U kunt aangepaste activiteiten uitvoeren met Behulp van Azure Batch.
Zie de volgende artikelen als u geen gebruik hebt gemaakt van de Azure Batch-service:
- Basisbeginselen van Azure Batch voor een overzicht van de Azure Batch-service.
- Cmdlet New-AzBatchAccount voor het maken van een Azure Batch-account (of) Azure Portal om het Azure Batch-account te maken met behulp van Azure Portal. Zie Het artikel PowerShell gebruiken om het Azure Batch-account te beheren voor gedetailleerde instructies over het gebruik van de cmdlet.
- Cmdlet New-AzBatchPool voor het maken van een Azure Batch-pool.
Belangrijk
Bij het maken van een nieuwe Azure Batch-pool moet VirtualMachineConfiguration worden gebruikt en NIET CloudServiceConfiguration. Raadpleeg de migratierichtlijnen voor Azure Batch-pool voor meer informatie.
Opmerking
{
"name": "AzureBatchLinkedService",
"properties": {
"type": "AzureBatch",
"typeProperties": {
"accountName": "batchaccount",
"accessKey": {
"type": "SecureString",
"value": "access key"
},
"batchUri": "https://batchaccount.region.batch.azure.com",
"poolName": "poolname",
"linkedServiceName": {
"referenceName": "StorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Eigenschappen
Eigenschappen | Beschrijving | Vereist |
---|---|---|
type | De typeeigenschap moet worden ingesteld op AzureBatch. | Ja |
accountName | Naam van het Azure Batch-account. | Ja |
accessKey | Toegangssleutel voor het Azure Batch-account. | Ja |
batchUri | URL naar uw Azure Batch-account, in de indeling van https:// batchaccountname.region.batch.azure.com. | Ja |
poolName | Naam van de pool van virtuele machines. | Ja |
linkedServiceName | Naam van de gekoppelde Azure Storage-service die is gekoppeld aan deze gekoppelde Azure Batch-service. Deze gekoppelde service wordt gebruikt voor faseringsbestanden die nodig zijn om de activiteit uit te voeren. | Ja |
connectVia | De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde service te verzenden. U kunt Azure Integration Runtime of zelf-hostende Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. | Nee |
Gekoppelde Machine Learning Studio-service (klassiek)
Belangrijk
Ondersteuning voor Azure Machine Learning Studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden op die datum over te stappen naar Azure Machine Learning .
Vanaf 1 december 2021 kunt u geen nieuwe Machine Learning Studio-resources (klassiek) maken (werkruimte- en webserviceplan). Tot en met 31 augustus 2024 kunt u de bestaande Experimenten en webservices van Machine Learning Studio (klassiek) blijven gebruiken. Zie voor meer informatie:
- Migreren naar Azure Machine Learning vanuit Machine Learning Studio (klassiek)
- Wat is Azure Machine Learning?
Machine Learning Studio -documentatie (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet bijgewerkt.
U maakt een gekoppelde Machine Learning Studio-service (klassiek) om een score-eindpunt voor Machine Learning Studio (klassiek) te registreren voor een data factory of Synapse-werkruimte.
Opmerking
{
"name": "AzureMLLinkedService",
"properties": {
"type": "AzureML",
"typeProperties": {
"mlEndpoint": "https://[batch scoring endpoint]/jobs",
"apiKey": {
"type": "SecureString",
"value": "access key"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Eigenschappen
Eigenschappen | Beschrijving | Vereist |
---|---|---|
Type | De typeeigenschap moet worden ingesteld op: AzureML. | Ja |
mlEndpoint | De batchscore-URL. | Ja |
apiKey | De API van het gepubliceerde werkruimtemodel. | Ja |
updateResourceEndpoint | De RESOURCE-URL bijwerken voor een ML Studio-webservice-eindpunt (klassiek) dat wordt gebruikt om de voorspellende webservice bij te werken met een getraind modelbestand | Nee |
servicePrincipalId | Geef de client-id van de toepassing op. | Vereist als updateResourceEndpoint is opgegeven |
servicePrincipalKey | Geef de sleutel van de toepassing op. | Vereist als updateResourceEndpoint is opgegeven |
tenant | Geef de tenantgegevens (domeinnaam of tenant-id) op waaronder uw toepassing zich bevindt. U kunt deze ophalen door de muisaanwijzer in de rechterbovenhoek van Azure Portal te bewegen. | Vereist als updateResourceEndpoint is opgegeven |
connectVia | De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde service te verzenden. U kunt Azure Integration Runtime of zelf-hostende Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. | Nee |
Gekoppelde Azure Machine Learning-service
U maakt een gekoppelde Azure Machine Learning-service om een Azure Machine Learning-werkruimte te verbinden met een data factory of Synapse-werkruimte.
Notitie
Momenteel wordt alleen verificatie van service-principals ondersteund voor de gekoppelde Azure Machine Learning-service.
Opmerking
{
"name": "AzureMLServiceLinkedService",
"properties": {
"type": "AzureMLService",
"typeProperties": {
"subscriptionId": "subscriptionId",
"resourceGroupName": "resourceGroupName",
"mlWorkspaceName": "mlWorkspaceName",
"servicePrincipalId": "service principal id",
"servicePrincipalKey": {
"value": "service principal key",
"type": "SecureString"
},
"tenant": "tenant ID"
},
"connectVia": {
"referenceName": "<name of Integration Runtime?",
"type": "IntegrationRuntimeReference"
}
}
}
Eigenschappen
Eigenschappen | Beschrijving | Vereist |
---|---|---|
Type | De typeeigenschap moet worden ingesteld op: AzureMLService. | Ja |
subscriptionId | Azure-abonnements-id | Ja |
resourceGroupName | naam | Ja |
mlWorkspaceName | Naam van Azure Machine Learning-werkruimte | Ja |
servicePrincipalId | Geef de client-id van de toepassing op. | Ja |
servicePrincipalKey | Geef de sleutel van de toepassing op. | Ja |
tenant | Geef de tenantgegevens (domeinnaam of tenant-id) op waaronder uw toepassing zich bevindt. U kunt deze ophalen door de muisaanwijzer in de rechterbovenhoek van Azure Portal te bewegen. | Vereist als updateResourceEndpoint is opgegeven |
connectVia | De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde service te verzenden. U kunt Azure Integration Runtime of zelf-hostende Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. | Nee |
Gekoppelde Azure Data Lake Analytics-service
U maakt een gekoppelde Azure Data Lake Analytics-service om een Azure Data Lake Analytics-rekenservice te koppelen aan een data factory of Synapse-werkruimte. De Data Lake Analytics U-SQL-activiteit in de pijplijn verwijst naar deze gekoppelde service.
Opmerking
{
"name": "AzureDataLakeAnalyticsLinkedService",
"properties": {
"type": "AzureDataLakeAnalytics",
"typeProperties": {
"accountName": "adftestaccount",
"dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
"servicePrincipalId": "service principal id",
"servicePrincipalKey": {
"value": "service principal key",
"type": "SecureString"
},
"tenant": "tenant ID",
"subscriptionId": "<optional, subscription ID of ADLA>",
"resourceGroupName": "<optional, resource group name of ADLA>"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Eigenschappen
Eigenschappen | Beschrijving | Vereist |
---|---|---|
type | De typeeigenschap moet worden ingesteld op: AzureDataLakeAnalytics. | Ja |
accountName | Azure Data Lake Analytics-accountnaam. | Ja |
dataLakeAnalyticsUri | Azure Data Lake Analytics-URI. | Nee |
subscriptionId | Azure-abonnements-id | Nee |
resourceGroupName | Naam van Azure-resourcegroep | Nee |
servicePrincipalId | Geef de client-id van de toepassing op. | Ja |
servicePrincipalKey | Geef de sleutel van de toepassing op. | Ja |
tenant | Geef de tenantgegevens (domeinnaam of tenant-id) op waaronder uw toepassing zich bevindt. U kunt deze ophalen door de muisaanwijzer in de rechterbovenhoek van Azure Portal te bewegen. | Ja |
connectVia | De Integration Runtime die moet worden gebruikt om de activiteiten naar deze gekoppelde service te verzenden. U kunt Azure Integration Runtime of zelf-hostende Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. | Nee |
Gekoppelde Azure Databricks-service
U kunt een gekoppelde Azure Databricks-service maken om de Databricks-werkruimte te registreren die u gebruikt om de Databricks-workloads (notebook, jar, python) uit te voeren.
Belangrijk
Gekoppelde Databricks-services ondersteunen instantiegroepen en door het systeem toegewezen verificatie van beheerde identiteiten.
Voorbeeld: nieuw taakcluster gebruiken in Databricks
{
"name": "AzureDatabricks_LS",
"properties": {
"type": "AzureDatabricks",
"typeProperties": {
"domain": "https://eastus.azuredatabricks.net",
"newClusterNodeType": "Standard_D3_v2",
"newClusterNumOfWorker": "1:10",
"newClusterVersion": "4.0.x-scala2.11",
"accessToken": {
"type": "SecureString",
"value": "YourAccessToken"
}
}
}
}
Voorbeeld: bestaand interactief cluster gebruiken in Databricks
{
"name": " AzureDataBricksLinkedService",
"properties": {
"type": " AzureDatabricks",
"typeProperties": {
"domain": "https://westeurope.azuredatabricks.net",
"accessToken": {
"type": "SecureString",
"value": "YourAccessToken"
},
"existingClusterId": "{clusterId}"
}
}
Eigenschappen
Eigenschappen | Beschrijving | Vereist |
---|---|---|
naam | Naam van de gekoppelde service | Ja |
type | De eigenschap type moet worden ingesteld op: Azure Databricks. | Ja |
domain | Geef de Azure-regio dienovereenkomstig op op basis van de regio van de Databricks-werkruimte. Voorbeeld: https://eastus.azuredatabricks.net | Ja |
accessToken | Toegangstoken is vereist voor de service om te verifiëren bij Azure Databricks. Het toegangstoken moet worden gegenereerd op basis van de databricks-werkruimte. Meer gedetailleerde stappen voor het vinden van het toegangstoken vindt u hier | Nee |
MSI | Gebruik de beheerde identiteit van de service (door het systeem toegewezen) om te verifiëren bij Azure Databricks. U hebt geen toegangstoken nodig bij het gebruik van MSI-verificatie. Meer informatie over verificatie van beheerde identiteiten vindt u hier | Nee |
existingClusterId | Cluster-id van een bestaand cluster om alle taken op dit cluster uit te voeren. Dit moet een al gemaakt interactief cluster zijn. Mogelijk moet u het cluster handmatig opnieuw opstarten als het niet meer reageert. Databricks stelt voor om taken uit te voeren op nieuwe clusters voor een grotere betrouwbaarheid. U vindt de cluster-id van een interactief cluster in de Databricks-werkruimte - Clusters ->> Interactieve clusternaam -> Configuratie -> Tags. Meer informatie | Nee |
instancePoolId | Exemplaargroep-id van een bestaande pool in databricks-werkruimte. | Nee |
newClusterVersion | De Spark-versie van het cluster. Er wordt een taakcluster gemaakt in Databricks. | Nee |
newClusterNumOfWorker | Het aantal werkknooppunten dat dit cluster moet hebben. Een cluster heeft één Spark-stuurprogramma en num_workers Executors voor in totaal num_workers + 1 Spark-knooppunten. Een tekenreeks die is opgemaakt int32, zoals '1', betekent dat numOfWorker 1 of 1:10 is, betekent automatisch schalen van 1 als min en 10 als max. | Nee |
newClusterNodeType | Dit veld codeert, via één waarde, de resources die beschikbaar zijn voor elk van de Spark-knooppunten in dit cluster. De Spark-knooppunten kunnen bijvoorbeeld worden ingericht en geoptimaliseerd voor geheugen- of rekenintensieve workloads. Dit veld is vereist voor een nieuw cluster | Nee |
newClusterSparkConf | een set optionele, door de gebruiker opgegeven Spark-configuratiesleutel-waardeparen. Gebruikers kunnen ook een reeks extra JVM-opties doorgeven aan het stuurprogramma en de uitvoerders via spark.driver.extraJavaOptions en spark.executor.extraJavaOptions. | Nee |
newClusterInitScripts | een set optionele door de gebruiker gedefinieerde initialisatiescripts voor het nieuwe cluster. U kunt de init-scripts opgeven in werkruimtebestanden (aanbevolen) of via het DBFS-pad (verouderd). | Nee |
Een gekoppelde Azure SQL Database-service
U maakt een gekoppelde Azure SQL-service en gebruikt deze met de opgeslagen procedureactiviteit om een opgeslagen procedure vanuit een pijplijn aan te roepen. Zie het artikel over Azure SQL Connector voor meer informatie over deze gekoppelde service.
Gekoppelde Azure Synapse Analytics-service
U maakt een gekoppelde Azure Synapse Analytics-service en gebruikt deze met de opgeslagen procedureactiviteit om een opgeslagen procedure aan te roepen vanuit een pijplijn. Zie het artikel azure Synapse Analytics Connector voor meer informatie over deze gekoppelde service.
Gekoppelde SQL Server-service
U maakt een gekoppelde SQL Server-service en gebruikt deze met de opgeslagen procedureactiviteit om een opgeslagen procedure vanuit een pijplijn aan te roepen. Zie het artikel over de SQL Server-connector voor meer informatie over deze gekoppelde service.
Gekoppelde Azure Synapse Analytics-service (artefacten)
U maakt een gekoppelde Azure Synapse Analytics-service (Artifacts) en gebruikt deze met de Synapse Notebook-activiteit en synapse Spark-taakdefinitieactiviteit.
Opmerking
{
"name": "AzureSynapseArtifacts",
"type": "Microsoft.DataFactory/factories/linkedservice",
"properties": {
"properties": {
"a":{
"type": "String"
}
},
"annotations": [],
"type": "AzureSynapseArtifacts",
"typeProperties": {
"endpoint": "@{linkedService().a}",
"authentication": "MSI",
"workspaceResourceId": ""
},
"ConnectVia":{
"referenceName": "integrationRuntime1",
"type": "IntergrationRuntimeReference"
}
}
}
Eigenschappen
Eigenschappen | Beschrijving | Vereist |
---|---|---|
naam | Naam van de gekoppelde service | Ja |
beschrijving | beschrijving van de gekoppelde service | Nee |
Aantekeningen | aantekeningen van de gekoppelde service | Nee |
type | De eigenschap type moet worden ingesteld op AzureSynapseArtifacts | Ja |
endpoint | De URL van Azure Synapse Analytics | Ja |
verificatie | De standaardinstelling is Door het systeem toegewezen beheerde identiteit | Ja |
workspaceResourceId | werkruimteresource-id | Ja |
connectVia | De Integration Runtime die moet worden gebruikt om verbinding te maken met het gegevensarchief. U kunt Azure Integration Runtime gebruiken. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. De zelf-hostende Integration Runtime wordt momenteel niet ondersteund. | Ja |
Gekoppelde Azure Function-service
U maakt een gekoppelde Azure-functieservice en gebruikt deze met de Azure Function-activiteit om Azure Functions in een pijplijn uit te voeren. Het retourtype van de Azure-functie moet een geldige JObject
waarde zijn. (Houd er rekening mee dat JArray is geen JObject
.) Een ander retourtype dan JObject
mislukt en genereert de inhoud van het antwoord van de gebruiker een ongeldig JObject.
Eigenschappen | Beschrijving | Vereist |
---|---|---|
type | De eigenschap Type moet worden ingesteld op: AzureFunction | ja |
URL van functie-app | URL voor de Azure Function-app. Indeling is https://<accountname>.azurewebsites.net . Deze URL is de waarde onder de URL-sectie bij het weergeven van uw functie-app in Azure Portal |
ja |
functietoets | Toegangssleutel voor de Azure-functie. Klik op de sectie Beheren voor de respectieve functie en kopieer de functiesleutel of de hostsleutel. Meer informatie hier: Werken met toegangssleutels | ja |
Gerelateerde inhoud
Zie Gegevens transformeren voor een lijst met de ondersteunde transformatieactiviteiten.