Beräkningsmiljöer som stöds av Azure Data Factory- och Synapse-pipelines
GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics
Dricks
Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!
Viktigt!
Stödet för Azure Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du övergår till Azure Machine Learning vid det datumet.
Från och med den 1 december 2021 kan du inte skapa nya Machine Learning Studio-resurser (klassiska) (arbetsyta och webbtjänstplan). Till och med den 31 augusti 2024 kan du fortsätta att använda befintliga Machine Learning Studio-experiment (klassiska) och webbtjänster. Mer information finns i:
- Migrera till Azure Machine Learning från Machine Learning Studio (klassisk)
- Vad är Azure Machine Learning?
Dokumentationen för Machine Learning Studio (klassisk) dras tillbaka och kanske inte uppdateras i framtiden.
Den här artikeln beskriver olika beräkningsmiljöer som du kan använda för att bearbeta eller transformera data. Den innehåller också information om olika konfigurationer (på begäran jämfört med bring your own) som stöds när du konfigurerar länkade tjänster som länkar dessa beräkningsmiljöer.
Följande tabell innehåller en lista över beräkningsmiljöer som stöds och de aktiviteter som kan köras på dem.
HDInsight-beräkningsmiljö
Se tabellen nedan för mer information om de lagringslänkade tjänsttyper som stöds för konfiguration i miljöerna På begäran och BYOC (Bring Your Own Compute).
I länkad beräkningstjänst | Egenskapsnamn | beskrivning | Blob | ADLS Gen2 | Azure SQL-databas | ADLS Gen 1 |
---|---|---|---|---|---|---|
På begäran | linkedServiceName | Länkad Azure Storage-tjänst som ska användas av klustret på begäran för lagring och bearbetning av data. | Ja | Ja | Nej | Nej |
additionalLinkedServiceNames | Anger ytterligare lagringskonton för den länkade HDInsight-tjänsten så att tjänsten kan registrera dem åt dig. | Ja | Nej | Nej | Nej | |
hcatalogLinkedServiceName | Namnet på den länkade Azure SQL-tjänsten som pekar på HCatalog-databasen. HDInsight-klustret på begäran skapas med hjälp av Azure SQL-databasen som metaarkiv. | Nej | Nej | Ja | Nej | |
BYOC | linkedServiceName | Referens för den länkade Azure Storage-tjänsten. | Ja | Ja | Nej | Nej |
additionalLinkedServiceNames | Anger ytterligare lagringskonton för den länkade HDInsight-tjänsten så att tjänsten kan registrera dem åt dig. | Nej | Nej | Nej | Nej | |
hcatalogLinkedServiceName | En referens till den länkade Azure SQL-tjänsten som pekar på HCatalog-databasen. | Nej | Nej | Nej | Nej |
Länkad tjänst för Azure HDInsight på begäran
I den här typen av konfiguration hanteras databehandlingsmiljön helt av tjänsten. Den skapas automatiskt av tjänsten innan ett jobb skickas för att bearbeta data och tas bort när jobbet har slutförts. Du kan skapa en länkad tjänst för beräkningsmiljön på begäran, konfigurera den och kontrollera detaljerade inställningar för jobbkörning, klusterhantering och startåtgärder.
Kommentar
Konfigurationen på begäran stöds för närvarande endast för Azure HDInsight-kluster. Azure Databricks stöder även jobb på begäran med hjälp av jobbkluster. Mer information finns i Länkad Azure databricks-tjänst.
Tjänsten kan automatiskt skapa ett HDInsight-kluster på begäran för att bearbeta data. Klustret skapas i samma region som lagringskontot (linkedServiceName-egenskapen i JSON) som är associerat med klustret. Lagringskontot must
är ett Azure Storage-standardkonto för generell användning.
Observera följande viktiga punkter om den länkade HDInsight-tjänsten på begäran:
- HDInsight-klustret på begäran skapas under din Azure-prenumeration. Du kan se klustret i din Azure Portal när klustret är igång.
- Loggarna för jobb som körs på ett HDInsight-kluster på begäran kopieras till lagringskontot som är associerat med HDInsight-klustret. ClusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword som definierats i din länkade tjänstdefinition används för att logga in på klustret för djupgående felsökning under klustrets livscykel.
- Du debiteras endast för den tid då HDInsight-klustret är igång och kör jobb.
- Du kan använda en skriptåtgärd med den länkade Azure HDInsight-tjänsten på begäran.
Viktigt!
Det tar vanligtvis 20 minuter eller mer att etablera ett Azure HDInsight-kluster på begäran.
Exempel
Följande JSON definierar en Linux-baserad HDInsight-länkad tjänst på begäran. Tjänsten skapar automatiskt ett Linux-baserat HDInsight-kluster för att bearbeta den aktivitet som krävs.
{
"name": "HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterType": "hadoop",
"clusterSize": 1,
"timeToLive": "00:15:00",
"hostSubscriptionId": "<subscription ID>",
"servicePrincipalId": "<service principal ID>",
"servicePrincipalKey": {
"value": "<service principal key>",
"type": "SecureString"
},
"tenant": "<tenent id>",
"clusterResourceGroup": "<resource group name>",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Viktigt!
HDInsight-klustret skapar en standardcontainer i den bloblagring som du angav i JSON (linkedServiceName). HDInsight tar inte bort den här containern när klustret tas bort. Detta beteende är av design. Med en HDInsight-länkad tjänst på begäran skapas ett HDInsight-kluster varje gång en sektor behöver bearbetas, såvida det inte finns ett befintligt livekluster (timeToLive). Det raderas när bearbetningen är klar.
När fler aktiviteter körs ser du många containrar i azure-bloblagringen. Om du inte behöver dem för felsökning av jobben kanske du vill ta bort dem för att minska lagringskostnaden. Namnen på de här containrarna följer ett mönster: adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp
. Använd verktyg som Microsoft Azure Storage Explorer för att ta bort containrar i Azure Blob Storage.
Egenskaper
Property | Beskrivning | Obligatoriskt |
---|---|---|
type | Typegenskapen ska anges till HDInsightOnDemand. | Ja |
clusterSize | Antal arbets-/datanoder i klustret. HDInsight-klustret skapas med 2 huvudnoder tillsammans med det antal arbetsnoder som du anger för den här egenskapen. Noderna är av storlek Standard_D3 som har 4 kärnor, så ett kluster med 4 arbetsnoder tar 24 kärnor (4*4 = 16 kärnor för arbetsnoder, plus 2*4 = 8 kärnor för huvudnoder). Mer information finns i Konfigurera kluster i HDInsight med Hadoop, Spark, Kafka och mer . | Ja |
linkedServiceName | Länkad Azure Storage-tjänst som ska användas av klustret på begäran för lagring och bearbetning av data. HDInsight-klustret skapas i samma region som det här Azure Storage-kontot. Azure HDInsight har en begränsning för hur många kärnor du kan använda i varje Azure-region som stöds. Se till att du har tillräckligt med kärnkvoter i Azure-regionen för att uppfylla de kluster som krävsSize. Mer information finns i Konfigurera kluster i HDInsight med Hadoop, Spark, Kafka med mera För närvarande kan du inte skapa ett HDInsight-kluster på begäran som använder en Azure Data Lake Storage (Gen 2) som lagring. Om du vill lagra resultatdata från HDInsight-bearbetning i en Azure Data Lake Storage (Gen 2) använder du en kopieringsaktivitet för att kopiera data från Azure Blob Storage till Azure Data Lake Storage (Gen 2). |
Ja |
clusterResourceGroup | HDInsight-klustret skapas i den här resursgruppen. | Ja |
timetolive | Tillåten inaktivitetstid för HDInsight-klustret på begäran. Anger hur länge HDInsight-klustret på begäran förblir vid liv efter slutförandet av en aktivitetskörning om det inte finns några andra aktiva jobb i klustret. Det minsta tillåtna värdet är 5 minuter (00:05:00). Om en aktivitetskörning till exempel tar 6 minuter och timetolive har angetts till 5 minuter, förblir klustret vid liv i 5 minuter efter 6 minuters bearbetning av aktivitetskörningen. Om en annan aktivitetskörning körs med fönstret på 6 minuter bearbetas den av samma kluster. Att skapa ett HDInsight-kluster på begäran är en dyr åtgärd (kan ta ett tag), så använd den här inställningen efter behov för att förbättra tjänstens prestanda genom att återanvända ett HDInsight-kluster på begäran. Om du anger timetolive-värdet till 0 tas klustret bort så snart aktivitetskörningen har slutförts. Om du anger ett högt värde kan klustret vara inaktivt för att du ska kunna logga in i felsökningssyfte, men det kan leda till höga kostnader. Därför är det viktigt att du anger rätt värde baserat på dina behov. Om egenskapsvärdet timetolive har angetts korrekt kan flera pipelines dela instansen av HDInsight-klustret på begäran. |
Ja |
clusterType | Typen av HDInsight-kluster som ska skapas. Tillåtna värden är "hadoop" och "spark". Om det inte anges är standardvärdet hadoop. Enterprise Security Package-aktiverat kluster kan inte skapas på begäran, i stället använder du ett befintligt kluster/ta med din egen beräkning. | Nej |
version | Version av HDInsight-klustret. Om den inte anges använder den den aktuella HDInsight-definierade standardversionen. | Nej |
hostSubscriptionId | Azure-prenumerations-ID:t som användes för att skapa HDInsight-kluster. Om det inte anges använder den prenumerations-ID:t för din Azure-inloggningskontext. | Nej |
clusterNamePrefix | Prefixet för HDI-klusternamn, en tidsstämpel läggs automatiskt till i slutet av klusternamnet | Nej |
sparkVersion | Spark-versionen om klustertypen är "Spark" | Nej |
additionalLinkedServiceNames | Anger ytterligare lagringskonton för den länkade HDInsight-tjänsten så att tjänsten kan registrera dem åt dig. Dessa lagringskonton måste finnas i samma region som HDInsight-klustret, som skapas i samma region som lagringskontot som anges av linkedServiceName. | Nej |
osType | Typ av operativsystem. Tillåtna värden är: Linux och Windows (endast för HDInsight 3.3). Standardvärdet är Linux. | Nej |
hcatalogLinkedServiceName | Namnet på den länkade Azure SQL-tjänsten som pekar på HCatalog-databasen. HDInsight-klustret på begäran skapas med hjälp av Azure SQL Database som metaarkiv. | Nej |
connectVia | Integration Runtime som ska användas för att skicka aktiviteterna till den här länkade HDInsight-tjänsten. För den länkade HDInsight-tjänsten på begäran stöder den endast Azure Integration Runtime. Om den inte anges använder den standardkörningen för Azure-integrering. | Nej |
clusterUserName | Användarnamnet för att komma åt klustret. | Nej |
clusterPassword | Lösenordet i typ av säker sträng för åtkomst till klustret. | Nej |
clusterSshUserName | Användarnamnet till SSH ansluter via fjärranslutning till klustrets nod (för Linux). | Nej |
clusterSshPassword | Lösenordet i typ av säker sträng till SSH fjärransluter klustrets nod (för Linux). | Nej |
scriptActions | Ange skript för HDInsight-klusteranpassningar när klustret skapas på begäran. För närvarande stöder UI-redigeringsverktyget endast att ange en skriptåtgärd, men du kan komma igenom den här begränsningen i JSON (ange flera skriptåtgärder i JSON). |
Nej |
Viktigt!
HDInsight stöder flera Hadoop-klusterversioner som kan distribueras. Varje versionsval skapar en specifik version av Hortonworks Data Platform-distributionen (HDP) och en uppsättning komponenter som ingår i den distributionen. Listan över HDInsight-versioner som stöds uppdateras hela tiden för att tillhandahålla de senaste komponenterna och korrigeringarna i Hadoop-ekosystemet. Se till att du alltid refererar till den senaste informationen om HDInsight-versionen och OS-typen som stöds för att säkerställa att du använder den version av HDInsight som stöds.
Viktigt!
För närvarande stöder inte HDInsight-länkade tjänster HBase, Interaktiv fråga (Hive LLAP), Storm.
- additionalLinkedServiceNames JSON-exempel
"additionalLinkedServiceNames": [{
"referenceName": "MyStorageLinkedService2",
"type": "LinkedServiceReference"
}]
Tjänstens huvudautentisering
Den länkade HDInsight-tjänsten på begäran kräver en autentisering med tjänstens huvudnamn för att skapa HDInsight-kluster åt dig. Om du vill använda autentisering med tjänstens huvudnamn registrerar du en programentitet i Microsoft Entra-ID och ger den rollen Deltagare för prenumerationen eller resursgruppen där HDInsight-klustret skapas. Detaljerade steg finns i Använda portalen för att skapa ett Microsoft Entra-program och tjänstens huvudnamn som kan komma åt resurser. Anteckna följande värden som du använder för att definiera den länkade tjänsten:
- Program-ID:t
- Programnyckel
- Klientorganisations-ID
Använd autentisering med tjänstens huvudnamn genom att ange följande egenskaper:
Property | Beskrivning | Obligatoriskt |
---|---|---|
servicePrincipalId | Ange programmets klient-ID. | Ja |
servicePrincipalKey | Ange programmets nyckel. | Ja |
klientorganisation | Ange klientinformationen (domännamn eller klient-ID) som programmet finns under. Du kan hämta den genom att hovra musen i det övre högra hörnet av Azure Portal. | Ja |
Avancerade egenskaper
Du kan också ange följande egenskaper för den detaljerade konfigurationen av HDInsight-klustret på begäran.
Property | Beskrivning | Obligatoriskt |
---|---|---|
coreConfiguration | Anger de grundläggande konfigurationsparametrarna (som i core-site.xml) för HDInsight-klustret som ska skapas. | Nej |
hBaseConfiguration | Anger HBase-konfigurationsparametrarna (hbase-site.xml) för HDInsight-klustret. | Nej |
hdfsConfiguration | Anger HDFS-konfigurationsparametrarna (hdfs-site.xml) för HDInsight-klustret. | Nej |
hiveConfiguration | Anger hive-konfigurationsparametrarna (hive-site.xml) för HDInsight-klustret. | Nej |
mapReduceConfiguration | Anger MapReduce-konfigurationsparametrarna (mapred-site.xml) för HDInsight-klustret. | Nej |
oozieConfiguration | Anger Oozie-konfigurationsparametrarna (oozie-site.xml) för HDInsight-klustret. | Nej |
stormConfiguration | Anger Storm-konfigurationsparametrarna (storm-site.xml) för HDInsight-klustret. | Nej |
yarnConfiguration | Anger Yarn-konfigurationsparametrarna (yarn-site.xml) för HDInsight-klustret. | Nej |
- Exempel – HDInsight-klusterkonfiguration på begäran med avancerade egenskaper
{
"name": " HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterSize": 16,
"timeToLive": "01:30:00",
"hostSubscriptionId": "<subscription ID>",
"servicePrincipalId": "<service principal ID>",
"servicePrincipalKey": {
"value": "<service principal key>",
"type": "SecureString"
},
"tenant": "<tenent id>",
"clusterResourceGroup": "<resource group name>",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"coreConfiguration": {
"templeton.mapper.memory.mb": "5000"
},
"hiveConfiguration": {
"templeton.mapper.memory.mb": "5000"
},
"mapReduceConfiguration": {
"mapreduce.reduce.java.opts": "-Xmx4000m",
"mapreduce.map.java.opts": "-Xmx4000m",
"mapreduce.map.memory.mb": "5000",
"mapreduce.reduce.memory.mb": "5000",
"mapreduce.job.reduce.slowstart.completedmaps": "0.8"
},
"yarnConfiguration": {
"yarn.app.mapreduce.am.resource.mb": "5000",
"mapreduce.map.memory.mb": "5000"
},
"additionalLinkedServiceNames": [{
"referenceName": "MyStorageLinkedService2",
"type": "LinkedServiceReference"
}]
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
Nodstorlekar
Du kan ange storleken på huvud-, data- och zookeeper-noder med hjälp av följande egenskaper:
Property | Beskrivning | Obligatoriskt |
---|---|---|
headNodeSize | Anger huvudnodens storlek. Standardvärdet är: Standard_D3. Mer information finns i avsnittet Ange nodstorlekar . | Nej |
dataNodeSize | Anger storleken på datanoden. Standardvärdet är: Standard_D3. | Nej |
zookeeperNodeSize | Anger storleken på noden Zoo Keeper. Standardvärdet är: Standard_D3. | Nej |
- Ange nodstorlekar Se artikeln Storlekar på virtuella datorer för strängvärden som du behöver ange för de egenskaper som nämns i föregående avsnitt. Värdena måste överensstämma med CMDLETs och APIS som refereras i artikeln. Som du kan se i artikeln har datanoden med storleken Stor (standard) 7 GB minne, vilket kanske inte är tillräckligt bra för ditt scenario.
Om du vill skapa huvudnoder med D4-storlek och arbetsnoder anger du Standard_D4 som värde för headNodeSize- och dataNodeSize-egenskaper.
"headNodeSize": "Standard_D4",
"dataNodeSize": "Standard_D4",
Om du anger ett fel värde för dessa egenskaper kan du få följande fel: Det gick inte att skapa klustret. Undantag: Unable to complete the cluster create operation. (Det går inte att slutföra åtgärden att skapa ett kluster.) Operation failed with code '400'. (Åtgärden misslyckades med koden 400). Cluster left behind state: 'Error'. (Klustret efterlämnade status: Fel.) Meddelande: "PreClusterCreationValidationFailure". När du får det här felet kontrollerar du att du använder CMDLET- och APIS-namnet från tabellen i artikeln Storlekar på virtuella datorer .
Ta med din egen beräkningsmiljö
I den här typen av konfiguration kan användare registrera en redan befintlig databehandlingsmiljö som en länkad tjänst. Databehandlingsmiljön hanteras av användaren och tjänsten använder den för att köra aktiviteterna.
Den här typen av konfiguration stöds för följande beräkningsmiljöer:
- Azure HDInsight
- Azure Batch
- Azure Machine Learning
- Azure Data Lake Analytics
- Azure SQL DB, Azure Synapse Analytics, SQL Server
Länkad Azure HDInsight-tjänst
Du kan skapa en länkad Azure HDInsight-tjänst för att registrera ett eget HDInsight-kluster med en datafabrik eller En Synapse-arbetsyta.
Exempel
{
"name": "HDInsightLinkedService",
"properties": {
"type": "HDInsight",
"typeProperties": {
"clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
"userName": "username",
"password": {
"value": "passwordvalue",
"type": "SecureString"
},
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Egenskaper
Property | Beskrivning | Obligatoriskt |
---|---|---|
type | Typegenskapen ska vara inställd på HDInsight. | Ja |
clusterUri | URI:n för HDInsight-klustret. | Ja |
användarnamn | Ange namnet på den användare som ska användas för att ansluta till ett befintligt HDInsight-kluster. | Ja |
password | Ange lösenord för användarkontot. | Ja |
linkedServiceName | Namnet på den länkade Azure Storage-tjänsten som refererar till Azure Blob Storage som används av HDInsight-klustret. För närvarande kan du inte ange en länkad Azure Data Lake Storage-tjänst (Gen 2) för den här egenskapen. Om HDInsight-klustret har åtkomst till Data Lake Store kan du komma åt data i Azure Data Lake Storage (Gen 2) från Hive/Pig-skript. |
Ja |
isEspEnabled | Ange "sant" om HDInsight-klustret är Enterprise Security Package aktiverat. Standardvärdet är "false". | Nej |
connectVia | Integration Runtime som ska användas för att skicka aktiviteterna till den här länkade tjänsten. Du kan använda Azure Integration Runtime eller Lokalt installerad integrationskörning. Om den inte anges använder den standardkörningen för Azure-integrering. För Enterprise Security Package (ESP) aktiverade HDInsight-kluster använder du en lokalt installerad integrationskörning som har en siktlinje för klustret eller som ska distribueras i samma virtuella nätverk som ESP HDInsight-klustret. |
Nej |
Viktigt!
HDInsight stöder flera Hadoop-klusterversioner som kan distribueras. Varje versionsval skapar en specifik version av Hortonworks Data Platform-distributionen (HDP) och en uppsättning komponenter som ingår i den distributionen. Listan över HDInsight-versioner som stöds uppdateras hela tiden för att tillhandahålla de senaste komponenterna och korrigeringarna i Hadoop-ekosystemet. Se till att du alltid refererar till den senaste informationen om HDInsight-versionen och OS-typen som stöds för att säkerställa att du använder den version av HDInsight som stöds.
Viktigt!
För närvarande stöder inte HDInsight-länkade tjänster HBase, Interaktiv fråga (Hive LLAP), Storm.
Länkad Azure Batch-tjänst
Kommentar
Vi rekommenderar att du använder Azure Az PowerShell-modulen för att interagera med Azure. Se Installera Azure PowerShell för att komma igång. Information om hur du migrerar till Az PowerShell-modulen finns i artikeln om att migrera Azure PowerShell från AzureRM till Az.
Du kan skapa en länkad Azure Batch-tjänst för att registrera en Batch-pool med virtuella datorer till en data- eller Synapse-arbetsyta. Du kan köra anpassad aktivitet med hjälp av Azure Batch.
Se följande artiklar om du är nybörjare på Azure Batch-tjänsten:
- Grunderna i Azure Batch för en översikt över Azure Batch-tjänsten.
- New-AzBatchAccount-cmdlet för att skapa ett Azure Batch-konto (eller) Azure Portal för att skapa Azure Batch-kontot med hjälp av Azure Portal. Mer information om hur du använder cmdleten finns i Använda PowerShell för att hantera Azure Batch-konto .
- New-AzBatchPool-cmdlet för att skapa en Azure Batch-pool.
Viktigt!
När du skapar en ny Azure Batch-pool måste "VirtualMachineConfiguration" användas och INTE "CloudServiceConfiguration". Mer information finns i migreringsvägledning för Azure Batch Pool.
Exempel
{
"name": "AzureBatchLinkedService",
"properties": {
"type": "AzureBatch",
"typeProperties": {
"accountName": "batchaccount",
"accessKey": {
"type": "SecureString",
"value": "access key"
},
"batchUri": "https://batchaccount.region.batch.azure.com",
"poolName": "poolname",
"linkedServiceName": {
"referenceName": "StorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Egenskaper
Property | Beskrivning | Obligatoriskt |
---|---|---|
type | Typegenskapen ska anges till AzureBatch. | Ja |
accountName | Namnet på Azure Batch-kontot. | Ja |
accessKey | Åtkomstnyckel för Azure Batch-kontot. | Ja |
batchUri | URL till ditt Azure Batch-konto i formatet https:// batchaccountname.region.batch.azure.com. | Ja |
poolName | Namnet på poolen med virtuella datorer. | Ja |
linkedServiceName | Namnet på den länkade Azure Storage-tjänsten som är associerad med den här länkade Azure Batch-tjänsten. Den här länkade tjänsten används för mellanlagring av filer som krävs för att köra aktiviteten. | Ja |
connectVia | Integration Runtime som ska användas för att skicka aktiviteterna till den här länkade tjänsten. Du kan använda Azure Integration Runtime eller Lokalt installerad integrationskörning. Om den inte anges använder den standardkörningen för Azure-integrering. | Nej |
Länkad tjänst för Machine Learning Studio (klassisk)
Viktigt!
Stödet för Azure Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du övergår till Azure Machine Learning vid det datumet.
Från och med den 1 december 2021 kan du inte skapa nya Machine Learning Studio-resurser (klassiska) (arbetsyta och webbtjänstplan). Till och med den 31 augusti 2024 kan du fortsätta att använda befintliga Machine Learning Studio-experiment (klassiska) och webbtjänster. Mer information finns i:
- Migrera till Azure Machine Learning från Machine Learning Studio (klassisk)
- Vad är Azure Machine Learning?
Dokumentationen för Machine Learning Studio (klassisk) dras tillbaka och kanske inte uppdateras i framtiden.
Du skapar en länkad Machine Learning Studio-tjänst (klassisk) för att registrera en batchbedömningsslutpunkt för Machine Learning Studio (klassisk) till en datafabrik eller Synapse-arbetsyta.
Exempel
{
"name": "AzureMLLinkedService",
"properties": {
"type": "AzureML",
"typeProperties": {
"mlEndpoint": "https://[batch scoring endpoint]/jobs",
"apiKey": {
"type": "SecureString",
"value": "access key"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Egenskaper
Property | Beskrivning | Obligatoriskt |
---|---|---|
Typ | Typegenskapen ska anges till: AzureML. | Ja |
mlEndpoint | Batchbedömnings-URL:en. | Ja |
apiKey | Den publicerade arbetsytemodellens API. | Ja |
updateResourceEndpoint | Url:en för uppdateringsresurser för en ML Studio-slutpunkt (klassisk) webbtjänst som används för att uppdatera den förutsägande webbtjänsten med en tränad modellfil | Nej |
servicePrincipalId | Ange programmets klient-ID. | Krävs om updateResourceEndpoint har angetts |
servicePrincipalKey | Ange programmets nyckel. | Krävs om updateResourceEndpoint har angetts |
klientorganisation | Ange klientinformationen (domännamn eller klient-ID) som programmet finns under. Du kan hämta den genom att hovra musen i det övre högra hörnet av Azure Portal. | Krävs om updateResourceEndpoint har angetts |
connectVia | Integration Runtime som ska användas för att skicka aktiviteterna till den här länkade tjänsten. Du kan använda Azure Integration Runtime eller Lokalt installerad integrationskörning. Om den inte anges använder den standardkörningen för Azure-integrering. | Nej |
Länkad Azure Machine Learning-tjänst
Du skapar en länkad Azure Machine Learning-tjänst för att ansluta en Azure Machine Learning-arbetsyta till en datafabrik eller Synapse-arbetsyta.
Kommentar
För närvarande stöds endast autentisering med tjänstens huvudnamn för den länkade Azure Machine Learning-tjänsten.
Exempel
{
"name": "AzureMLServiceLinkedService",
"properties": {
"type": "AzureMLService",
"typeProperties": {
"subscriptionId": "subscriptionId",
"resourceGroupName": "resourceGroupName",
"mlWorkspaceName": "mlWorkspaceName",
"servicePrincipalId": "service principal id",
"servicePrincipalKey": {
"value": "service principal key",
"type": "SecureString"
},
"tenant": "tenant ID"
},
"connectVia": {
"referenceName": "<name of Integration Runtime?",
"type": "IntegrationRuntimeReference"
}
}
}
Egenskaper
Property | Beskrivning | Obligatoriskt |
---|---|---|
Typ | Typegenskapen ska anges till: AzureMLService. | Ja |
subscriptionId | Azure-prenumerations-ID | Ja |
resourceGroupName | name | Ja |
mlWorkspaceName | Namn på Azure Machine Learning-arbetsyta | Ja |
servicePrincipalId | Ange programmets klient-ID. | Ja |
servicePrincipalKey | Ange programmets nyckel. | Ja |
klientorganisation | Ange klientinformationen (domännamn eller klient-ID) som programmet finns under. Du kan hämta den genom att hovra musen i det övre högra hörnet av Azure Portal. | Krävs om updateResourceEndpoint har angetts |
connectVia | Integration Runtime som ska användas för att skicka aktiviteterna till den här länkade tjänsten. Du kan använda Azure Integration Runtime eller Lokalt installerad integrationskörning. Om den inte anges använder den standardkörningen för Azure-integrering. | Nej |
Länkad Azure Data Lake Analytics-tjänst
Du skapar en länkad Azure Data Lake Analytics-tjänst för att länka en Azure Data Lake Analytics-beräkningstjänst till en datafabrik eller Synapse-arbetsyta. Data Lake Analytics U-SQL-aktiviteten i pipelinen refererar till den här länkade tjänsten.
Exempel
{
"name": "AzureDataLakeAnalyticsLinkedService",
"properties": {
"type": "AzureDataLakeAnalytics",
"typeProperties": {
"accountName": "adftestaccount",
"dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
"servicePrincipalId": "service principal id",
"servicePrincipalKey": {
"value": "service principal key",
"type": "SecureString"
},
"tenant": "tenant ID",
"subscriptionId": "<optional, subscription ID of ADLA>",
"resourceGroupName": "<optional, resource group name of ADLA>"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Egenskaper
Property | Beskrivning | Obligatoriskt |
---|---|---|
type | Typegenskapen ska anges till: AzureDataLakeAnalytics. | Ja |
accountName | Azure Data Lake Analytics-kontonamn. | Ja |
dataLakeAnalyticsUri | Azure Data Lake Analytics-URI. | Nej |
subscriptionId | Azure-prenumerations-ID | Nej |
resourceGroupName | Azure-resursgruppsnamn | Nej |
servicePrincipalId | Ange programmets klient-ID. | Ja |
servicePrincipalKey | Ange programmets nyckel. | Ja |
klientorganisation | Ange klientinformationen (domännamn eller klient-ID) som programmet finns under. Du kan hämta den genom att hovra musen i det övre högra hörnet av Azure Portal. | Ja |
connectVia | Integration Runtime som ska användas för att skicka aktiviteterna till den här länkade tjänsten. Du kan använda Azure Integration Runtime eller Lokalt installerad integrationskörning. Om den inte anges använder den standardkörningen för Azure-integrering. | Nej |
Länkad Azure Databricks-tjänst
Du kan skapa en länkad Azure Databricks-tjänst för att registrera Databricks-arbetsytan som du använder för att köra Databricks-arbetsbelastningarna (notebook, jar, python).
Viktigt!
Databricks-länkade tjänster stöder instanspooler och systemtilldelad hanterad identitetsautentisering.
Exempel – Använda nytt jobbkluster i Databricks
{
"name": "AzureDatabricks_LS",
"properties": {
"type": "AzureDatabricks",
"typeProperties": {
"domain": "https://eastus.azuredatabricks.net",
"newClusterNodeType": "Standard_D3_v2",
"newClusterNumOfWorker": "1:10",
"newClusterVersion": "4.0.x-scala2.11",
"accessToken": {
"type": "SecureString",
"value": "YourAccessToken"
}
}
}
}
Exempel – Använda ett befintligt interaktivt kluster i Databricks
{
"name": " AzureDataBricksLinkedService",
"properties": {
"type": " AzureDatabricks",
"typeProperties": {
"domain": "https://westeurope.azuredatabricks.net",
"accessToken": {
"type": "SecureString",
"value": "YourAccessToken"
},
"existingClusterId": "{clusterId}"
}
}
Egenskaper
Property | Beskrivning | Obligatoriskt |
---|---|---|
name | Namnet på den länkade tjänsten | Ja |
type | Typegenskapen ska anges till: Azure Databricks. | Ja |
domain | Ange Azure-regionen baserat på databricks-arbetsytans region. Exempel: https://eastus.azuredatabricks.net | Ja |
accessToken | Åtkomsttoken krävs för att tjänsten ska kunna autentisera till Azure Databricks. Åtkomsttoken måste genereras från databricks-arbetsytan. Mer detaljerade steg för att hitta åtkomsttoken finns här | Nej |
MSI | Använd tjänstens hanterade identitet (systemtilldelad) för att autentisera till Azure Databricks. Du behöver inte åtkomsttoken när du använder MSI-autentisering. Mer information om autentisering med hanterad identitet finns här | Nej |
existingClusterId | Kluster-ID för ett befintligt kluster för att köra alla jobb på detta. Detta bör vara ett redan skapat interaktivt kluster. Du kan behöva starta om klustret manuellt om det slutar svara. Databricks föreslår att du kör jobb på nya kluster för bättre tillförlitlighet. Du hittar kluster-ID:t för ett interaktivt kluster på Databricks-arbetsytan – Kluster –>> Interaktivt klusternamn –> Konfiguration –> Taggar. Mer information | Nej |
instancePoolId | Instanspools-ID för en befintlig pool på databricks-arbetsytan. | Nej |
newClusterVersion | Spark-versionen av klustret. Det skapar ett jobbkluster i databricks. | Nej |
newClusterNumOfWorker | Antal arbetsnoder som klustret ska ha. Ett kluster har en Spark Driver och num_workers Executors för totalt num_workers + 1 Spark-noder. En sträng formaterad Int32, som "1" innebär att numOfWorker är 1 eller "1:10" innebär autoskalning från 1 som min och 10 som max. | Nej |
newClusterNodeType | Det här fältet kodar, via ett enda värde, de resurser som är tillgängliga för var och en av Spark-noderna i det här klustret. Spark-noderna kan till exempel etableras och optimeras för minnes- eller beräkningsintensiva arbetsbelastningar. Det här fältet krävs för det nya klustret | Nej |
newClusterSparkConf | en uppsättning valfria, användardefinierade Nyckel/värde-par för Spark-konfiguration. Användare kan också skicka in en sträng med extra JVM-alternativ till drivrutinen och körarna via spark.driver.extraJavaOptions respektive spark.executor.extraJavaOptions. | Nej |
newClusterInitScripts | en uppsättning valfria, användardefinierade initieringsskript för det nya klustret. Du kan ange init-skripten i arbetsytefiler (rekommenderas) eller via DBFS-sökvägen (äldre). | Nej |
Länkad Azure SQL Database-tjänst
Du skapar en länkad Azure SQL-tjänst och använder den med aktiviteten Lagrad procedur för att anropa en lagrad procedur från en pipeline. Mer information om den här länkade tjänsten finns i artikeln om Azure SQL Connector .
Länkad Azure Synapse Analytics-tjänst
Du skapar en länkad Azure Synapse Analytics-tjänst och använder den med aktiviteten Lagrad procedur för att anropa en lagrad procedur från en pipeline. Mer information om den här länkade tjänsten finns i artikeln om Azure Synapse Analytics Connector .
Länkad SQL Server-tjänst
Du skapar en länkad SQL Server-tjänst och använder den med aktiviteten Lagrad procedur för att anropa en lagrad procedur från en pipeline. Mer information om den här länkade tjänsten finns i artikeln om SQL Server-anslutningsappen .
Länkad tjänst för Azure Synapse Analytics (Artifacts)
Du skapar en länkad Azure Synapse Analytics-tjänst (Artifacts) och använder den med Synapse Notebook Activity och Synapse Spark-jobbdefinitionsaktiviteten.
Exempel
{
"name": "AzureSynapseArtifacts",
"type": "Microsoft.DataFactory/factories/linkedservice",
"properties": {
"properties": {
"a":{
"type": "String"
}
},
"annotations": [],
"type": "AzureSynapseArtifacts",
"typeProperties": {
"endpoint": "@{linkedService().a}",
"authentication": "MSI",
"workspaceResourceId": ""
},
"ConnectVia":{
"referenceName": "integrationRuntime1",
"type": "IntergrationRuntimeReference"
}
}
}
Egenskaper
Property | Beskrivning | Krävs |
---|---|---|
name | Namnet på den länkade tjänsten | Ja |
description | beskrivning av den länkade tjänsten | Nej |
Anteckningar | anteckningar för den länkade tjänsten | Nej |
type | Typegenskapen ska anges till AzureSynapseArtifacts | Ja |
slutpunkt | URL:en för Azure Synapse Analytics | Ja |
autentisering | Standardinställningen är Systemtilldelad hanterad identitet | Ja |
workspaceResourceId | arbetsytans resurs-ID | Ja |
connectVia | Den integrationskörning som ska användas för att ansluta till datalagret. Du kan använda Azure Integration Runtime. Om den inte anges använder den standardkörningen för Azure-integrering. Den lokalt installerade integrationskörningen stöds inte för närvarande. | Ja |
Länkad Azure-funktionstjänst
Du skapar en länkad Azure-funktionstjänst och använder den med Azure Function-aktiviteten för att köra Azure Functions i en pipeline. Returtypen för Azure-funktionen måste vara giltig JObject
. (Tänk på att JArray är inte en JObject
.) Alla andra returtyper än JObject
misslyckas och genererar användarfelet Svarsinnehåll är inte en giltig JObject.
Property | Beskrivning | Krävs |
---|---|---|
type | Typegenskapen måste anges till: AzureFunction | ja |
url för funktionsapp | URL för Azure-funktionsappen. Formatet är https://<accountname>.azurewebsites.net . Den här URL:en är värdet under URL-avsnittet när du visar funktionsappen i Azure Portal |
ja |
funktionsnyckel | Åtkomstnyckel för Azure-funktionen. Klicka på avsnittet Hantera för respektive funktion och kopiera antingen funktionsnyckeln eller värdnyckeln. Läs mer här: Arbeta med åtkomstnycklar | ja |
Relaterat innehåll
En lista över de omvandlingsaktiviteter som stöds finns i Transformera data.