Ambientes de computação suportados pelos pipelines do Azure Data Factory e Synapse
APLICA-SE A: Azure Data Factory Azure Synapse Analytics
Gorjeta
Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!
Importante
O suporte para o Azure Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. Recomendamos que faça a transição para o Azure Machine Learning até essa data.
A partir de 1º de dezembro de 2021, não é possível criar novos recursos (clássicos) do Machine Learning Studio (espaço de trabalho e plano de serviço Web). Até 31 de agosto de 2024, você pode continuar a usar os experimentos e serviços Web existentes do Machine Learning Studio (clássicos). Para obter mais informações, consulte:
- Migrar para o Azure Machine Learning a partir do Machine Learning Studio (clássico)
- O que é o Azure Machine Learning?
A documentação do Machine Learning Studio (clássica) está sendo desativada e pode não ser atualizada no futuro.
Este artigo explica diferentes ambientes de computação que você pode usar para processar ou transformar dados. Ele também fornece detalhes sobre diferentes configurações (sob demanda vs. traga as suas) suportadas ao configurar serviços vinculados que vinculam esses ambientes de computação.
A tabela a seguir fornece uma lista de ambientes de computação suportados e as atividades que podem ser executadas neles.
Ambiente de computação do HDInsight
Consulte a tabela abaixo para obter detalhes sobre os tipos de serviço vinculado de armazenamento suportados para configuração no ambiente On-demand e BYOC (Bring your own compute).
No Serviço Vinculado de Computação | Nome de Propriedade | Description | Blob | ADLS Gen2 | BD SQL do Azure | ADLS Gen 1 |
---|---|---|---|---|---|---|
A pedido | linkedServiceName | Serviço vinculado do Armazenamento do Azure a ser usado pelo cluster sob demanda para armazenar e processar dados. | Sim | Sim | No | Não |
adicionalLinkedServiceNames | Especifica contas de armazenamento adicionais para o serviço vinculado do HDInsight para que o serviço possa registrá-las em seu nome. | Sim | No | No | Não | |
hcatalogLinkedServiceName | O nome do serviço vinculado SQL do Azure que aponta para o banco de dados HCatalog. O cluster HDInsight sob demanda é criado usando o banco de dados SQL do Azure como metastore. | No | No | Sim | No | |
BYOC | linkedServiceName | A referência do serviço vinculado do Armazenamento do Azure. | Sim | Sim | No | Não |
adicionalLinkedServiceNames | Especifica contas de armazenamento adicionais para o serviço vinculado do HDInsight para que o serviço possa registrá-las em seu nome. | No | No | No | Não | |
hcatalogLinkedServiceName | Uma referência ao serviço vinculado SQL do Azure que aponta para o banco de dados HCatalog. | No | No | No | Não |
Serviço ligado do Azure HDInsight a pedido
Neste tipo de configuração, o ambiente computacional é totalmente gerenciado pelo serviço. Ele é criado automaticamente pelo serviço antes de um trabalho ser enviado para processar dados e removido quando o trabalho é concluído. Você pode criar um serviço vinculado para o ambiente de computação sob demanda, configurá-lo e controlar configurações granulares para execução de tarefas, gerenciamento de cluster e ações de inicialização.
Nota
Atualmente, a configuração sob demanda é suportada apenas para clusters do Azure HDInsight. O Azure Databricks também dá suporte a trabalhos sob demanda usando clusters de tarefas. Para obter mais informações, consulte Serviço vinculado do Azure databricks.
O serviço pode criar automaticamente um cluster HDInsight sob demanda para processar dados. O cluster é criado na mesma região que a conta de armazenamento (propriedade linkedServiceName no JSON) associada ao cluster. A conta must
de armazenamento é uma conta de Armazenamento do Azure padrão de uso geral.
Observe os seguintes pontos importantes sobre o serviço vinculado HDInsight sob demanda:
- O cluster HDInsight sob demanda é criado em sua assinatura do Azure. Você poderá ver o cluster em seu portal do Azure quando o cluster estiver em execução.
- Os logs de trabalhos executados em um cluster HDInsight sob demanda são copiados para a conta de armazenamento associada ao cluster HDInsight. O clusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword definidos em sua definição de serviço vinculado são usados para efetuar login no cluster para solução de problemas detalhada durante o ciclo de vida do cluster.
- Você será cobrado apenas pelo tempo em que o cluster HDInsight estiver ativo e executando trabalhos.
- Você pode usar uma Ação de Script com o serviço vinculado do Azure HDInsight sob demanda.
Importante
Normalmente, leva 20 minutos ou mais para provisionar um cluster do Azure HDInsight sob demanda.
Exemplo
O JSON a seguir define um serviço vinculado HDInsight sob demanda baseado em Linux. O serviço cria automaticamente um cluster HDInsight baseado em Linux para processar a atividade necessária.
{
"name": "HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterType": "hadoop",
"clusterSize": 1,
"timeToLive": "00:15:00",
"hostSubscriptionId": "<subscription ID>",
"servicePrincipalId": "<service principal ID>",
"servicePrincipalKey": {
"value": "<service principal key>",
"type": "SecureString"
},
"tenant": "<tenant id>",
"clusterResourceGroup": "<resource group name>",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Importante
O cluster do HDInsight cria um contentor predefinido no armazenamento de blobs especificado no JSON (linkedServiceName). Quando o cluster é eliminado, o HDInsight não é eliminado deste contentor. Este comportamento é a predefinição. Com o serviço ligado do HDInsight a pedido, é criado um cluster do HDInsight sempre que um setor tiver de ser processado, exceto se houver um cluster em direto (timeToLive) que será eliminado no fim do processamento.
À medida que mais atividades são executadas, você vê muitos contêineres em seu armazenamento de blobs do Azure. Se você não precisar deles para solucionar problemas dos trabalhos, convém excluí-los para reduzir o custo de armazenamento. Os nomes destes contentores seguem um padrão: adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp
. Use ferramentas como o Gerenciador de Armazenamento do Microsoft Azure para excluir contêineres em seu armazenamento de blob do Azure.
_Propriedades
Property | Descrição | Obrigatório |
---|---|---|
tipo | A propriedade type deve ser definida como HDInsightOnDemand. | Sim |
clusterSize | Número de nós de trabalho/dados no cluster. O cluster HDInsight é criado com 2 nós principais, juntamente com o número de nós de trabalho especificados para essa propriedade. Os nós são de tamanho Standard_D3 que tem 4 núcleos, portanto, um cluster de 4 nós de trabalho leva 24 núcleos (4*4 = 16 núcleos para nós de trabalho, mais 2*4 = 8 núcleos para nós principais). Consulte Configurar clusters no HDInsight com Hadoop, Spark, Kafka e muito mais para obter detalhes. | Sim |
linkedServiceName | Serviço vinculado do Armazenamento do Azure a ser usado pelo cluster sob demanda para armazenar e processar dados. O cluster HDInsight é criado na mesma região que esta conta de Armazenamento do Azure. O Azure HDInsight tem limitação do número total de núcleos que pode utilizar em cada região do Azure que suporta. Verifique se você tem cotas principais suficientes nessa região do Azure para atender ao clustersize necessário. Para obter detalhes, consulte Configurar clusters no HDInsight com Hadoop, Spark, Kafka e muito mais Atualmente, não é possível criar um cluster HDInsight sob demanda que use um Armazenamento Azure Data Lake (Gen 2) como armazenamento. Se você quiser armazenar os dados de resultado do processamento do HDInsight em um Armazenamento Azure Data Lake (Gen 2), use uma Atividade de Cópia para copiar os dados do Armazenamento de Blobs do Azure para o Armazenamento do Azure Data Lake (Gen 2). |
Sim |
clusterResourceGroup | O cluster HDInsight é criado neste grupo de recursos. | Sim |
TimetoLive | O tempo ocioso permitido para o cluster HDInsight sob demanda. Especifica por quanto tempo o cluster HDInsight sob demanda permanece ativo após a conclusão de uma execução de atividade se não houver outros trabalhos ativos no cluster. O valor mínimo permitido é de 5 minutos (00:05:00). Por exemplo, se uma execução de atividade leva 6 minutos e o timetolive é definido como 5 minutos, o cluster permanece ativo por 5 minutos após os 6 minutos de processamento da execução da atividade. Se outra atividade executada for executada com a janela de 6 minutos, ela será processada pelo mesmo cluster. Criar um cluster HDInsight sob demanda é uma operação cara (pode demorar um pouco), portanto, use essa configuração conforme necessário para melhorar o desempenho do serviço reutilizando um cluster HDInsight sob demanda. Se você definir o valor timetolive como 0, o cluster será excluído assim que a execução da atividade for concluída. Considerando que, se você definir um valor alto, o cluster pode ficar ocioso para que você faça logon para alguma finalidade de solução de problemas, mas isso pode resultar em altos custos. Portanto, é importante que você defina o valor apropriado com base em suas necessidades. Se o valor da propriedade timetolive estiver definido adequadamente, vários pipelines poderão compartilhar a instância do cluster HDInsight sob demanda. |
Sim |
tipo de cluster | O tipo de cluster HDInsight a ser criado. Os valores permitidos são "hadoop" e "spark". Se não for especificado, o valor padrão será hadoop. O cluster habilitado para o Enterprise Security Package não pode ser criado sob demanda, em vez disso, use um cluster existente/ traga sua própria computação. | Não |
versão | Versão do cluster HDInsight. Se não for especificado, ele está usando a versão padrão atual definida pelo HDInsight. | Não |
hostSubscriptionId | A ID de assinatura do Azure usada para criar cluster HDInsight. Se não for especificado, ele usará a ID de Assinatura do seu contexto de logon do Azure. | Não |
clusterNamePrefix | O prefixo do nome do cluster HDI, um carimbo de data/hora é automaticamente acrescentado no final do nome do cluster | Não |
sparkVersion | A versão do spark se o tipo de cluster for "Spark" | Não |
adicionalLinkedServiceNames | Especifica contas de armazenamento adicionais para o serviço vinculado do HDInsight para que o serviço possa registrá-las em seu nome. Essas contas de armazenamento devem estar na mesma região do cluster HDInsight, que é criado na mesma região que a conta de armazenamento especificada por linkedServiceName. | Não |
osType | Tipo de sistema operacional. Os valores permitidos são: Linux e Windows (apenas para HDInsight 3.3). O padrão é Linux. | Não |
hcatalogLinkedServiceName | O nome do serviço vinculado SQL do Azure que aponta para o banco de dados HCatalog. O cluster HDInsight sob demanda é criado usando o Banco de Dados SQL do Azure como metastore. | Não |
ConecteVia | O Tempo de Execução de Integração a ser usado para despachar as atividades para este serviço vinculado do HDInsight. Para o serviço vinculado HDInsight sob demanda, ele oferece suporte apenas ao Tempo de Execução de Integração do Azure. Se não for especificado, ele usará o Tempo de Execução de Integração do Azure padrão. | Não |
clusterUserName | O nome de usuário para acessar o cluster. | Não |
clusterPassword | A senha em tipo de cadeia de caracteres segura para acessar o cluster. | Não |
clusterSshUserName | O nome de usuário para SSH se conecta remotamente ao nó do cluster (para Linux). | Não |
clusterSshPassword | A senha em tipo de cadeia de caracteres segura para SSH conectar remotamente o nó do cluster (para Linux). | Não |
scriptActions | Especifique o script para personalizações de cluster HDInsight durante a criação de cluster sob demanda. Atualmente, a ferramenta de criação da interface do usuário oferece suporte à especificação de apenas 1 ação de script, mas você pode superar essa limitação no JSON (especificar várias ações de script no JSON). |
Não |
Importante
O HDInsight oferece suporte a várias versões de cluster Hadoop que podem ser implantadas. Cada opção de versão cria uma versão específica da distribuição Hortonworks Data Platform (HDP) e um conjunto de componentes contidos nessa distribuição. A lista de versões suportadas do HDInsight continua sendo atualizada para fornecer os componentes e correções mais recentes do ecossistema Hadoop. Certifique-se de que consulta sempre as informações mais recentes da versão suportada do HDInsight e do tipo de SO para garantir que está a utilizar a versão suportada do HDInsight.
Importante
Atualmente, os serviços vinculados do HDInsight não suportam HBase, Interactive Query (Hive LLAP), Storm.
- exemplo JSON adicionalLinkedServiceNames
"additionalLinkedServiceNames": [{
"referenceName": "MyStorageLinkedService2",
"type": "LinkedServiceReference"
}]
Autenticação do principal de serviço
O serviço vinculado HDInsight sob demanda requer uma autenticação da entidade de serviço para criar clusters HDInsight em seu nome. Para usar a autenticação da entidade de serviço, registre uma entidade de aplicativo na ID do Microsoft Entra e conceda-lhe a função de Colaborador da assinatura ou do grupo de recursos no qual o cluster HDInsight é criado. Para obter etapas detalhadas, consulte Usar o portal para criar um aplicativo e uma entidade de serviço do Microsoft Entra que possam acessar recursos. Anote os seguintes valores, que você usa para definir o serviço vinculado:
- ID da aplicação
- Chave de aplicação
- ID de Inquilino do
Use a autenticação da entidade de serviço especificando as seguintes propriedades:
Property | Descrição | Obrigatório |
---|---|---|
servicePrincipalId | Especifique o ID do cliente do aplicativo. | Sim |
servicePrincipalKey | Especifique a chave do aplicativo. | Sim |
tenant | Especifique as informações do locatário (nome de domínio ou ID do locatário) sob as quais seu aplicativo reside. Você pode recuperá-lo passando o mouse no canto superior direito do portal do Azure. | Sim |
Propriedades avançadas
Você também pode especificar as seguintes propriedades para a configuração granular do cluster HDInsight sob demanda.
Property | Descrição | Obrigatório |
---|---|---|
coreConfiguration | Especifica os principais parâmetros de configuração (como em core-site.xml) para o cluster HDInsight a ser criado. | Não |
hBaseConfiguration | Especifica os parâmetros de configuração do HBase (hbase-site.xml) para o cluster HDInsight. | Não |
hdfsConfiguration | Especifica os parâmetros de configuração (hdfs-site.xml) do HDFS para o cluster HDInsight. | Não |
hiveConfiguration | Especifica os parâmetros de configuração de hive (hive-site.xml) para o cluster HDInsight. | Não |
mapReduceConfiguration | Especifica os parâmetros de configuração (mapred-site.xml) do MapReduce para o cluster HDInsight. | Não |
oozieConfiguration | Especifica os parâmetros de configuração (oozie-site.xml) do Oozie para o cluster HDInsight. | Não |
stormConfiguration | Especifica os parâmetros de configuração do Storm (storm-site.xml) para o cluster HDInsight. | Não |
yarnConfiguration | Especifica os parâmetros de configuração do Yarn (yarn-site.xml) para o cluster HDInsight. | Não |
- Exemplo - Configuração de cluster HDInsight sob demanda com propriedades avançadas
{
"name": " HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterSize": 16,
"timeToLive": "01:30:00",
"hostSubscriptionId": "<subscription ID>",
"servicePrincipalId": "<service principal ID>",
"servicePrincipalKey": {
"value": "<service principal key>",
"type": "SecureString"
},
"tenant": "<tenant id>",
"clusterResourceGroup": "<resource group name>",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"coreConfiguration": {
"templeton.mapper.memory.mb": "5000"
},
"hiveConfiguration": {
"templeton.mapper.memory.mb": "5000"
},
"mapReduceConfiguration": {
"mapreduce.reduce.java.opts": "-Xmx4000m",
"mapreduce.map.java.opts": "-Xmx4000m",
"mapreduce.map.memory.mb": "5000",
"mapreduce.reduce.memory.mb": "5000",
"mapreduce.job.reduce.slowstart.completedmaps": "0.8"
},
"yarnConfiguration": {
"yarn.app.mapreduce.am.resource.mb": "5000",
"mapreduce.map.memory.mb": "5000"
},
"additionalLinkedServiceNames": [{
"referenceName": "MyStorageLinkedService2",
"type": "LinkedServiceReference"
}]
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
Tamanhos dos nós
Você pode especificar os tamanhos dos nós head, data e zookeeper usando as seguintes propriedades:
Property | Descrição | Obrigatório |
---|---|---|
headNodeSize | Especifica o tamanho do nó principal. O valor padrão é: Standard_D3. Consulte a seção Especificando tamanhos de nó para obter detalhes. | Não |
dataNodeSize | Especifica o tamanho do nó de dados. O valor padrão é: Standard_D3. | Não |
zookeeperNodeSize | Especifica o tamanho do nó Zoo Keeper. O valor padrão é: Standard_D3. | Não |
- Especificando tamanhos de nó Consulte o artigo Tamanhos de máquinas virtuais para obter os valores de cadeia de caracteres que você precisa especificar para as propriedades mencionadas na seção anterior. Os valores precisam estar em conformidade com os CMDLETs & APIS mencionados no artigo. Como você pode ver no artigo, o nó de dados de tamanho grande (padrão) tem 7 GB de memória, o que pode não ser bom o suficiente para o seu cenário.
Se você quiser criar nós principais e nós de trabalho de tamanho D4, especifique Standard_D4 como o valor para as propriedades headNodeSize e dataNodeSize.
"headNodeSize": "Standard_D4",
"dataNodeSize": "Standard_D4",
Se você especificar um valor errado para essas propriedades, poderá receber o seguinte erro: Falha ao criar cluster. Exceção: não foi possível concluir a operação de criação do cluster. A operação falhou com o código "400". Estado do cluster não concluído: "Erro". Mensagem: 'PreClusterCreationValidationFailure'. Quando receber esse erro, verifique se está usando o nome CMDLET & APIS da tabela no artigo Tamanhos de máquinas virtuais .
Traga seu próprio ambiente de computação
Neste tipo de configuração, os usuários podem registrar um ambiente de computação já existente como um serviço vinculado. O ambiente de computação é gerenciado pelo usuário e o serviço o utiliza para executar as atividades.
Este tipo de configuração é suportado para os seguintes ambientes de computação:
- Azure HDInsight
- Azure Batch
- Azure Machine Learning
- Azure Data Lake Analytics
- Banco de Dados SQL do Azure, Azure Synapse Analytics, SQL Server
Serviço vinculado do Azure HDInsight
Você pode criar um serviço vinculado do Azure HDInsight para registrar seu próprio cluster HDInsight com uma fábrica de dados ou espaço de trabalho Sinapse.
Exemplo
{
"name": "HDInsightLinkedService",
"properties": {
"type": "HDInsight",
"typeProperties": {
"clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
"userName": "username",
"password": {
"value": "passwordvalue",
"type": "SecureString"
},
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
_Propriedades
Property | Descrição | Obrigatório |
---|---|---|
tipo | A propriedade type deve ser definida como HDInsight. | Sim |
clusterUri | O URI do cluster HDInsight. | Sim |
nome de utilizador | Especifique o nome do usuário a ser usado para se conectar a um cluster HDInsight existente. | Sim |
password | Especifique a senha para a conta de usuário. | Sim |
linkedServiceName | Nome do serviço vinculado do Armazenamento do Azure que se refere ao armazenamento de blob do Azure usado pelo cluster HDInsight. Atualmente, não é possível especificar um serviço vinculado do Azure Data Lake Storage (Gen 2) para essa propriedade. Se o cluster HDInsight tiver acesso ao Repositório Data Lake, você poderá acessar dados no Armazenamento do Azure Data Lake (Gen 2) a partir de scripts Hive/Pig. |
Sim |
isEspEnabled | Especifique 'true' se o cluster HDInsight estiver habilitado para o Pacote de Segurança Empresarial . O padrão é 'false'. | Não |
ConecteVia | O tempo de execução de integração a ser usado para despachar as atividades para este serviço vinculado. Você pode usar o Azure Integration Runtime ou o Self-hosted Integration Runtime. Se não for especificado, ele usará o Tempo de Execução de Integração do Azure padrão. Para o cluster HDInsight habilitado para ESP (Enterprise Security Package), use um tempo de execução de integração auto-hospedado, que tenha uma linha de visão para o cluster ou deve ser implantado dentro da mesma Rede Virtual que o cluster ESP HDInsight. |
Não |
Importante
O HDInsight oferece suporte a várias versões de cluster Hadoop que podem ser implantadas. Cada opção de versão cria uma versão específica da distribuição Hortonworks Data Platform (HDP) e um conjunto de componentes contidos nessa distribuição. A lista de versões suportadas do HDInsight continua sendo atualizada para fornecer os componentes e correções mais recentes do ecossistema Hadoop. Certifique-se de que consulta sempre as informações mais recentes da versão suportada do HDInsight e do tipo de SO para garantir que está a utilizar a versão suportada do HDInsight.
Importante
Atualmente, os serviços vinculados do HDInsight não suportam HBase, Interactive Query (Hive LLAP), Storm.
Serviço vinculado do Azure Batch
Nota
Recomendamos que utilize o módulo Azure Az do PowerShell para interagir com o Azure. Para começar, consulte Instalar o Azure PowerShell. Para saber como migrar para o módulo do Az PowerShell, veja Migrar o Azure PowerShell do AzureRM para o Az.
Você pode criar um serviço vinculado do Lote do Azure para registrar um pool de Lotes de máquinas virtuais (VMs) em um espaço de trabalho de dados ou Sinapse. Você pode executar a atividade personalizada usando o Lote do Azure.
Consulte os seguintes artigos se você for novo no serviço Batch do Azure:
- Noções básicas do Azure Batch para obter uma visão geral do serviço Azure Batch.
- Cmdlet New-AzBatchAccount para criar uma conta de Lote do Azure (ou) portal do Azure para criar a conta do Lote do Azure usando o portal do Azure. Consulte o artigo Usando o PowerShell para gerenciar a Conta em Lote do Azure para obter instruções detalhadas sobre como usar o cmdlet.
- Cmdlet New-AzBatchPool para criar um pool de Lotes do Azure.
Importante
Ao criar um novo pool de lotes do Azure, 'VirtualMachineConfiguration' deve ser usado e NÃO 'CloudServiceConfiguration'. Para obter mais detalhes, consulte Diretrizes de migração do Pool de Lotes do Azure.
Exemplo
{
"name": "AzureBatchLinkedService",
"properties": {
"type": "AzureBatch",
"typeProperties": {
"accountName": "batchaccount",
"accessKey": {
"type": "SecureString",
"value": "access key"
},
"batchUri": "https://batchaccount.region.batch.azure.com",
"poolName": "poolname",
"linkedServiceName": {
"referenceName": "StorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
_Propriedades
Property | Descrição | Obrigatório |
---|---|---|
tipo | A propriedade type deve ser definida como AzureBatch. | Sim |
accountName | Nome da conta do Lote do Azure. | Sim |
chave de acesso | Chave de acesso para a conta do Lote do Azure. | Sim |
batchUri | URL para sua conta do Lote do Azure, no formato de https:// batchaccountname.region.batch.azure.com. | Sim |
nome_da_piscina | Nome do pool de máquinas virtuais. | Sim |
linkedServiceName | Nome do serviço vinculado do Armazenamento do Azure associado a este serviço vinculado do Lote do Azure. Esse serviço vinculado é usado para preparar arquivos necessários para executar a atividade. | Sim |
ConecteVia | O tempo de execução de integração a ser usado para despachar as atividades para este serviço vinculado. Você pode usar o Azure Integration Runtime ou o Self-hosted Integration Runtime. Se não for especificado, ele usará o Tempo de Execução de Integração do Azure padrão. | Não |
Serviço vinculado do Machine Learning Studio (clássico)
Importante
O suporte para o Azure Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. Recomendamos que faça a transição para o Azure Machine Learning até essa data.
A partir de 1º de dezembro de 2021, não é possível criar novos recursos (clássicos) do Machine Learning Studio (espaço de trabalho e plano de serviço Web). Até 31 de agosto de 2024, você pode continuar a usar os experimentos e serviços Web existentes do Machine Learning Studio (clássicos). Para obter mais informações, consulte:
- Migrar para o Azure Machine Learning a partir do Machine Learning Studio (clássico)
- O que é o Azure Machine Learning?
A documentação do Machine Learning Studio (clássica) está sendo desativada e pode não ser atualizada no futuro.
Você cria um serviço vinculado do Estúdio de Aprendizado de Máquina (clássico) para registrar um ponto de extremidade de pontuação em lote do Estúdio de Aprendizado de Máquina (clássico) em uma fábrica de dados ou espaço de trabalho Sinapse.
Exemplo
{
"name": "AzureMLLinkedService",
"properties": {
"type": "AzureML",
"typeProperties": {
"mlEndpoint": "https://[batch scoring endpoint]/jobs",
"apiKey": {
"type": "SecureString",
"value": "access key"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
_Propriedades
Property | Descrição | Obrigatório |
---|---|---|
Type | A propriedade type deve ser definida como: AzureML. | Sim |
mlPonto final | O URL de pontuação em lote. | Sim |
apiKey | A API do modelo de espaço de trabalho publicado. | Sim |
updateResourceEndpoint | A URL do recurso de atualização para um ponto de extremidade do Serviço Web ML Studio (clássico) usado para atualizar o serviço Web preditivo com o arquivo de modelo treinado | Não |
servicePrincipalId | Especifique o ID do cliente do aplicativo. | Necessário se updateResourceEndpoint for especificado |
servicePrincipalKey | Especifique a chave do aplicativo. | Necessário se updateResourceEndpoint for especificado |
tenant | Especifique as informações do locatário (nome de domínio ou ID do locatário) sob as quais seu aplicativo reside. Você pode recuperá-lo passando o mouse no canto superior direito do portal do Azure. | Necessário se updateResourceEndpoint for especificado |
ConecteVia | O tempo de execução de integração a ser usado para despachar as atividades para este serviço vinculado. Você pode usar o Azure Integration Runtime ou o Self-hosted Integration Runtime. Se não for especificado, ele usará o Tempo de Execução de Integração do Azure padrão. | Não |
Serviço vinculado do Azure Machine Learning
Você cria um serviço vinculado do Azure Machine Learning para conectar um espaço de trabalho do Azure Machine Learning a um data factory ou espaço de trabalho Synapse.
Nota
Atualmente, apenas a autenticação da entidade de serviço tem suporte para o serviço vinculado do Azure Machine Learning.
Exemplo
{
"name": "AzureMLServiceLinkedService",
"properties": {
"type": "AzureMLService",
"typeProperties": {
"subscriptionId": "subscriptionId",
"resourceGroupName": "resourceGroupName",
"mlWorkspaceName": "mlWorkspaceName",
"servicePrincipalId": "service principal id",
"servicePrincipalKey": {
"value": "service principal key",
"type": "SecureString"
},
"tenant": "tenant ID"
},
"connectVia": {
"referenceName": "<name of Integration Runtime?",
"type": "IntegrationRuntimeReference"
}
}
}
_Propriedades
Property | Descrição | Obrigatório |
---|---|---|
Type | A propriedade type deve ser definida como: AzureMLService. | Sim |
subscriptionId | Id de subscrição do Azure | Sim |
resourceGroupName | nome | Sim |
mlWorkspaceName | Nome do espaço de trabalho do Azure Machine Learning | Sim |
servicePrincipalId | Especifique o ID do cliente do aplicativo. | Sim |
servicePrincipalKey | Especifique a chave do aplicativo. | Sim |
tenant | Especifique as informações do locatário (nome de domínio ou ID do locatário) sob as quais seu aplicativo reside. Você pode recuperá-lo passando o mouse no canto superior direito do portal do Azure. | Necessário se updateResourceEndpoint for especificado |
ConecteVia | O tempo de execução de integração a ser usado para despachar as atividades para este serviço vinculado. Você pode usar o Azure Integration Runtime ou o Self-hosted Integration Runtime. Se não for especificado, ele usará o Tempo de Execução de Integração do Azure padrão. | Não |
Serviço vinculado do Azure Data Lake Analytics
Você cria um serviço vinculado do Azure Data Lake Analytics para vincular um serviço de computação do Azure Data Lake Analytics a uma fábrica de dados ou espaço de trabalho Synapse. A atividade U-SQL do Data Lake Analytics no pipeline refere-se a esse serviço vinculado.
Exemplo
{
"name": "AzureDataLakeAnalyticsLinkedService",
"properties": {
"type": "AzureDataLakeAnalytics",
"typeProperties": {
"accountName": "adftestaccount",
"dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
"servicePrincipalId": "service principal id",
"servicePrincipalKey": {
"value": "service principal key",
"type": "SecureString"
},
"tenant": "tenant ID",
"subscriptionId": "<optional, subscription ID of ADLA>",
"resourceGroupName": "<optional, resource group name of ADLA>"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
_Propriedades
Property | Descrição | Obrigatório |
---|---|---|
tipo | A propriedade type deve ser definida como: AzureDataLakeAnalytics. | Sim |
accountName | Nome da conta do Azure Data Lake Analytics. | Sim |
dataLakeAnalyticsUri | URI do Azure Data Lake Analytics. | Não |
subscriptionId | Id de subscrição do Azure | Não |
resourceGroupName | Nome do grupo de recursos do Azure | Não |
servicePrincipalId | Especifique o ID do cliente do aplicativo. | Sim |
servicePrincipalKey | Especifique a chave do aplicativo. | Sim |
tenant | Especifique as informações do locatário (nome de domínio ou ID do locatário) sob as quais seu aplicativo reside. Você pode recuperá-lo passando o mouse no canto superior direito do portal do Azure. | Sim |
ConecteVia | O tempo de execução de integração a ser usado para despachar as atividades para este serviço vinculado. Você pode usar o Azure Integration Runtime ou o Self-hosted Integration Runtime. Se não for especificado, ele usará o Tempo de Execução de Integração do Azure padrão. | Não |
Serviço vinculado do Azure Databricks
Você pode criar o serviço vinculado do Azure Databricks para registrar o espaço de trabalho do Databricks que você usa para executar as cargas de trabalho do Databricks (notebook, jar, python).
Importante
Os serviços vinculados do Databricks suportam pools de instâncias e autenticação de identidade gerenciada atribuída pelo sistema.
Exemplo - Usando novo cluster de trabalho no Databricks
{
"name": "AzureDatabricks_LS",
"properties": {
"type": "AzureDatabricks",
"typeProperties": {
"domain": "https://eastus.azuredatabricks.net",
"newClusterNodeType": "Standard_D3_v2",
"newClusterNumOfWorker": "1:10",
"newClusterVersion": "4.0.x-scala2.11",
"accessToken": {
"type": "SecureString",
"value": "YourAccessToken"
}
}
}
}
Exemplo - Usando cluster interativo existente no Databricks
{
"name": " AzureDataBricksLinkedService",
"properties": {
"type": " AzureDatabricks",
"typeProperties": {
"domain": "https://westeurope.azuredatabricks.net",
"accessToken": {
"type": "SecureString",
"value": "YourAccessToken"
},
"existingClusterId": "{clusterId}"
}
}
_Propriedades
Property | Descrição | Obrigatório |
---|---|---|
nome | Nome do Serviço Vinculado | Sim |
tipo | A propriedade type deve ser definida como: Azure Databricks. | Sim |
domínio | Especifique a região do Azure de acordo com a região do espaço de trabalho Databricks. Exemplo: https://eastus.azuredatabricks.net | Sim |
accessToken | O token de acesso é necessário para que o serviço se autentique no Azure Databricks. O token de acesso precisa ser gerado a partir do espaço de trabalho databricks. Etapas mais detalhadas para encontrar o token de acesso podem ser encontradas aqui | Não |
MSI | Use a identidade gerenciada do serviço (atribuída pelo sistema) para autenticar no Azure Databricks. Você não precisa de token de acesso ao usar a autenticação 'MSI'. Mais detalhes sobre a autenticação de Identidade Gerenciada podem ser encontrados aqui | Não |
existingClusterId | ID de cluster de um cluster existente para executar todos os trabalhos nele. Este deve ser um Cluster Interativo já criado. Talvez seja necessário reiniciar manualmente o cluster se ele parar de responder. O Databricks sugere a execução de trabalhos em novos clusters para maior confiabilidade. Você pode encontrar a ID do Cluster Interativo no espaço de trabalho Databricks -> Clusters -> Nome do Cluster Interativo -> Configuração -> Tags. Mais detalhes | Não |
instancePoolId | ID do Pool de Instâncias de um pool existente no espaço de trabalho databricks. | Não |
newClusterVersion | A versão Spark do cluster. Ele cria um cluster de trabalho em databricks. | Não |
newClusterNumOfWorker | Número de nós de trabalho que esse cluster deve ter. Um cluster tem um Spark Driver e num_workers Executores para um total de num_workers + 1 nós Spark. Uma cadeia de caracteres formatada Int32, como "1" significa numOfWorker é 1 ou "1:10" significa escala automática de 1 como min e 10 como max. | Não |
newClusterNodeType | Este campo codifica, através de um único valor, os recursos disponíveis para cada um dos nós do Spark neste cluster. Por exemplo, os nós do Spark podem ser provisionados e otimizados para cargas de trabalho intensivas de memória ou computação. Este campo é obrigatório para o novo cluster | Não |
novoClusterSparkConf | um conjunto de pares opcionais de chave-valor de configuração do Spark especificados pelo usuário. Os usuários também podem passar uma sequência de opções JVM extras para o driver e os executores via spark.driver.extraJavaOptions e spark.executor.extraJavaOptions, respectivamente. | Não |
newClusterInitScripts | Um conjunto de scripts de inicialização opcionais definidos pelo usuário para o novo cluster. Você pode especificar os scripts init em arquivos de espaço de trabalho (recomendado) ou através do caminho DBFS (legado). | Não |
Serviço ligado da Base de Dados SQL do Azure
Você cria um serviço vinculado SQL do Azure e o usa com a Atividade de Procedimento Armazenado para invocar um procedimento armazenado de um pipeline. Consulte o artigo do Azure SQL Connector para obter detalhes sobre este serviço vinculado.
Serviço vinculado do Azure Synapse Analytics
Você cria um serviço vinculado do Azure Synapse Analytics e o usa com a Atividade de Procedimento Armazenado para invocar um procedimento armazenado de um pipeline. Consulte o artigo do Azure Synapse Analytics Connector para obter detalhes sobre este serviço vinculado.
Serviço vinculado do SQL Server
Você cria um serviço vinculado do SQL Server e o usa com a Atividade de Procedimento Armazenado para invocar um procedimento armazenado de um pipeline. Consulte o artigo do conector do SQL Server para obter detalhes sobre esse serviço vinculado.
Serviço vinculado do Azure Synapse Analytics (Artefatos)
Você cria um serviço vinculado do Azure Synapse Analytics (Artefatos) e o usa com a Atividade do Bloco de Anotações Synapse e a Atividade de definição de trabalho do Synapse Spark.
Exemplo
{
"name": "AzureSynapseArtifacts",
"type": "Microsoft.DataFactory/factories/linkedservice",
"properties": {
"properties": {
"a":{
"type": "String"
}
},
"annotations": [],
"type": "AzureSynapseArtifacts",
"typeProperties": {
"endpoint": "@{linkedService().a}",
"authentication": "MSI",
"workspaceResourceId": ""
},
"ConnectVia":{
"referenceName": "integrationRuntime1",
"type": "IntegrationRuntimeReference"
}
}
}
_Propriedades
Propriedade | Descrição | Obrigatório |
---|---|---|
nome | Nome do Serviço Vinculado | Sim |
descrição | descrição do Serviço Vinculado | Não |
anotações | anotações do Serviço Vinculado | Não |
tipo | A propriedade type deve ser definida como AzureSynapseArtifacts | Sim |
endpoint | A URL do Azure Synapse Analytics | Sim |
autenticação | A configuração padrão é Identidade Gerenciada Atribuída ao Sistema | Sim |
workspaceResourceId | ID do recurso do espaço de trabalho | Sim |
ConecteVia | O tempo de execução de integração a ser usado para se conectar ao armazenamento de dados. Você pode usar o Azure Integration Runtime. Se não for especificado, ele usará o Tempo de Execução de Integração do Azure padrão. O tempo de execução de integração auto-hospedado não é suportado no momento. | Sim |
Serviço vinculado do Azure Function
Você cria um serviço vinculado do Azure Function e o usa com a atividade do Azure Function para executar o Azure Functions em um pipeline. O tipo de retorno da função do Azure deve ser um arquivo JObject
. (Tenha em mente que JArray não é um JObject
.) Qualquer tipo de retorno diferente de JObject
falha e gera o erro do usuário Conteúdo de resposta não é um JObject válido.
Propriedade | Descrição | Obrigatório |
---|---|---|
tipo | A propriedade type deve ser definida como: AzureFunction | sim |
URL do aplicativo de função | URL para o aplicativo Azure Function. O formato é https://<accountname>.azurewebsites.net . Essa URL é o valor na seção URL ao exibir seu Aplicativo de Função no portal do Azure |
sim |
tecla de função | Chave de acesso para a Função do Azure. Clique na seção Gerenciar para a respetiva função e copie a tecla de função ou a chave de host. Saiba mais aqui: Trabalhar com chaves de acesso | sim |
Conteúdos relacionados
Para obter uma lista das atividades de transformação suportadas, consulte Transformar dados.