Transformar dados executando um Bloco de Anotações Synapse
APLICA-SE A: Azure Data Factory Azure Synapse Analytics
Gorjeta
Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!
A Atividade do Bloco de Anotações do Azure Synapse em um pipeline executa um bloco de anotações Synapse em seu espaço de trabalho do Azure Synapse Analytics. Este artigo baseia-se no artigo de atividades de transformação de dados, que apresenta uma visão geral da transformação de dados e das atividades de transformação suportadas.
Você pode criar uma atividade de bloco de anotações do Azure Synapse Analytics diretamente por meio da interface do usuário do Azure Data Factory Studio. Para obter um passo a passo de como criar uma atividade de bloco de anotações Synapse usando a interface do usuário, você pode consultar o seguinte.
Adicionar uma atividade do Bloco de Anotações do Synapse a um pipeline com a interface do usuário
Para usar uma atividade do Notebook para Synapse em um pipeline, conclua as seguintes etapas:
Definições gerais
- Procure Bloco de Anotações no painel Atividades do pipeline e arraste uma atividade do Bloco de Anotações sob a Sinapse para a tela do pipeline.
- Selecione a nova atividade do Bloco de Anotações na tela, se ainda não estiver selecionada.
- Nas Configurações gerais, insira o exemplo para Nome.
- (Opção) Você também pode inserir uma descrição.
- Tempo limite: quantidade máxima de tempo que uma atividade pode ser executada. O padrão é 12 horas e o tempo máximo permitido é 7 dias. O formato está em D.HH:MM:SS.
- Repetir: número máximo de tentativas de repetição.
- Intervalo de repetição (seg): o número de segundos entre cada tentativa de repetição.
- Saída segura: Quando marcada, a saída da atividade não será capturada no registro.
- Entrada segura: quando marcada, a entrada da atividade não será capturada no registro.
Configurações do Azure Synapse Analytics (Artefatos)
Selecione a guia Azure Synapse Analytics (Artefatos) para selecionar ou criar um novo serviço vinculado do Azure Synapse Analytics que executará a atividade do Bloco de Anotações.
Separador Definições
Selecione a nova atividade Synapse Notebook na tela, se ainda não estiver selecionada.
Selecione o separador Definições.
Expanda a lista Bloco de Anotações, você pode selecionar um bloco de anotações existente no Azure Synapse Analytics (Artefatos) vinculado.
Clique no botão Abrir para abrir a página do serviço vinculado onde o bloco de anotações selecionado está localizado.
Nota
Se a ID do recurso Espaço de trabalho no serviço vinculado estiver vazia, o botão Abrir será desativado.
Selecione a guia Configurações e escolha o bloco de anotações e os parâmetros básicos opcionais para passar para o bloco de anotações.
(Opcional) Você pode preencher as informações para o caderno Sinapse. Se as seguintes configurações estiverem vazias, as configurações do próprio bloco de anotações Synapse serão usadas para executar; se as configurações a seguir não estiverem vazias, essas configurações substituirão as configurações do próprio bloco de anotações Sinapse.
Property Description Piscina de faísca Referência à piscina Spark. Você pode selecionar Apache Spark pool na lista. Tamanho do executor Número de núcleos e memória a serem usados para executores alocados no pool Apache Spark especificado para a sessão. Para conteúdo dinâmico, os valores válidos são Pequeno/Médio/Grande/XLarge/XXLarge. Alocar executores dinamicamente Essa configuração é mapeada para a propriedade de alocação dinâmica na configuração do Spark para alocação de executores do Spark Application. Executores Min Número mínimo de executores a serem alocados no pool Spark especificado para o trabalho. Max executores Número máximo de executores a serem alocados no pool de faíscas especificado para o trabalho. Tamanho do driver Número de núcleos e memória a serem usados para o driver fornecido no pool Apache Spark especificado para o trabalho.
Definição de atividade do Azure Synapse Analytics Notebook
Aqui está a definição JSON de exemplo de uma atividade de bloco de anotações do Azure Synapse Analytics:
{
"activities": [
{
"name": "demo",
"description": "description",
"type": "SynapseNotebook",
"dependsOn": [],
"policy": {
"timeout": "7.00:00:00",
"retry": 0,
"retryIntervalInSeconds": 30,
"secureOutput": false,
"secureInput": false
},
"userProperties": [
{
"name": "testproperties",
"value": "test123"
}
],
"typeProperties": {
"notebook": {
"referenceName": {
"value": "Notebookname",
"type": "Expression"
},
"type": "NotebookReference"
},
"parameters": {
"test": {
"value": "testvalue",
"type": "string"
}
},
"snapshot": true,
"sparkPool": {
"referenceName": {
"value": "SampleSpark",
"type": "Expression"
},
"type": "BigDataPoolReference"
}
},
"linkedServiceName": {
"referenceName": "AzureSynapseArtifacts1",
"type": "LinkedServiceReference"
}
}
]
}
Propriedades de atividade do Azure Synapse Analytics Notebook
A tabela a seguir descreve as propriedades JSON usadas na definição JSON:
Property | Descrição | Obrigatório |
---|---|---|
nome | Nome da atividade no pipeline. | Sim |
descrição | Texto descrevendo o que a atividade faz. | Não |
tipo | Para o Azure Synapse Analytics Notebook Activity, o tipo de atividade é SynapseNotebook. | Sim |
bloco de notas | O nome do bloco de anotações a ser executado no Azure Synapse Analytics. | Sim |
faísca, piscina | O pool de faíscas necessário para executar o Azure Synapse Analytics Notebook. | Não |
parâmetro | Parâmetro necessário para executar o Azure Synapse Analytics Notebook. Para obter mais informações, consulte Transformar dados executando um bloco de anotações Synapse | Não |
Designar uma célula de parâmetros
O Azure Data Factory procura a célula de parâmetros e usa os valores como padrão para os parâmetros passados no tempo de execução. O mecanismo de execução adicionará uma nova célula abaixo da célula de parâmetros com parâmetros de entrada para substituir os valores padrão. Você pode consultar Transformar dados executando um bloco de anotações Sinapse.
Ler o valor de saída da célula do bloco de notas Synapse
Você pode ler o valor de saída da célula do bloco de anotações em atividade, para este painel, você pode consultar Transformar dados executando um bloco de anotações Sinapse.
Executar outro bloco de anotações Synapse
Você pode fazer referência a outros blocos de anotações em uma atividade de bloco de anotações Synapse chamando %run magic ou utilitários de notebook mssparkutils. Ambos suportam chamadas de função de aninhamento. As principais diferenças desses dois métodos que você deve considerar com base no seu cenário são:
- %run magic copia todas as células do bloco de anotações referenciado para a célula %run e compartilha o contexto da variável. Quando notebook1 faz referência a notebook2 via
%run notebook2
e notebook2 chama uma função mssparkutils.notebook.exit , a execução da célula no notebook1 será interrompida. Recomendamos que você use %run magic quando quiser "incluir" um arquivo de bloco de anotações. - MSSTareTilUtils Notebook Utilities chama o bloco de anotações referenciado como um método ou uma função. O contexto da variável não é compartilhado. Quando notebook1 faz referência a notebook2 via
mssparkutils.notebook.run("notebook2")
e notebook2 chama uma função mssparkutils.notebook.exit , a execução da célula no notebook1 continuará. Recomendamos que você use os utilitários de notebook mssparkutils quando quiser "importar" um notebook.
Consulte o histórico de execução da atividade do Azure Synapse Analytics Notebook
Vá para Pipeline executa na guia Monitor , você verá o pipeline que você acionou. Abra o pipeline que contém a atividade do bloco de anotações para ver o histórico de execução.
Para instantâneo do bloco de anotações aberto, esse recurso não é suportado no momento.
Você pode ver a entrada ou saída da atividade do notebook selecionando o botão de entrada ou Saída. Se o pipeline falhou com um erro do usuário, selecione a saída para verificar o campo de resultado para ver o rastreio detalhado do erro do usuário.