Compartilhar via


Transformar dados executando um Notebook do Synapse

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!

A atividade de Notebook do Azure Synapse em um pipeline executa um notebook do Synapse no seu workspace do Azure Synapse Analytics. Este artigo se baseia no artigo sobre atividades de transformação de dados que apresenta uma visão geral da transformação de dados e as atividades de transformação permitidas.

Você pode criar uma atividade de notebook do Azure Synapse Analytics diretamente por meio da interface do usuário do Estúdio do Azure Data Factory. Para ver uma explicação passo a passo de como criar uma atividade de notebook do Synapse usando a interface do usuário, você pode consultar o seguinte.

Adicionar uma atividade de Notebook do Synapse a um pipeline com a interface do usuário

Para usar uma atividade de Notebook do Synapse em um pipeline, realize as seguintes etapas:

Configurações gerais

  1. Procure Notebook no painel Atividades do pipeline e arraste uma atividade de Notebook no Synapse para a tela do pipeline.
  2. Selecione a nova atividade Notebook na tela se ela ainda não estiver selecionada.
  3. Nas configurações Gerais, insira o exemplo do Nome.
  4. (Opção) Também é possível inserir uma descrição.
  5. Tempo limite: a quantidade máxima de tempo de execução de uma atividade. O padrão é de 12 horas e o tempo máximo permitido é de 7 dias. O formato está em D.HH:MM:SS.
  6. Novas tentativas: o número máximo de novas tentativas.
  7. Intervalo de repetição (segundos): o número de segundos entre cada repetição.
  8. Saída segura: quando marcada, a saída da atividade não será capturada no log.
  9. Entrada segura: quando marcada, a entrada da atividade não será capturada no log.

Configurações do Azure Synapse Analytics (Artifacts)

Selecione a guia Azure Synapse Analytics (Artifacts) para selecionar ou criar um novo serviço vinculado do Azure Synapse Analytics que executará a atividade de Notebook.

Captura de tela da guia de serviço vinculado para uma atividade de Notebook.

Guia Configurações

  1. Selecione a nova atividade de Notebook do Synapse na tela, se ainda não estiver selecionada.

  2. Selecione a guia Configurações.

  3. Expanda a lista Notebook. Você pode selecionar um notebook existente no Azure Synapse Analytics (Artifacts) vinculado.

  4. Clique no botão Abrir para abrir a página do serviço vinculado em que o notebook selecionado está localizado.

Observação

Se a ID do recurso workspace no serviço vinculado estiver vazia, o botão Abrir estará desabilitado.

A captura de tela do botão Abrir está desabilitada.

  1. Selecione a guia Configurações e escolha o notebook e os parâmetros base opcionais a serem passados para o notebook.

    Captura de tela da guia Configurações para uma atividade de Notebook.

  2. (Opcional) Você pode preencher as informações para o notebook do Synapse. Se as configurações a seguir estiverem vazias, as configurações do próprio notebook do Synapse serão usadas para executar. Se as configurações a seguir não estiverem vazias, essas configurações substituirão as configurações do próprio notebook do Synapse.

    Propriedade Descrição
    Pool do Spark Referência ao Pool do Spark. Você pode selecionar o pool do Apache Spark na lista.
    Tamanho do executor O número de núcleos e a memória a serem usados para os executores alocados no Pool do Apache Spark especificado para a sessão. Em conteúdo dinâmico, os valores válidos são Small/Medium/Large/XLarge/XXLarge.
    Alocar executores dinamicamente Esta configuração é mapeada para a propriedade de alocação dinâmica na configuração do Spark para a alocação de executores do Aplicativo Spark.
    Mínimo de executores Número mínimo de executores a serem alocados no Pool do Spark especificado para o trabalho.
    Máximo de executores Número máximo de executores a serem alocados no Pool do Spark especificado para o trabalho.
    Tamanho do driver Número de núcleos e memória a serem usados para o driver fornecido no pool do Apache Spark especificado para o trabalho.

Definição da atividade de Notebook do Azure Synapse Analytics

Esta está a definição JSON de exemplo de uma atividade de Notebook do Azure Synapse Analytics:

{
    "activities": [
            {
                "name": "demo",
                "description": "description",
                "type": "SynapseNotebook",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "userProperties": [
                    {
                        "name": "testproperties",
                        "value": "test123"
                    }
                ],
                "typeProperties": {
                    "notebook": {
                        "referenceName": {
                            "value": "Notebookname",
                            "type": "Expression"
                        },
                        "type": "NotebookReference"
                    },
                    "parameters": {
                        "test": {
                            "value": "testvalue",
                            "type": "string"
                        }
                    },
                    "snapshot": true,
                    "sparkPool": {
                        "referenceName": {
                            "value": "SampleSpark",
                            "type": "Expression"
                        },
                        "type": "BigDataPoolReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ]
    }

Propriedades da atividade de Notebook do Azure Synapse Analytics

A tabela a seguir descreve as propriedades JSON usadas na definição de JSON:

Propriedade Descrição Obrigatório
name Nome da atividade no pipeline. Sim
descrição Texto que descreve o que a atividade faz. Não
type Em Atividade de Notebook do Azure Synapse Analytics, o tipo de atividade é SynapseNotebook. Sim
notebook O nome do notebook a ser executado no Azure Synapse Analytics. Sim
sparkPool O pool do Spark necessário para executar o Notebook do Azure Synapse Analytics. Não
parâmetro Parâmetro necessário para executar o Notebook do Azure Synapse Analytics. Para obter mais informações, confira Transformar dados executando um notebook do Synapse No

Designar uma célula de parâmetros

O Azure Data Factory procura a célula parâmetros e usa os valores como padrão para os parâmetros passados no momento da execução. O mecanismo de execução adicionará uma nova célula abaixo da célula com parâmetros de entrada para substituir os valores padrão. Você pode consultar a opção Transformar dados executando um notebook do Synapse.

Ler o valor de saída da célula do notebook do Synapse

Você pode ler o valor de saída da célula do notebook em atividade. Neste painel, você pode consultar a opção Transformar dados executando um notebook do Synapse.

Executar outro notebook do Synapse

Você pode fazer referência a outros notebooks em uma atividade de notebook do Synapse ao chamar %run magic ou mssparkutils notebook utilities. Ambos dão suporte a chamadas de função aninhadas. As principais diferenças desses dois métodos que você deve considerar com base em seu cenário são:

  • %run magic copia todas as células do notebook referenciado para a célula %run e compartilha o contexto da variável. Quando o notebook1 referenciar o notebook2 via %run notebook2 e o notebook2 chamar uma função mssparkutils.notebook.exit, a execução da célula no notebook1 será interrompida. Recomendamos que você use %run magic quando quiser "incluir" um arquivo de notebook.
  • mssparkutils notebook utilities chama o notebook referenciado como um método ou uma função. O contexto da variável não é compartilhado. Quando o notebook1 referenciar o notebook2 via mssparkutils.notebook.run("notebook2") e o notebook2 chamar uma função mssparkutils.notebook.exit, a execução da célula no notebook1 continuará. Recomendamos que você use mssparkutils notebook utilities quando quiser "importar" um notebook.

Confira Histórico de execuções de atividade de Notebook do Azure Synapse Analytics

Vá até Execuções de pipeline na guia Monitor para ver o pipeline acionado. Abra o pipeline que contém a atividade do notebook para ver o histórico de execuções.

Captura de tela da entrada e da saída de uma atividade de Notebook.

Em Abrir instantâneo do notebook, não há suporte para esse recurso no momento.

Você pode ver as entradas ou saídas de atividades do notebook ao selecionar o botão Entrada ou Saída. Se o seu pipeline falhar com um erro de usuário, selecione a saída para verificar o campo resultado e ver o detalhamento do erro de usuário.

Captura de tela do erro do usuário de saída para uma atividade de Notebook.