Partilhar via


Executar um Databricks Notebook com a Atividade do Databricks Notebook no Azure Data Factory

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

Neste tutorial, utiliza o portal do Azure para criar um pipeline do Azure Data Factory que executa um Databricks Notebook no cluster de tarefas do Databricks. Também transmite os parâmetros do Azure Data Factory ao Databricks Notebook durante a execução.

Vai executar os seguintes passos neste tutorial:

  • Criar uma fábrica de dados.

  • Crie um pipeline que utilize a atividade do Databricks Notebook.

  • Acionar uma execução de pipeline.

  • Monitorizar a execução do pipeline.

Se não tiver uma subscrição do Azure, crie uma conta gratuita antes de começar.

Para uma introdução e demonstração de onze minutos desta funcionalidade, veja o seguinte vídeo:

Pré-requisitos

  • Área de trabalho do Azure Databricks. Crie uma área de trabalho do Databricks ou utilize uma já existente. Crie um Python Notebook na sua área de trabalho do Azure Databricks. Em seguida, execute o Notebook e transmita os parâmetros ao mesmo através do Azure Data Factory.

Criar uma fábrica de dados

  1. Abra o browser Microsoft Edge ou Google Chrome. Atualmente, a IU do Data Factory é suportada apenas nos browsers Microsoft Edge e Google Chrome.

  2. Selecione Criar um recurso no menu do portal do Azure, selecione Integração e, em seguida, selecione Data Factory.

    Captura de tela mostrando a seleção do Data Factory no painel Novo.

  3. Na página Criar Data Factory, na guia Noções básicas, selecione sua Assinatura do Azure na qual você deseja criar o data factory.

  4. Em Grupo de Recursos, efetue um destes passos:

    1. Selecione um grupo de recursos existente na lista suspensa.

    2. Selecione Criar novo e insira o nome de um novo grupo de recursos.

    Para saber mais sobre os grupos de recursos, veja Utilizar grupos de recursos para gerir os recursos do Azure.

  5. Em Região, selecione o local para o data factory.

    A lista mostra apenas as localizações suportadas pelo Data Factory e onde serão armazenados os seus metadados do Azure Data Factory. Os armazenamentos de dados associados (como o Armazenamento do Azure e o Banco de Dados SQL do Azure) e os cálculos (como o Azure HDInsight) que o Data Factory usa podem ser executados em outras regiões.

  6. Em Name, insira ADFTutorialDataFactory.

    O nome do Azure Data Factory deve ser globalmente exclusivo. Se você vir o seguinte erro, altere o nome do data factory (por exemplo, use <yourname>ADFTutorialDataFactory). Para regras de nomenclatura de artefactos do Data Factory, veja o artigo Data Factory – Regras de Nomenclatura.

    Captura de ecrã a mostrar o erro quando um nome não está disponível.

  7. Em Versão, selecione V2.

  8. Selecione Next: Git configuration e, em seguida, selecione Configure Git later check box.

  9. Selecione Rever + criar e selecione Criar após a validação ser aprovada.

  10. Após a conclusão da criação, selecione Ir para o recurso para navegar até a página Data Factory . Selecione o bloco Abrir o Azure Data Factory Studio para iniciar o aplicativo de interface do usuário (UI) do Azure Data Factory em uma guia separada do navegador.

    Captura de ecrã a mostrar a home page do Azure Data Factory, com o mosaico Open Azure Data Factory Studio.

Criar serviços ligados

Nesta secção, vai criar um serviço ligado do Databricks. Este serviço ligado contém as informações de ligação ao cluster do Databricks:

Criar um serviço ligado do Azure Databricks

  1. Na página inicial, alterne para a guia Gerenciar no painel esquerdo.

    Captura de ecrã a mostrar o separador Gerir.

  2. Selecione Serviços vinculados em Conexões e, em seguida, selecione + Novo.

    Captura de ecrã a mostrar como criar uma nova ligação.

  3. Na janela Novo serviço vinculado, selecione Compute>Azure Databricks e, em seguida, selecione Continuar.

    Captura de tela mostrando como especificar um serviço vinculado Databricks.

  4. Na janela Novo serviço vinculado, conclua as seguintes etapas:

    1. Em Nome, digite AzureDatabricks_LinkedService.

    2. Selecione o espaço de trabalho Databricks apropriado no qual você executará seu bloco de anotações.

    3. Em Selecionar cluster, selecione Novo cluster de trabalho.

    4. Para a URL do Databrick Workspace, as informações devem ser preenchidas automaticamente.

    5. Para Tipo de autenticação, se você selecionar Token de acesso, gere-o do local de trabalho do Azure Databricks. Pode encontrar os passos aqui. Para Identidade de serviço gerenciado e Identidade gerenciada atribuída pelo usuário, conceda a função de Colaborador a ambas as identidades no menu Controle de acesso do recurso Azure Databricks.

    6. Em Versão do cluster, selecione a versão que deseja usar.

    7. Para Tipo de nó de cluster, selecione Standard_D3_v2 na categoria Uso geral (HDD) para este tutorial.

    8. Em Funções de trabalho, introduza 2.

    9. Selecione Criar.

      Captura de tela mostrando a configuração do novo serviço vinculado do Azure Databricks.

Criar um pipeline

  1. Selecione o botão + (mais) e, em seguida, selecione Pipeline no menu.

    Captura de tela mostrando botões para criar um novo pipeline.

  2. Crie um parâmetro para ser utilizado no Pipeline. Mais tarde, transmita este parâmetro à Atividade do Databricks Notebook. No pipeline vazio, selecione a guia Parâmetros , selecione + Novo e nomeie-o como 'nome'.

    Captura de tela mostrando como criar um novo parâmetro.

    Captura de tela mostrando como criar o parâmetro name.

  3. Na caixa de ferramentas Atividades, expanda Databricks. Arraste a atividade do Notebook da caixa de ferramentas Atividades para a superfície de desenho do pipeline.

    Captura de tela mostrando como arrastar o bloco de anotações para a superfície do designer.

  4. Nas propriedades da janela de atividade do Bloco de Anotações Databricks na parte inferior, conclua as seguintes etapas:

    1. Mude para o separador Azure Databricks.

    2. Selecione AzureDatabricks_LinkedService (que você criou no procedimento anterior).

    3. Mudar para o separador Definições.

    4. Navegue para selecionar um caminho do Databricks Notebook. Vamos criar um Notebook e especificar o caminho aqui. O Caminho do Notebook é obtido ao seguir os próximos passos.

      1. Inicie seu espaço de trabalho do Azure Databricks.

      2. Crie uma Nova Pasta na Área de Trabalho e denomine-a adftutorial.

        Captura de ecrã a mostrar como criar uma nova pasta.

      3. Captura de ecrã a mostrar como criar um novo bloco de notas. (Python), vamos chamá-lo de mynotebook em adftutorial Folder, clique em Criar.

        Captura de ecrã a mostrar como criar um novo bloco de notas.

        Captura de ecrã a mostrar como definir as propriedades do novo bloco de notas.

      4. No Notebook recém-criado denominado "mynotebook", adicione o seguinte código:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        

        Captura de tela mostrando como criar widgets para parâmetros.

      5. O caminho do bloco de anotações, neste caso, é /adftutorial/mynotebook.

  5. Volte à ferramenta de criação da IU do Data Factory. Navegue até a guia Configurações na atividade Bloco de Anotações1 .

    a. Adicione um parâmetro à atividade do Bloco de Anotações. Vai utilizar o mesmo parâmetro que adicionou anteriormente ao Pipeline.

    Captura de tela mostrando como adicionar um parâmetro.

    b. Nomeie o parâmetro como entrada e forneça o valor como expressão @pipeline().parameters.name.

  6. Para validar o pipeline, selecione o botão Validar na barra de ferramentas. Para fechar a janela de validação, selecione o botão Fechar .

    Captura de tela mostrando como validar o pipeline.

  7. Selecione Publicar tudo. A IU do Data Factory publica as entidades (serviços ligados e pipeline) no serviço Azure Data Factory.

    Captura de tela mostrando como publicar as novas entidades do data factory.

Acionar uma execução de pipeline

Selecione Adicionar gatilho na barra de ferramentas e, em seguida, selecione Gatilho agora.

Captura de ecrã a mostrar como selecionar o comando 'Acionar agora'.

A caixa de diálogo Pipeline run solicita o parâmetro name . Utilize /path/filename como parâmetro aqui. Selecione OK.

Captura de tela mostrando como fornecer um valor para os parâmetros de nome.

Monitorizar a execução do pipeline.

  1. Alterne para a guia Monitor . Confirme se você vê um pipeline em execução. A criação de um cluster de trabalhos do Databricks, onde o Notebook vai ser executado, demora aproximadamente entre 5 a 8 minutos.

    Captura de tela mostrando como monitorar o pipeline.

  2. Selecione Atualizar periodicamente para verificar o estado da execução do pipeline.

  3. Para ver as execuções de atividade associadas à execução do pipeline, selecione o link pipeline1 na coluna Nome do pipeline .

  4. Na página Execuções de atividade, selecione Saída na coluna Nome da atividade para exibir a saída de cada atividade e você pode encontrar o link para logs do Databricks no painel Saída para obter logs do Spark mais detalhados.

  5. Você pode voltar para a visualização de execuções de pipeline selecionando o link Todas as execuções de pipeline no menu de trilha na parte superior.

Verificar a saída

Pode iniciar sessão na Área de trabalho do Azure Databricks, aceder a Clusters e ver o estado do Trabalho como execução pendente, em execução ou terminado.

Captura de tela mostrando como exibir o cluster de trabalho e o trabalho.

Pode clicar no Nome do trabalho e navegar para ver mais detalhes. Numa execução bem-sucedida, pode validar os parâmetros transmitidos e o resultado do Python Notebook.

Captura de tela mostrando como visualizar os detalhes da execução e a saída.

O pipeline neste exemplo aciona uma atividade Databricks Notebook e transmite um parâmetro à mesma. Aprendeu a:

  • Criar uma fábrica de dados.

  • Criar um pipeline que utiliza uma atividade Databricks Notebook.

  • Acionar uma execução de pipeline.

  • Monitorizar a execução do pipeline.