Transformar dados executando uma atividade do Azure Databricks
A atividade do Azure Databricks no Data Factory for Microsoft Fabric permite orquestrar os seguintes trabalhos do Azure Databricks:
- Bloco de Notas
- Frasco
- Python
Este artigo fornece um passo a passo que descreve como criar uma atividade do Azure Databricks usando a interface do Data Factory.
Pré-requisitos
Para começar, você deve preencher os seguintes pré-requisitos:
- Uma conta de locatário com uma assinatura ativa. Crie uma conta gratuitamente.
- Um espaço de trabalho é criado.
Configurando uma atividade do Azure Databricks
Para usar uma atividade do Azure Databricks em um pipeline, conclua as seguintes etapas:
Configurando a conexão
Crie um novo pipeline em seu espaço de trabalho.
Clique em adicionar uma atividade de pipeline e procure o Azure Databricks.
Como alternativa, você pode pesquisar o Azure Databricks no painel Atividades do pipeline e selecioná-lo para adicioná-lo à tela do pipeline.
Selecione a nova atividade do Azure Databricks na tela, se ainda não estiver selecionada.
Consulte as orientações de configurações gerais para configurar a guia Configurações gerais.
Configurando clusters
Selecione a guia Cluster. Em seguida, você pode escolher uma conexão existente ou criar uma nova conexão do Azure Databricks e, em seguida, escolher um novo cluster de trabalho, um cluster interativo existente ou um pool de instâncias existente.
Dependendo do que você escolher para o cluster, preencha os campos correspondentes conforme apresentado.
- Em novo cluster de trabalho e pool de instâncias existentes, você também tem a capacidade de configurar o número de trabalhadores e habilitar instâncias spot.
Você também pode especificar configurações de cluster adicionais, como política de cluster, configuração do Spark, variáveis de ambiente do Spark e tags personalizadas, conforme necessário para o cluster ao qual você está se conectando. Os scripts de inicialização do Databricks e o caminho de destino do Log de Cluster também podem ser adicionados nas configurações adicionais do cluster.
Nota
Todas as propriedades avançadas de cluster e expressões dinâmicas suportadas no Azure Data Factory O serviço vinculado do Azure Databricks agora também tem suporte na atividade do Azure Databricks no Microsoft Fabric na seção 'Configuração de cluster adicional' na interface do usuário. Como essas propriedades agora estão incluídas na interface do usuário da atividade; eles podem ser facilmente usados com uma expressão (conteúdo dinâmico) sem a necessidade da especificação JSON Avançada no serviço vinculado Azure Data Factory Azure Databricks.
A Atividade do Azure Databricks agora também oferece suporte à Política de Cluster e ao Catálogo Unity.
- Em Configurações avançadas, você tem a opção de escolher a Diretiva de Cluster para especificar quais configurações de cluster são permitidas.
- Além disso, em configurações avançadas, você tem a opção de configurar o Modo de Acesso ao Catálogo Unity para maior segurança. Os tipos de modo de acesso disponíveis são:
- Modo de acesso de usuário único Este modo foi projetado para cenários em que cada cluster é usado por um único usuário. Ele garante que o acesso aos dados dentro do cluster seja restrito apenas a esse usuário. Este modo é útil para tarefas que exigem isolamento e tratamento de dados individuais.
- Modo de acesso compartilhado Nesse modo, vários usuários podem acessar o mesmo cluster. Ele combina a governança de dados do Unity Catalog com as ACLs (listas de controle de acesso à tabela) herdadas. Este modo permite o acesso colaborativo aos dados, mantendo os protocolos de governança e segurança. No entanto, ele tem certas limitações, como não suportar o Databricks Runtime ML, trabalhos de envio do Spark e APIs e UDFs específicas do Spark.
- Modo Sem acesso Este modo desativa a interação com o Catálogo Unity, o que significa que os clusters não têm acesso aos dados gerenciados pelo Catálogo Unity. Esse modo é útil para cargas de trabalho que não exigem os recursos de governança do Unity Catalog.
Definindo configurações
Selecionando a guia Configurações , você pode escolher entre 3 opções do tipo Azure Databricks que você gostaria de orquestrar.
Orquestrando o tipo de Bloco de Anotações na atividade do Azure Databricks:
Na guia Configurações, você pode escolher o botão de opção Bloco de Anotações para executar um Bloco de Anotações. Você precisará especificar o caminho do bloco de anotações a ser executado no Azure Databricks, parâmetros básicos opcionais a serem passados para o bloco de anotações e quaisquer bibliotecas adicionais a serem instaladas no cluster para executar o trabalho.
Orquestrando o tipo Jar na atividade do Azure Databricks:
Na guia Configurações, você pode escolher o botão de opção Jar para executar um Jar. Você precisará especificar o nome da classe a ser executada no Azure Databricks, parâmetros básicos opcionais a serem passados para o Jar e quaisquer bibliotecas adicionais a serem instaladas no cluster para executar o trabalho.
Orquestrando o tipo Python na atividade do Azure Databricks:
Na guia Configurações, você pode escolher o botão de opção Python para executar um arquivo Python. Você precisará especificar o caminho dentro do Azure Databricks para um arquivo Python a ser executado, parâmetros básicos opcionais a serem passados e quaisquer bibliotecas adicionais a serem instaladas no cluster para executar o trabalho.
Bibliotecas suportadas para a atividade do Azure Databricks
Na definição de atividade do Databricks acima, você pode especificar esses tipos de biblioteca: jar, egg, whl, maven, pypi, cran.
Para obter mais informações, consulte a documentação do Databricks para tipos de biblioteca.
Passando parâmetros entre a atividade do Azure Databricks e pipelines
Você pode passar parâmetros para blocos de anotações usando a propriedade baseParameters na atividade databricks.
Em certos casos, pode ser necessário repassar certos valores do notebook de volta para o serviço, que podem ser usados para controlar o fluxo (verificações condicionais) no serviço ou ser consumidos por atividades a jusante (o limite de tamanho é de 2 MB).
No seu bloco de anotações, por exemplo, você pode chamar dbutils.notebook.exit("returnValue") e o correspondente "returnValue" será retornado ao serviço.
Você pode consumir a saída no serviço usando expressões como
@{activity('databricks activity name').output.runOutput}
.
Salvar e executar ou agendar o pipeline
Depois de configurar quaisquer outras atividades necessárias para o pipeline, alterne para a guia Página Inicial na parte superior do editor de pipeline e selecione o botão Salvar para salvar o pipeline. Selecione Executar para executá-lo diretamente ou Agendar para agendá-lo. Você também pode visualizar o histórico de execução aqui ou definir outras configurações.