Partilhar via


Criar e gerenciar definições de trabalho do Apache Spark no Visual Studio Code

A extensão de código do Visual Studio (VS) para Synapse suporta totalmente as operações de definição de trabalho CURD (criar, atualizar, ler e excluir) do Spark na malha. Depois de criar uma definição de trabalho do Spark, você pode carregar mais bibliotecas referenciadas, enviar uma solicitação para executar a definição de trabalho do Spark e verificar o histórico de execução.

Criar uma definição de trabalho do Spark

Para criar uma nova definição de trabalho do Spark:

  1. No VS Code Explorer, selecione a opção Create Spark Job Definition (Criar definição de trabalho do Spark).

    Captura de tela do VS Code Explorer, mostrando onde selecionar a opção Create Spark Job Definition (Criar definição de trabalho do Spark).

  2. Insira os campos iniciais obrigatórios: nome, lakehouse referenciado e lakehouse padrão.

  3. Os processos de solicitação e o nome da definição de trabalho do Spark recém-criada aparecem sob o nó raiz Definição de trabalho do Spark no VS Code Explorer. No nó Nome da definição de trabalho do Spark, você vê três subnós:

    • Ficheiros: Lista do ficheiro de definição principal e outras bibliotecas referenciadas. Pode carregar novos ficheiros a partir desta lista.
    • Lakehouse: Lista de todas as lakehouses referenciadas por esta definição de trabalho do Spark. A casa do lago padrão está marcada na lista, e você pode acessá-la através do caminho Files/…, Tables/…relativo.
    • Executar: Lista do histórico de execução desta definição de trabalho do Spark e o status do trabalho de cada execução.

Carregar um arquivo de definição principal para uma biblioteca referenciada

Para carregar ou substituir o arquivo de definição principal, selecione a opção Adicionar arquivo principal.

Captura de tela do VS Code Explorer, mostrando onde selecionar a opção Adicionar arquivo principal.

Para carregar o arquivo de biblioteca ao qual o arquivo de definição principal faz referência, selecione a opção Adicionar arquivo Lib.

Captura de ecrã a mostrar o botão carregar biblioteca.

Depois de carregar um ficheiro, pode substituí-lo clicando na opção Atualizar ficheiro e carregando um novo ficheiro, ou pode eliminar o ficheiro através da opção Eliminar .

Captura de ecrã do VS Code Explorer, mostrando onde encontrar as opções Atualizar ficheiro e Eliminar.

Enviar uma solicitação de execução

Para enviar uma solicitação para executar a definição de tarefa do Spark a partir do VS Code:

  1. Nas opções à direita do nome da definição de trabalho do Spark que você deseja executar, selecione a opção Executar trabalho do Spark.

    Captura de tela do VS Code Explorer, mostrando onde selecionar Executar trabalho do Spark.

  2. Depois de enviar a solicitação, um novo aplicativo Apache Spark aparece no nó Executa na lista Explorer . Você pode cancelar o trabalho em execução selecionando a opção Cancelar trabalho do Spark.

    Captura de tela do VS Code Explorer com o novo aplicativo Spark listado no nó Executa e mostrando onde encontrar a opção Cancelar trabalho do Spark.

Abrir uma definição de trabalho do Spark no portal do Fabric

Você pode abrir a página de criação de definição de trabalho do Spark no portal do Fabric selecionando a opção Abrir no navegador .

Você também pode selecionar Abrir no navegador ao lado de uma execução concluída para ver a página do monitor de detalhes dessa execução.

Captura de tela do VS Code Explorer, mostrando onde selecionar a opção Abrir no navegador.

Depurar código-fonte de definição de trabalho do Spark (Python)

Se a definição de trabalho do Spark for criada com o PySpark (Python), você poderá baixar o script .py do arquivo de definição principal e do arquivo referenciado e depurar o script de origem no VS Code.

  1. Para baixar o código-fonte, selecione a opção Debug Spark Job Definition à direita da definição de trabalho do Spark.

    Captura de tela mostrando o botão de origem do download.

  2. Após a conclusão do download, a pasta do código-fonte é aberta automaticamente.

  3. Selecione a opção Confiar nos autores quando solicitado. (Esta opção só aparece na primeira vez que abre a pasta. Se você não selecionar essa opção, não poderá depurar ou executar o script de origem. Para obter mais informações, consulte Segurança de confiança do Visual Studio Code Workspace.)

  4. Se você tiver baixado o código-fonte antes, será solicitado que você confirme que deseja substituir a versão local pelo novo download.

    Nota

    Na pasta raiz do script de origem, o sistema cria uma subpasta chamada conf. Dentro dessa pasta, um arquivo chamado lighter-config.json contém alguns metadados do sistema necessários para a execução remota. NÃO faça nenhuma alteração nele.

  5. O arquivo chamado sparkconf.py contém um trecho de código que você precisa adicionar para configurar o objeto SparkConf . Para habilitar a depuração remota, verifique se o objeto SparkConf está configurado corretamente. A imagem a seguir mostra a versão original do código-fonte.

    Captura de tela de um exemplo de código, mostrando o código-fonte antes da alteração.

    A próxima imagem é o código-fonte atualizado depois de copiar e colar o trecho.

    Captura de tela de um exemplo de código, mostrando o código-fonte após a alteração.

  6. Depois de atualizar o código-fonte com o conf necessário, você deve escolher o Interpretador Python certo. Certifique-se de selecionar o instalado a partir do ambiente synapse-spark-kernel conda.

Editar propriedades de definição de trabalho do Spark

Você pode editar as propriedades detalhadas das definições de trabalho do Spark, como argumentos de linha de comando.

  1. Selecione a opção Atualizar configuração SJD para abrir um arquivo settings.yml . As propriedades existentes preenchem o conteúdo desse arquivo.

    Captura de tela mostrando onde selecionar a opção Atualizar configuração do SJD para uma definição de trabalho do Spark.

  2. Atualize e salve o arquivo .yml.

  3. Selecione a opção Publicar propriedade SJD no canto superior direito para sincronizar a alteração de volta ao espaço de trabalho remoto.

    Captura de tela mostrando onde selecionar a opção Publicar propriedade SJD para uma definição de trabalho do Spark.