Criar e gerenciar definições de trabalho do Apache Spark no Visual Studio Code

Artigo
11/11/2024

A extensão de código do Visual Studio (VS) para Synapse suporta totalmente as operações de definição de trabalho CURD (criar, atualizar, ler e excluir) do Spark na malha. Depois de criar uma definição de trabalho do Spark, você pode carregar mais bibliotecas referenciadas, enviar uma solicitação para executar a definição de trabalho do Spark e verificar o histórico de execução.

Criar uma definição de trabalho do Spark

Para criar uma nova definição de trabalho do Spark:

No VS Code Explorer, selecione a opção Create Spark Job Definition (Criar definição de trabalho do Spark).
Insira os campos iniciais obrigatórios: nome, lakehouse referenciado e lakehouse padrão.
Os processos de solicitação e o nome da definição de trabalho do Spark recém-criada aparecem sob o nó raiz Definição de trabalho do Spark no VS Code Explorer. No nó Nome da definição de trabalho do Spark, você vê três subnós:
- Ficheiros: Lista do ficheiro de definição principal e outras bibliotecas referenciadas. Pode carregar novos ficheiros a partir desta lista.
- Lakehouse: Lista de todas as lakehouses referenciadas por esta definição de trabalho do Spark. A casa do lago padrão está marcada na lista, e você pode acessá-la através do caminho Files/…, Tables/…relativo.
- Executar: Lista do histórico de execução desta definição de trabalho do Spark e o status do trabalho de cada execução.

Carregar um arquivo de definição principal para uma biblioteca referenciada

Para carregar ou substituir o arquivo de definição principal, selecione a opção Adicionar arquivo principal.

Captura de tela do VS Code Explorer, mostrando onde selecionar a opção Adicionar arquivo principal.

Para carregar o arquivo de biblioteca ao qual o arquivo de definição principal faz referência, selecione a opção Adicionar arquivo Lib.

Captura de ecrã a mostrar o botão carregar biblioteca.

Depois de carregar um ficheiro, pode substituí-lo clicando na opção Atualizar ficheiro e carregando um novo ficheiro, ou pode eliminar o ficheiro através da opção Eliminar .

Captura de ecrã do VS Code Explorer, mostrando onde encontrar as opções Atualizar ficheiro e Eliminar.

Enviar uma solicitação de execução

Para enviar uma solicitação para executar a definição de tarefa do Spark a partir do VS Code:

Nas opções à direita do nome da definição de trabalho do Spark que você deseja executar, selecione a opção Executar trabalho do Spark.
Depois de enviar a solicitação, um novo aplicativo Apache Spark aparece no nó Executa na lista Explorer . Você pode cancelar o trabalho em execução selecionando a opção Cancelar trabalho do Spark.

Abrir uma definição de trabalho do Spark no portal do Fabric

Você pode abrir a página de criação de definição de trabalho do Spark no portal do Fabric selecionando a opção Abrir no navegador .

Você também pode selecionar Abrir no navegador ao lado de uma execução concluída para ver a página do monitor de detalhes dessa execução.

Captura de tela do VS Code Explorer, mostrando onde selecionar a opção Abrir no navegador.

Depurar código-fonte de definição de trabalho do Spark (Python)

Se a definição de trabalho do Spark for criada com o PySpark (Python), você poderá baixar o script .py do arquivo de definição principal e do arquivo referenciado e depurar o script de origem no VS Code.

Para baixar o código-fonte, selecione a opção Debug Spark Job Definition à direita da definição de trabalho do Spark.
Após a conclusão do download, a pasta do código-fonte é aberta automaticamente.
Selecione a opção Confiar nos autores quando solicitado. (Esta opção só aparece na primeira vez que abre a pasta. Se você não selecionar essa opção, não poderá depurar ou executar o script de origem. Para obter mais informações, consulte Segurança de confiança do Visual Studio Code Workspace.)
Se você tiver baixado o código-fonte antes, será solicitado que você confirme que deseja substituir a versão local pelo novo download.

Nota

Na pasta raiz do script de origem, o sistema cria uma subpasta chamada conf. Dentro dessa pasta, um arquivo chamado lighter-config.json contém alguns metadados do sistema necessários para a execução remota. NÃO faça nenhuma alteração nele.
O arquivo chamado sparkconf.py contém um trecho de código que você precisa adicionar para configurar o objeto SparkConf . Para habilitar a depuração remota, verifique se o objeto SparkConf está configurado corretamente. A imagem a seguir mostra a versão original do código-fonte.

A próxima imagem é o código-fonte atualizado depois de copiar e colar o trecho.
Depois de atualizar o código-fonte com o conf necessário, você deve escolher o Interpretador Python certo. Certifique-se de selecionar o instalado a partir do ambiente synapse-spark-kernel conda.

Editar propriedades de definição de trabalho do Spark

Você pode editar as propriedades detalhadas das definições de trabalho do Spark, como argumentos de linha de comando.

Selecione a opção Atualizar configuração SJD para abrir um arquivo settings.yml . As propriedades existentes preenchem o conteúdo desse arquivo.
Atualize e salve o arquivo .yml.
Selecione a opção Publicar propriedade SJD no canto superior direito para sincronizar a alteração de volta ao espaço de trabalho remoto.

Partilhar via

Criar e gerenciar definições de trabalho do Apache Spark no Visual Studio Code

Criar uma definição de trabalho do Spark

Carregar um arquivo de definição principal para uma biblioteca referenciada

Enviar uma solicitação de execução

Abrir uma definição de trabalho do Spark no portal do Fabric

Depurar código-fonte de definição de trabalho do Spark (Python)

Editar propriedades de definição de trabalho do Spark

Comentários

Recursos adicionais

Partilhar via

Criar e gerenciar definições de trabalho do Apache Spark no Visual Studio Code

Criar uma definição de trabalho do Spark

Carregar um arquivo de definição principal para uma biblioteca referenciada

Enviar uma solicitação de execução

Abrir uma definição de trabalho do Spark no portal do Fabric

Depurar código-fonte de definição de trabalho do Spark (Python)

Editar propriedades de definição de trabalho do Spark

Conteúdos relacionados

Comentários

Recursos adicionais