Usar as Ferramentas do Azure Data Lake para Visual Studio Code
Importante
Novas contas do Data Lake Analytics do Azure não podem mais ser criadas, a menos que sua assinatura tenha sido habilitada. Se você precisar que a sua assinatura seja habilitada, entre em contato com o suporte e forneça o seu cenário de negócios.
Se já estiver usando o Azure Data Lake Analytics, você precisará criar um plano de migração para o Azure Synapse Analytics na organização até 29 de fevereiro de 2024.
Neste artigo, saiba como usar as Ferramentas do Azure Data Lake para Visual Studio Code (VS Code) para criar, testar e executar scripts U-SQL. As informações também são abordadas no vídeo a seguir:
Pré-requisitos
As ferramentas do Azure Data Lake para VS Code dão suporte para Windows, Linux e macOS. A execução local do U-SQL e a depuração local funcionam somente no Windows.
Para macOS e Linux:
Instalar Ferramentas do Azure Data Lake
Após a instalação dos pré-requisitos, você pode instalar as Ferramentas do Azure Data Lake para VS Code.
Para instalar Ferramentas do Azure Data Lake
Abra o Visual Studio Code.
Selecione Extensões, no painel esquerdo. Digite Ferramentas do Azure Data Lake na caixa de pesquisa.
Selecione Instalar ao lado de Ferramentas do Azure Data Lake.
Depois de alguns segundos, o botão Instalar será alterado para Recarregar.
Selecione Recarregar para ativar a extensão Ferramentas do Azure Data Lake.
Clique em Recarregar Janela para confirmar. É possível ver as Ferramentas do Azure Data Lake no painel Extensões.
Ativar Ferramentas do Azure Data Lake
Crie um arquivo .usql ou abra um existente para ativar a extensão.
Trabalhar com o U-SQL
Você precisa abrir um arquivo U-SQL ou uma pasta para trabalhar com o U-SQL.
Para abrir o script de exemplo
Abra a paleta de comandos (Ctrl + Shift + P) e insira ADL: Abrir Script de Exemplo. Isso abre outra instância deste exemplo. Você também pode editar, configurar e enviar um script nessa instância.
Para abrir uma pasta para o projeto U-SQL
No Visual Studio Code, selecione o menu Arquivo e, em seguida, selecione Abrir Pasta.
Especifique uma pasta e selecione Selecionar Pasta.
Selecione o menu Arquivo e selecione Novo. Um arquivo Sem título-1 é adicionado ao projeto.
Insira o código a seguir no arquivo Sem título-1:
@departments = SELECT * FROM (VALUES (31, "Sales"), (33, "Engineering"), (34, "Clerical"), (35, "Marketing") ) AS D( DepID, DepName );
OUTPUT @departments TO "/Output/departments.csv" USING Outputters.Csv();
O script cria um arquivo departments.csv com alguns dados incluídos na pasta /output.
Salve o arquivo como myUSQL.usql na pasta aberta.
Para compilar um script U-SQL
- Selecione Ctrl + Shift + P para abrir a paleta de comandos.
- Insira ADL: Compilar Script. Os resultados da compilação aparecem na janela Saída. Também é possível clicar com o botão direito do mouse em um arquivo de script e, depois, selecionar ADL: Compilar Script para compilar um trabalho em U-SQL. O resultado da compilação aparece no painel Saída.
Para enviar um script U-SQL
- Selecione Ctrl + Shift + P para abrir a paleta de comandos.
- Insira ADL: Enviar Trabalho. Também é possível clicar com o botão direito do mouse em um arquivo de script e, depois, selecionar ADL: Enviar Trabalho.
Depois de enviar um trabalho em U-SQL, os logs de envio aparecerão na janela Saída no VS Code. O modo de exibição de trabalho é exibido no painel direito. Se o envio for bem-sucedido, a URL do trabalho também será exibida. Você pode abrir a URL do trabalho em um navegador da Web para acompanhar o status do trabalho em tempo real.
Na guia RESUMO da exibição do trabalho, é possível ver os detalhes do trabalho. As principais funções incluem reenviar um script, duplicar um script e abrir no portal. Na guia DADOS da exibição do trabalho, é possível consultar os arquivos de entrada, arquivos de saída e arquivos de recursos. Os arquivos podem ser baixados para o computador local.
Para definir o contexto padrão
É possível definir o contexto padrão para aplicar essa configuração a todos os arquivos de script caso não tenha definido parâmetros para arquivos individualmente.
Selecione Ctrl + Shift + P para abrir a paleta de comandos.
Insira ADL: Definir contexto padrão. Ou clique com o botão direito do mouse no editor de scripts e selecione ADL: Definir contexto padrão.
Escolha a conta, o banco de dados e o esquema que você deseja. A configuração é salva no arquivo de configuração xxx_settings.json.
Para definir parâmetros de script
Selecione Ctrl + Shift + P para abrir a paleta de comandos.
Insira ADL: Definir parâmetros de script.
O arquivo xxx_settings.json é aberto com as propriedades a seguir:
- conta: uma conta do Azure Data Lake Analytics na sua assinatura do Azure que é necessária para compilar e executar trabalhos de U-SQL. É necessário configurar a conta de computador antes de compilar e executar trabalhos do U-SQL.
- banco de dados: um banco de dados em sua conta. O padrão é mestre.
- esquema: um esquema em seu banco de dados. O padrão é dbo.
-
optionalSettings:
- prioridade: o intervalo de prioridade é de 1 a 1000, sendo que 1 é a prioridade mais alta. O valor padrão é 1000.
- degreeOfParallelism: o intervalo de paralelismo é de 1 a 150. O valor padrão é o paralelismo máximo permitido em sua conta do Azure Data Lake Analytics.
Observação
Depois que a configuração é salva, a conta, o banco de dados e as informações de esquema são exibidas na barra de status no canto inferior esquerdo do arquivo .usql correspondente se você não tiver configurado o contexto padrão.
Para configurar Git Ignore
Selecione Ctrl + Shift + P para abrir a paleta de comandos.
Insira ADL: Set Git Ignore.
- Se você não tiver um arquivo .gitignore na pasta de trabalho do VS Code, um arquivo chamado .gitignore será criado na pasta. Quatro itens (usqlCodeBehindReference, usqlCodeBehindGenerated, .cache, obj) são adicionados no arquivo por padrão. É possível fazer mais atualizações se for preciso.
- Se você já tiver um arquivo .gitIgnore na pasta de trabalho do VS Code, a ferramenta adicionará quatro itens (usqlCodeBehindReference, usqlCodeBehindGenerated, .cache, obj) em seu arquivo .gitIgnore caso os quatro itens não tenham sido incluídos no arquivo.
Trabalhar com arquivos code-behind: C Sharp, Python e R
As ferramentas do Azure Data Lake oferecem suporte a vários códigos personalizados. Para obter instruções, consulte Desenvolver U-SQL com Python, R e C Sharp para Azure Data Lake Analytics no VS Code.
Trabalhar com assemblies
Para obter informações sobre como desenvolver assemblies, confira Develop U-SQL assemblies for Azure Data Lake Analytics jobs (Desenvolver assemblies U-SQL para trabalhos do Azure Data Lake Analytics).
Use as Ferramentas do Data Lake para registrar assemblies de código personalizado no catálogo do Data Lake Analytics.
Para registrar um assembly
É possível registrar o assembly através do comando ADL: Registrar Assembly ou ADL: Registrar Assembly (Avançado).
Para registrar por meio do comando ADL: Registrar Assembly
- Selecione Ctrl + Shift + P para abrir a paleta de comandos.
- Digite ADL: Registrar Assembly.
- Especifique o caminho do assembly local.
- Selecione uma conta do Data Lake Analytics.
- Selecione um banco de dados.
O portal será aberto em um navegador e exibirá o processo de registro do assembly.
Uma forma mais conveniente de disparar o comando ADL: Registrar Assembly é clicar com o botão direito do mouse no arquivo .dll no Explorador de Arquivos.
Para registrar por meio do comando ADL: Registrar Assembly (Avançado)
Selecione Ctrl + Shift + P para abrir a paleta de comandos.
Insira ADL: Registrar Assembly (Avançado).
Especifique o caminho do assembly local.
O arquivo JSON será exibido. Examine e edite as dependências do assembly e os parâmetros de recursos, se necessário. As instruções serão exibidas na janela Saída. Para prosseguir com o registro do assembly, salve (CTRL+S) o arquivo JSON.
Observação
- As ferramentas do Azure Data Lake detectam automaticamente se a DLL tem dependências do assembly. As dependências são exibidas no arquivo JSON depois de serem detectadas.
- É possível carregar os recursos de DLL (por exemplo, .txt, .png e .csv) como parte do registro do assembly.
Outra maneira para disparar o comando ADL: Registrar Assembly (Avançado) é clicar com o botão direito no arquivo .dll no Explorador de Arquivos.
O código de U-SQL a seguir demonstra como chamar um assembly. No exemplo, o nome do assembly é test.
REFERENCE ASSEMBLY [test];
@a =
EXTRACT
Iid int,
Starts DateTime,
Region string,
Query string,
DwellTime int,
Results string,
ClickedUrls string
FROM @"Sample/SearchLog.txt"
USING Extractors.Tsv();
@d =
SELECT DISTINCT Region
FROM @a;
@d1 =
PROCESS @d
PRODUCE
Region string,
Mkt string
USING new USQLApplication_codebehind.MyProcessor();
OUTPUT @d1
TO @"Sample/SearchLogtest.txt"
USING Outputters.Tsv();
Usar execução local e depuração local do U-SQL para usuários do Windows
A execução local do U-SQL testa seus dados locais e valida o script localmente, antes que seu código seja publicado no Data Lake Analytics. É possível usar o recurso de depuração local para concluir as seguintes tarefas antes que seu código seja enviado ao Data Lake Analytics:
- Depure o code-behind em C#.
- Explore o código.
- Valide o script localmente.
O recurso de depuração local e execução local funciona apenas em ambientes Windows e não tem suporte em sistemas operacionais baseados em Linux e macOS.
Para obter instruções sobre a execução e a depuração local, confira Execução local do U-SQL e depuração local com o Visual Studio Code.
Conectar-se ao Azure
Antes de compilar e executar scripts U-SQL no Data Lake Analytics, você deve se conectar à sua conta do Azure.
Para se conectar ao Azure usando um comando
Selecione Ctrl + Shift + P para abrir a paleta de comandos.
Digite ADL: Logon. As informações de entrada são exibidas no canto inferior direito.
Selecione Copiar e Abrir para abrir a página da Web de logon. Cole o código na caixa e selecione Continuar.
Siga as instruções para entrar na página da Web. Quando você estiver conectado, o nome da conta do Azure será exibido na barra de status no canto inferior esquerdo da janela do VS Code.
Observação
- Ferramentas do Data Lake conectam você automaticamente na próxima vez que você não sair.
- Se sua conta tiver a autenticação por dois fatores habilitada, recomendamos o uso da autenticação por telefone em vez de usar um PIN.
Para sair, insira o comando ADL: Logout.
Para se conectar ao Azure no explorer
Expanda AZURE DATALAKE, selecione Entrar no Azure e depois execute as etapas 3 e 4 de Para se conectar ao Azure usando um comando.
Você não pode sair pelo explorer. Para sair, confira Para se conectar ao Azure usando um comando.
Criar um script de extração
Você pode criar script de extração para arquivos .csv, .tsv, .txt usando o comando ADL: Criar Script EXTRACT ou a partir do explorer do Azure Data Lake.
Para criar um script de extração usando um comando
- Selecione Ctrl+Shift+P para abrir a paleta de comandos e digite ADL: Criar Script EXTRACT.
- Especifique o caminho completo para um arquivo do Armazenamento do Azure e pressione Enter.
- Selecione uma conta.
- Para um arquivo .txt, selecione um delimitador para extrair o arquivo.
O script de extração é gerado com base nas suas entradas. Para um script que não pode detectar as colunas, escolha uma das duas opções. Caso contrário, somente um script será gerado.
Para criar um script de extração a partir do explorer
Outra maneira de criar o script de extração é clicando com o botão direito do mouse no menu (atalho) nos arquivos .csv, .tsv ou .txt no Azure Data Lake Store ou no Armazenamento de blobs do Azure.