Interagir programaticamente com arquivos de espaço de trabalho
Você pode interagir com arquivos de espaço de trabalho armazenados no Azure Databricks programaticamente. Isso permite tarefas como:
- Armazenamento de pequenos arquivos de dados ao lado de blocos de anotações e código.
- Gravando arquivos de log em diretórios sincronizados com o Git.
- Importação de módulos usando caminhos relativos.
- Criação ou modificação de um arquivo de especificação de ambiente.
- Saída de escrita a partir de blocos de notas.
- Saída de escrita da execução de bibliotecas como Tensorboard.
Você pode criar, editar e excluir arquivos de espaço de trabalho de forma programática no Databricks Runtime 11.3 LTS e superior.
Nota
Para desativar a gravação em arquivos de espaço de trabalho, defina a variável WSFS_ENABLE_WRITE_SUPPORT=false
de ambiente de cluster . Para obter mais informações, consulte Variáveis de ambiente.
Nota
No Databricks Runtime 14.0 e superior, o diretório de trabalho atual padrão (CWD) para código executado localmente é o diretório que contém o bloco de anotações ou script que está sendo executado. Esta é uma mudança no comportamento do Databricks Runtime 13.3 LTS e inferior. Consulte Qual é o diretório de trabalho atual padrão?.
Ler as localizações dos ficheiros
Use comandos shell para ler os locais dos arquivos, por exemplo, em um repositório ou no sistema de arquivos local.
Para determinar a localização dos ficheiros, introduza o seguinte:
%sh ls
- Os arquivos não estão em um repositório: o comando retorna o sistema
/databricks/driver
de arquivos . - Os arquivos estão em um repositório: o comando retorna um repositório virtualizado, como
/Workspace/Repos/name@domain.com/public_repo_2/repos_file_system
.
Ler arquivos de espaço de trabalho de dados
Você pode ler programaticamente pequenos arquivos de dados, como .csv
ou .json
arquivos de código em seus blocos de anotações. O exemplo a seguir usa Pandas para consultar arquivos armazenados em um /data
diretório relativo à raiz do repositório do projeto:
import pandas as pd
df = pd.read_csv("./data/winequality-red.csv")
df
Você pode usar o Spark para ler arquivos de dados. Você deve fornecer à Spark o caminho totalmente qualificado.
- Os arquivos de espaço de trabalho nas pastas do Git usam o caminho
file:/Workspace/Repos/<user-folder>/<repo-name>/path/to/file
. - Os arquivos de espaço de trabalho em seu diretório pessoal usam o caminho:
file:/Workspace/Users/<user-folder>/path/to/file
.
Você pode copiar o caminho absoluto ou relativo para um arquivo no menu suspenso ao lado do arquivo:
O exemplo abaixo mostra o uso de {os.getcwd()}
para obter o caminho completo.
import os
spark.read.format("csv").load(f"file:{os.getcwd()}/my_data.csv")
Para saber mais sobre arquivos no Azure Databricks, consulte Trabalhar com arquivos no Azure Databricks.
Criar, atualizar e excluir arquivos e diretórios programaticamente
No Databricks Runtime 11.3 LTS e superior, você pode manipular diretamente os arquivos do espaço de trabalho no Azure Databricks. Os exemplos a seguir usam pacotes e funcionalidades padrão do Python para criar e manipular arquivos e diretórios.
# Create a new directory
os.mkdir('dir1')
# Create a new file and write to it
with open('dir1/new_file.txt', "w") as f:
f.write("new content")
# Append to a file
with open('dir1/new_file.txt', "a") as f:
f.write(" continued")
# Delete a file
os.remove('dir1/new_file.txt')
# Delete a directory
os.rmdir('dir1')