CLI do DBFS (herdada)
Importante
Esta documentação foi desativada e pode não estar atualizada.
Essas informações se aplicam às versões herdadas da CLI do Databricks 0.18 e anteriores. O Databricks recomenda que você use a versão 0.205 da CLI do Databricks mais recente ou superior. Consulte O que é a CLI do Databricks?. Para localizar sua versão da CLI do Databricks, execute databricks -v
.
Para migrar da CLI do Databricks versão 0.18 ou inferior para a CLI do Databricks versão 0.205 ou superior, consulte migração da CLI do Databricks.
Execute os subcomandos da CLI do DBFS no Databricks anexando-os a databricks fs
(ou ao alias dbfs
) e prefixando todos os caminhos do DBFS com dbfs:/
. Esses subcomandos chamam a API do DBFS.
databricks fs -h
Usage: databricks fs [OPTIONS] COMMAND [ARGS]...
Utility to interact with DBFS. DBFS paths are all prefixed
with dbfs:/. Local paths can be absolute or local.
Options:
-v, --version
-h, --help Show this message and exit.
Commands:
cat Shows the contents of a file. Does not work for directories.
configure
cp Copies files to and from DBFS.
Options:
-r, --recursive
--overwrite Overwrites files that exist already.
ls Lists files in DBFS.
Options:
--absolute Displays absolute paths.
-l Displays full information including size and file type.
mkdirs Makes directories in DBFS.
mv Moves a file between two DBFS paths.
rm Removes files from DBFS.
Options:
-r, --recursive
Para operações que listam, movem ou excluem mais de dez mil arquivos, é altamente recomendável usar a CLI do DBFS.
- A operação
list
(databricks fs ls
) atingirá o tempo limite após aproximadamente 60s. - A operação
move
(databricks fs mv
) atingirá o tempo limite após aproximadamente 60s, potencialmente resultando em dados parcialmente movidos. - A operação
delete
(databricks fs rm
) excluirá os lotes de arquivos de maneira incremental.
Recomendamos que você execute essas operações no contexto de um cluster usando o Utilitário do sistema de arquivos (dbutils.fs). dbutils.fs
aborda o escopo funcional da API REST do DBFS, mas em notebooks. A execução dessas operações em notebooks fornece um melhor controle, como exclusões seletivas, capacidade de gerenciamento e a possibilidade de automatizar trabalhos periódicos.
Limitações
Não há suporte para o uso da CLI do DBFS no Databricks com contêineres de armazenamento habilitados para firewall. O Databricks recomenda que você use o Databricks Connect ou o az storage.
Listar o conteúdo de um arquivo
Para ver a documentação de uso, execute databricks fs cat --help
.
databricks fs cat dbfs:/tmp/my-file.txt
Apache Spark is awesome!
Copia um arquivo
Para ver a documentação de uso, execute databricks fs cp --help
.
databricks fs cp dbfs:/tmp/your_file.txt dbfs:/parent/child/grandchild/my_file.txt --overwrite
Em caso de êxito, esse comando não exibirá nenhuma mensagem.
Listar informações sobre arquivos e diretórios
Para ver a documentação de uso, execute databricks fs ls --help
.
databricks fs ls dbfs:/tmp --absolute -l
file 42408084 dbfs:/tmp/LoanStats.csv 1590005159000
file 40 dbfs:/tmp/file_b.txt 1603991038000
dir 0 dbfs:/tmp/hive 0
dir 0 dbfs:/tmp/mlflow 0
file 385 dbfs:/tmp/multi-line.json 1597770632000
dir 0 dbfs:/tmp/new 0
dir 0 dbfs:/tmp/parent 0
file 243 dbfs:/tmp/test.json 1597770628000
file 40 dbfs:/tmp/test_dbfs.txt 1603989162000
Criar um diretório
Para ver a documentação de uso, execute databricks fs mkdirs --help
.
databricks fs mkdirs dbfs:/tmp/new-dir
Em caso de êxito, esse comando não exibirá nenhuma mensagem.
Mover um arquivo
Para ver a documentação de uso, execute databricks fs mv --help
.
databricks fs mv dbfs:/tmp/my-file.txt dbfs:/parent/child/grandchild/my-file.txt
Em caso de êxito, esse comando não exibirá nenhuma mensagem.
Excluir um arquivo
Para exibir a documentação de uso, execute databricks fs rm --help
.
databricks fs rm dbfs:/tmp/parent/child/grandchild/my-file.txt
Delete finished successfully.