Recomendações para arquivos em volumes e arquivos de workspace
Ao carregar ou salvar dados ou arquivos no Azure Databricks, você pode optar por armazenar esses arquivos usando volumes do Catálogo do Unity ou arquivos de workspace. Este artigo contém recomendações e requisitos para usar esses locais. Para obter mais detalhes sobre volumes e arquivos de workspace, consulte O que são volumes do Catálogo do Unity? e O que são arquivos de workspace?.
O Databricks recomenda usar volumes do Catálogo do Unity para armazenar dados, bibliotecas e artefatos de build. Armazene notebooks, consultas SQL e arquivos de código como arquivos de workspace. Você pode configurar diretórios de arquivos do workspace como pastas Git para sincronizar com repositórios Git remotos. Confira Integração do Git para pastas Git do Databricks. Arquivos de dados pequenos usados para cenários de teste também podem ser armazenados como arquivos de workspace.
As tabelas abaixo fornecem recomendações específicas para arquivos, dependendo do tipo de arquivo ou das necessidades do recurso.
Importante
O DBFS (Sistema de Arquivos do Databricks) também está disponível para armazenamento de arquivos, mas não é recomendado, pois todos os usuários do workspace têm acesso a arquivos no DBFS. Consulte DBFS.
Tipos de arquivo
A tabela a seguir fornece recomendações de armazenamento para tipos de arquivo. O Databricks dá suporte a muitos formatos de arquivo além do que são fornecidos nesta tabela como exemplos.
Tipo de arquivo | Recomendação |
---|---|
Objetos do Databricks, como notebooks e consultas | Armazenar como arquivos de workspace |
Arquivos de dados estruturados, como arquivos Parquet e arquivos ORC | Armazenar em volumes do Catálogo do Unity |
Arquivos de dados semiestruturados, como arquivos de texto (.csv , .txt ) e arquivos JSON (.json ) |
Armazenar em volumes do Catálogo do Unity |
Arquivos de dados não estruturados, como arquivos de imagem (.png , .svg ), arquivos de áudio (.mp3 ) e arquivos de documento (.pdf , .docx ) |
Armazenar em volumes do Catálogo do Unity |
Arquivos de dados brutos usados para exploração de dados iniciais ou de adesivos | Armazenar em volumes do Catálogo do Unity |
Dados operacionais, como arquivos de log | Armazenar em volumes do Catálogo do Unity |
Arquivos de arquivos grandes, como arquivos ZIP (.zip ) |
Armazenar em volumes do Catálogo do Unity |
Arquivos de código-fonte, como arquivos Python (.py ), arquivos Java (.java ) e arquivos Scala (.scala ) |
Armazene como arquivos de workspace, se aplicável, com outros objetos relacionados, como notebooks e consultas. O Databricks recomenda o gerenciamento desses arquivos em uma pasta Git para controle de versão e controle de alterações desses arquivos. |
Compilar artefatos e bibliotecas, como rodas Python (.whl ) e arquivos JAR (.jar ) |
Armazenar em volumes do Catálogo do Unity |
Arquivos de configuração | Armazene os arquivos de configuração necessários em workspaces em volumes do Catálogo do Unity, mas armazene-os como arquivos de workspace se forem arquivos de projeto em uma pasta git. |
Comparação de recursos
A tabela a seguir compara as ofertas de recursos de arquivos de workspace e volumes do Catálogo do Unity.
Recurso | Arquivos de workspace | Volumes do Catálogo do Unity |
---|---|---|
Acesso a arquivos | Os arquivos de workspace só podem ser acessados entre si no mesmo workspace. | Os arquivos são acessíveis globalmente entre workspaces. |
Acesso de programação | Os arquivos podem ser acessados usando: - APIs do Spark - FUSE - dbutils - REST API - SDKs do Databricks - CLI do Databricks |
Os arquivos podem ser acessados usando: - APIs do Spark - FUSE - dbutils - REST API - SDKs do Databricks - Conectores SQL do Databricks - CLI do Databricks - Provedor Terraform do Databricks |
Pacotes de Ativos do Databricks | Por padrão, todos os arquivos em um pacote, que inclui bibliotecas e objetos do Databricks como notebooks e consultas, são implantados com segurança como arquivos do workspace. As permissões são definidas na configuração do pacote. | Os pacotes podem ser personalizados para incluir bibliotecas que já estejam em volumes quando as bibliotecas excederem o limite de tamanho dos arquivos do workspace. Confira Dependências da biblioteca de Pacotes de Ativos do Databricks. |
Nível de permissão de arquivo | As permissões estarão no nível da pasta Git se o arquivo estiver em uma pasta Git, caso contrário, as permissões serão definidas no nível do arquivo. | As permissões estão no nível do volume. |
Gerenciamento de permissões | As permissões são gerenciadas pelo workspace ACLs e são limitadas ao workspace que contém. | Metadados e permissões são gerenciados pelo Catálogo do Unity. Essas permissões são aplicáveis em todos os workspaces que têm acesso ao catálogo. |
Montagem de armazenamento externo | Não dá suporte à montagem de armazenamento externo | Fornece a opção de apontar para conjuntos de dados pré-existentes no armazenamento externo criando um volume externo. Confira O que são os volumes do Catálogo do Unity?. |
Suporte à UDF | Sem suporte | Há suporte para gravação de UDFs usando o FUSE de Volumes |
Tamanho do arquivo | Armazene arquivos menores com menos de 500 MB, como arquivos de código-fonte (.py , .md , .yml ) necessários junto com notebooks. |
Armazene arquivos de dados muito grandes em limites determinados pelos provedores de serviços de nuvem. |
Carregar e baixar | Suporte para upload e download de até 10 MB. | Suporte para upload e download de até 5 GB. |
Suporte à criação de tabela | As tabelas não podem ser criadas com arquivos de workspace como o local. | As tabelas podem ser criadas a partir de arquivos em um volume executando COPY INTO , carregador automático ou outras opções descritas em Ingerir dados em um databricks lakehouse. |
Estrutura de diretório e caminhos de arquivo | Os arquivos são organizados em diretórios aninhados, cada um com seu próprio modelo de permissão: - Diretórios domésticos do usuário, um para cada usuário e entidade de serviço no workspace - Pastas do Git - Compartilhado |
Os arquivos são organizados em diretórios aninhados dentro de um volume Veja Como você pode acessar dados no Catálogo do Unity?. |
Histórico de arquivos | Use a pasta do Git nos workspaces para controlar as alterações de arquivo. | Os logs de auditoria estão disponíveis. |