Partilhar via


Gerenciado vs. volumes externo

Este artigo discute as diferenças entre volumes gerenciados e volumes externos e os motivos pelos quais você pode optar por usar volumesexternos. A Databricks recomenda o volumes gerenciado como a solução mais simples para armazenar e gerenciar o acesso a dados não tabulares.

Para obter mais orientações sobre como usar o Unity Catalog para configurar o acesso ao armazenamento de objetos na nuvem, consulte Conectar-se ao armazenamento e serviços de objetos na nuvem usando o Unity Catalog.

Diferenças de comportamento entre volumes gerenciados e externos

Os volumes gerenciados e externos fornecem experiências quase idênticas ao usar ferramentas, interfaces do usuário e APIs do Azure Databricks. A seguir estão as diferenças entre esses tipos de volume.

Os volumes gerenciados fornecem uma experiência de armazenamento totalmente gerenciada. Significado:

  • Todas as interações com arquivos no volumes gerenciado devem passar pelo Unity Catalog.
  • A nomenclatura de diretórios e o layout de dados são gerenciados pelo Unity Catalog. Os nomes de diretório incluem hashes para evitar conflitos nas contas de armazenamento de objetos na nuvem subjacentes.
  • Quando você descarta um volume gerenciado, o Azure Databricks exclui os dados subjacentes dentro de 30 dias.

Os volumes externos trazem a governança de dados para o armazenamento de objetos na nuvem. Significado:

  • Você pode usar URIs de nuvem no Azure Databricks ou sistemas externos para interagir com arquivos em volumesexternos.
  • Todos os diretórios criados dentro de um volume externo ou arquivos carregados são relativos ao LOCATION especificado na criação.
  • Ao soltar um volume externo, você remove o volume do Unity Catalog mas os dados subjacentes permanecem inalterados no local externo.

Porquê utilizar volumesexternos?

Os volumes externos permitem adicionar a governança de dados Unity Catalog aos diretórios de armazenamento de objetos na nuvem existentes. Algumas utilizações de volumes externo incluem:

  • Adicionando governança a arquivos de dados sem migração.
  • Governando arquivos produzidos por outros sistemas que devem ser ingeridos ou acessados pelo Azure Databricks.
  • Governando dados produzidos pelo Azure Databricks que devem ser acessados diretamente do armazenamento de objetos na nuvem por outros sistemas.

O Databricks recomenda o uso de volumes externos para armazenar arquivos de dados não tabulares que são lidos ou gravados por sistemas externos, além do Azure Databricks. O Unity Catalog não controla leituras e gravações realizadas diretamente no armazenamento de objetos na nuvem de sistemas externos, portanto, você deve configurar políticas e credentials adicionais em sua conta de nuvem para garantir que as políticas de governança de dados sejam respeitadas fora do Azure Databricks.