Gerenciado vs. volumes externo
Este artigo discute as diferenças entre volumes gerenciados e volumes externos e os motivos pelos quais você pode optar por usar volumesexternos. A Databricks recomenda o volumes gerenciado como a solução mais simples para armazenar e gerenciar o acesso a dados não tabulares.
Para obter mais orientações sobre como usar o Unity Catalog para configurar o acesso ao armazenamento de objetos na nuvem, consulte Conectar-se ao armazenamento e serviços de objetos na nuvem usando o Unity Catalog.
Diferenças de comportamento entre volumes gerenciados e externos
Os volumes gerenciados e externos fornecem experiências quase idênticas ao usar ferramentas, interfaces do usuário e APIs do Azure Databricks. A seguir estão as diferenças entre esses tipos de volume.
Os volumes gerenciados fornecem uma experiência de armazenamento totalmente gerenciada. Significado:
- Todas as interações com arquivos no volumes gerenciado devem passar pelo Unity Catalog.
- A nomenclatura de diretórios e o layout de dados são gerenciados pelo Unity Catalog. Os nomes de diretório incluem hashes para evitar conflitos nas contas de armazenamento de objetos na nuvem subjacentes.
- Quando você descarta um volume gerenciado, o Azure Databricks exclui os dados subjacentes dentro de 30 dias.
Os volumes externos trazem a governança de dados para o armazenamento de objetos na nuvem. Significado:
- Você pode usar URIs de nuvem no Azure Databricks ou sistemas externos para interagir com arquivos em volumesexternos.
- Todos os diretórios criados dentro de um volume externo ou arquivos carregados são relativos ao
LOCATION
especificado na criação. - Ao soltar um volume externo, você remove o volume do Unity Catalog mas os dados subjacentes permanecem inalterados no local externo.
Porquê utilizar volumesexternos?
Os volumes externos permitem adicionar a governança de dados Unity Catalog aos diretórios de armazenamento de objetos na nuvem existentes. Algumas utilizações de volumes externo incluem:
- Adicionando governança a arquivos de dados sem migração.
- Governando arquivos produzidos por outros sistemas que devem ser ingeridos ou acessados pelo Azure Databricks.
- Governando dados produzidos pelo Azure Databricks que devem ser acessados diretamente do armazenamento de objetos na nuvem por outros sistemas.
O Databricks recomenda o uso de volumes externos para armazenar arquivos de dados não tabulares que são lidos ou gravados por sistemas externos, além do Azure Databricks. O Unity Catalog não controla leituras e gravações realizadas diretamente no armazenamento de objetos na nuvem de sistemas externos, portanto, você deve configurar políticas e credentials adicionais em sua conta de nuvem para garantir que as políticas de governança de dados sejam respeitadas fora do Azure Databricks.