Volumes gerenciados versus volumes externos
Este artigo discute as diferenças entre volumes gerenciados e volumes externos e os motivos pelos quais você pode optar por usar volumes externos. A Databricks recomenda volumes gerenciados como a solução mais simples para armazenar e gerenciar o acesso a dados não tabulares.
Para obter mais orientações sobre como usar o Unity Catalog para configurar o acesso ao armazenamento de objetos na nuvem, consulte Conectar-se ao armazenamento e serviços de objetos na nuvem usando o Unity Catalog.
Diferenças de comportamento entre volumes gerenciados e externos
Os volumes gerenciados e externos fornecem experiências quase idênticas ao usar ferramentas, interfaces do usuário e APIs do Azure Databricks. A seguir estão as diferenças entre esses tipos de volume.
Os volumes gerenciados fornecem uma experiência de armazenamento totalmente gerenciada. Significado:
- Todas as interações com arquivos em volumes gerenciados devem passar pelo Unity Catalog.
- A nomenclatura de diretórios e o layout de dados são gerenciados pelo Unity Catalog. Os nomes de diretório incluem hashes para evitar conflitos nas contas de armazenamento de objetos na nuvem subjacentes.
- Quando você descarta um volume gerenciado, o Azure Databricks exclui os dados subjacentes dentro de 30 dias.
Os volumes externos trazem a governança de dados para o armazenamento de objetos na nuvem. Significado:
- Você pode usar URIs de nuvem no Azure Databricks ou sistemas externos para interagir com arquivos em volumes externos.
- Todos os diretórios criados dentro de um volume externo ou arquivos carregados são relativos ao
LOCATION
especificado na criação. - Ao soltar um volume externo, você remove o volume do Catálogo Unity, mas os dados subjacentes permanecem inalterados no local externo.
Porquê utilizar volumes externos?
Os volumes externos permitem adicionar governança de dados do Unity Catalog aos diretórios de armazenamento de objetos na nuvem existentes. Alguns casos de uso para volumes externos incluem o seguinte:
- Adicionando governança a arquivos de dados sem migração.
- Governando arquivos produzidos por outros sistemas que devem ser ingeridos ou acessados pelo Azure Databricks.
- Governando dados produzidos pelo Azure Databricks que devem ser acessados diretamente do armazenamento de objetos na nuvem por outros sistemas.
O Databricks recomenda o uso de volumes externos para armazenar arquivos de dados não tabulares lidos ou gravados por sistemas externos, além do Azure Databricks. O Unity Catalog não controla leituras e gravações executadas diretamente no armazenamento de objetos na nuvem de sistemas externos, portanto, você deve configurar políticas e credenciais adicionais em sua conta de nuvem para garantir que as políticas de governança de dados sejam respeitadas fora do Azure Databricks.