Volumi gestiti e esterni
Questo articolo illustra le differenze tra volumi gestiti e volumi esterni e i motivi per cui è possibile scegliere di usare volumi esterni. Databricks consiglia volumi gestiti come soluzione più semplice per l'archiviazione e la gestione dell'accesso a dati non tabulari.
Per altre indicazioni sull'uso di Unity Catalog per configurare l'accesso all'archiviazione di oggetti cloud, vedere Connettersi all'archiviazione di oggetti cloud e ai servizi tramite Il catalogo unity.
Differenze di comportamento tra volumi gestiti ed esterni
I volumi gestiti ed esterni offrono esperienze quasi identiche quando si usano strumenti, interfacce utente e API di Azure Databricks. Di seguito sono riportate le differenze tra questi tipi di volume.
I volumi gestiti offrono un'esperienza di archiviazione completamente gestita. Ciò comporta quanto segue:
- Tutte le interazioni con i file nei volumi gestiti devono passare attraverso il catalogo unity.
- La denominazione della directory e il layout dei dati sono gestiti da Unity Catalog. I nomi di directory includono hash per evitare conflitti negli account di archiviazione degli oggetti cloud sottostanti.
- Quando si elimina un volume gestito, Azure Databricks elimina i dati sottostanti entro 30 giorni.
I volumi esterni portano la governance dei dati all'archiviazione di oggetti cloud. Ciò comporta quanto segue:
- È possibile usare gli URI cloud in Azure Databricks o sistemi esterni per interagire con i file in volumi esterni.
- Tutte le directory create all'interno di un volume esterno o i file caricati sono relativi all'oggetto specificato al momento della
LOCATION
creazione. - Quando si elimina un volume esterno, si rimuove il volume da Unity Catalog, ma i dati sottostanti rimangono invariati nella posizione esterna.
Perché usare volumi esterni?
I volumi esterni consentono di aggiungere la governance dei dati di Unity Catalog alle directory di archiviazione degli oggetti cloud esistenti. Alcuni casi d'uso per i volumi esterni includono quanto segue:
- Aggiunta della governance ai file di dati senza migrazione.
- Governance dei file prodotti da altri sistemi a cui è necessario inserire o accedere da Azure Databricks.
- Governance dei dati prodotti da Azure Databricks a cui è necessario accedere direttamente dall'archiviazione di oggetti cloud da altri sistemi.
Databricks consiglia di usare volumi esterni per archiviare file di dati non tabulari letti o scritti da sistemi esterni oltre ad Azure Databricks. Unity Catalog non regola le letture e le scritture eseguite direttamente nell'archiviazione di oggetti cloud da sistemi esterni, pertanto è necessario configurare criteri e credenziali aggiuntivi nell'account cloud per garantire che i criteri di governance dei dati vengano rispettati all'esterno di Azure Databricks.