Abilitare il supporto firewall per l'account di archiviazione dello spazio di lavoro
Ogni area di lavoro di Azure Databricks ha un account di archiviazione di Azure associato in un gruppo di risorse gestito noto come account di archiviazione dell'area di lavoro. L'account di archiviazione dell'area di lavoro include i dati di sistema dell'area di lavoro (output del processo, impostazioni di sistema e log), la radice DBFS e in alcuni casi un catalogo dell'area di lavoro di Unity Catalog. Questo articolo descrive come limitare l'accesso all'account di archiviazione dell'area di lavoro solo da risorse e reti autorizzate usando un modello arm (Azure Resource Manager).
Che cos'è il supporto del firewall per l'account di archiviazione dell'area di lavoro?
Per impostazione predefinita, l'account di archiviazione di Azure per l'account di archiviazione dell'area di lavoro accetta connessioni autenticate da tutte le reti. È possibile limitare questo accesso abilitando il supporto del firewall per l'account di archiviazione dell'area di lavoro. Ciò garantisce che l'accesso alla rete pubblica non sia consentito e che l'account di archiviazione dell'area di lavoro non sia accessibile da reti non autorizzate. È possibile configurare questa opzione se l'organizzazione dispone di criteri di Azure che assicurano che gli account di archiviazione siano privati.
Quando il supporto del firewall per l'account di archiviazione dell'area di lavoro è abilitato, tutti gli accessi da servizi esterni ad Azure Databricks devono usare endpoint privati approvati con collegamento privato. Azure Databricks crea un connettore di accesso per connettersi all'archiviazione usando un'identità gestita di Azure. L'accesso dall'ambiente di calcolo serverless di Azure Databricks deve usare endpoint di servizio o endpoint privati.
Requisiti
L'area di lavoro deve abilitare l'inserimento della rete virtuale per le connessioni dal piano di calcolo classico.
L'area di lavoro deve abilitare la connettività sicura del cluster (Nessun INDIRIZZO IP pubblico/NPIP) per le connessioni dal piano di calcolo classico.
L'area di lavoro deve essere nel piano Premium.
È necessario disporre di una subnet separata per gli endpoint privati per l'account di archiviazione. Oltre alle due subnet principali per le funzionalità di base di Azure Databricks.
La subnet deve trovarsi nella stessa rete virtuale dell'area di lavoro o in una rete virtuale separata a cui l'area di lavoro può accedere. Usare la dimensione
/28
minima nella notazione CIDR.Se si usa Cloud Fetch con Microsoft Fabric servizio Power BI, è necessario usare sempre un gateway per l'accesso privato all'account di archiviazione dell'area di lavoro o disabilitare Cloud Fetch. Vedere Passaggio 2 (scelta consigliata): Configurare gli endpoint privati per le reti virtuali del client di recupero cloud.
È anche possibile usare il modello di Resource Manager nel passaggio 5: Implementare il modello richiesto ARM per creare una nuova area di lavoro. In tal caso, arrestare tutte le risorse di calcolo nell'area di lavoro prima di seguire i passaggi da 1 a 4.
Passaggio 1: Creare un endpoint privato per l'account di archiviazione.
Creare due endpoint privati per l'account di archiviazione dell'area di lavoro dalla rete virtuale usata per l'inserimento della rete virtuale per i valori delle sotto-risorse di destinazione : dfs
e blob
.
Passare all'area di lavoro nel portale di Azure.
In Informazioni di base fare clic sul nome del gruppo di risorse gestite.
In Risorse fare clic sulla risorsa di tipo Account di archiviazione con un nome che inizia con
dbstorage
.Nella barra laterale fare clic su Rete.
Cliccare su Connessioni endpoint privato.
Fare clic su + Endpoint privato.
Immettere il nome del gruppo di risorse nel campo Gruppo di risorse.
Importante
Il gruppo di risorse non deve corrispondere al gruppo di risorse gestite in cui si trova l'account di archiviazione dell'area di lavoro.
Nel Nome del campo, scrivere un nome univoco per questo endopoint privato:
- Per il primo endpoint privato creato per ogni rete di origine, creare un endpoint DFS. Databricks consiglia di aggiungere il suffisso
-dfs-pe
- Per il secondo endpoint privato creato per ogni rete di origine, creare un endpoint BLOB. Databricks consiglia di aggiungere il suffisso
-blob-pe
Il campo Nome interfaccia di rete viene popolato automaticamente.
- Per il primo endpoint privato creato per ogni rete di origine, creare un endpoint DFS. Databricks consiglia di aggiungere il suffisso
Impostare il campo Area sull'area dell'area di lavoro.
Fare clic su Avanti.
In Sotto-risorsa di destinazione fare clic sul tipo di risorsa di destinazione.
- Per il primo endpoint privato creato per ogni rete di origine, impostare questa opzione su dfs.
- Per il secondo endpoint privato creato per ogni rete di origine, impostare questo valore su BLOB.
Nel campo Rete virtuale, selezionare una Vnet.
Nel campo subnet impostare la subnet sulla subnet separata disponibile per gli endpoint privati per l'account di archiviazione.
Questo campo potrebbe essere popolato automaticamente con la subnet per gli endpoint privati, ma potrebbe essere necessario impostarlo in modo esplicito. Non è possibile usare una delle due subnet dell'area di lavoro usate per le funzionalità di base dell'area di lavoro di Azure Databricks, chiamate in
private-subnet
genere epublic-subnet
.Fare clic su Avanti. La scheda DNS viene popolata automaticamente nella sottoscrizione e nel gruppo di risorse corretti selezionati in precedenza. Se necessario, puoi modificarle.
Fare clic su Avanti e aggiungere tag, se necessario.
Fare clic su Avanti ed esaminare i campi.
Cliccare su Crea.
Per disabilitare il supporto del firewall per l'account di archiviazione dell'area di lavoro, usare lo stesso processo precedente, ma impostare il parametro Firewall dell'account di archiviazione (storageAccountFirewall
nel modello) su Disabled
e impostare il campo Workspace Catalog Enabled
su true
o false
in base sul fatto che l'area di lavoro usi un catalogo di aree di lavoro di Unity Catalog. Vedere Che cosa sono i cataloghi in Azure Databricks?.
Passaggio 2 (scelta consigliata): Configurare gli endpoint privati per le reti virtuali client di recupero cloud
Cloud Fetch è un meccanismo in ODBC e JDBC per recuperare i dati in parallelo tramite l'archiviazione cloud per portare i dati più velocemente agli strumenti di business intelligence. Se si recuperano risultati di query superiori a 1 MB dagli strumenti di BUSINESS Intelligence, è probabile che si usi Cloud Fetch.
Nota
Se si usa il servizio Power BI di Microsoft Fabric con Azure Databricks, è necessario disabilitare Il recupero cloud perché questa funzionalità blocca l'accesso diretto all'account di archiviazione dell'area di lavoro da Power BI di Infrastruttura. In alternativa, è possibile configurare un gateway dati di rete virtuale o un gateway dati locale per consentire l'accesso privato all'account di archiviazione dell'area di lavoro. Questo non si applica a Power BI Desktop. Per disabilitare Cloud Fetch, usare la configurazione EnableQueryResultDownload=0
.
Se si usa Cloud Fetch, creare endpoint privati per l'account di archiviazione dell'area di lavoro da qualsiasi rete virtuale dei client di recupero cloud.
Per ogni rete di origine per i client di recupero cloud, creare due endpoint privati che usano due valori di risorse secondarie di destinazione diversi: dfs
e blob
. Per informazioni dettagliate, vedere Passaggio 1: Creare endpoint privati per l'account di archiviazione. In questi passaggi, per il campo Rete virtuale durante la creazione dell'endpoint privato, assicurarsi di specificare la rete virtuale di origine per ogni client di recupero cloud.
Passaggio 3: Confermare le approvazioni degli endpoint
Dopo aver creato tutti gli endpoint privati nell'account di archiviazione, verificare se sono approvati. Potrebbero approvare automaticamente o approvare l'account di archiviazione.
- Passare all'area di lavoro nel portale di Azure.
- In Informazioni di base fare clic sul nome del gruppo di risorse gestite.
- In Risorse fare clic sulla risorsa di tipo Account di archiviazione con un nome che inizia con
dbstorage
. - Nella barra laterale fare clic su Rete.
- Cliccare su Connessioni endpoint privato.
- Controllare lo stato Connessione per confermare l'approvazione o selezionarli e fare clic su Approva.
Passaggio 4: Autorizzare le connessioni di calcolo serverless
È necessario autorizzare l'ambiente di calcolo serverless a connettersi all'account di archiviazione dell'area di lavoro collegando una configurazione di connettività di rete (NCC) all'area di lavoro. Quando un NCC è collegato a un'area di lavoro, le regole di rete vengono aggiunte automaticamente all'account di archiviazione di Azure per l'account di archiviazione dell'area di lavoro. Per istruzioni, vedere Configure a Firewall for Report Server Access.
Se si vuole abilitare l'accesso dall'ambiente di calcolo serverless di Azure Databricks usando endpoint privati, contattare il team dell'account di Azure Databricks.
Passaggio 5: Implementare il modello richiesto ARM
Questo passaggio usa un modello di Resource Manager per gestire l'area di lavoro di Azure Databricks. È anche possibile aggiornare o creare l'area di lavoro usando Terraform. Vedere il provider azurerm_databricks_workspace Terraform.
Nel portale di Azure, cercare e selezionare
Deploy a custom template
.Fare clic su Creare un modello personalizzato nell'editor.
Copiare il modello di Resource Manager dal modello di Resource Manager per il supporto del firewall per l'account di archiviazione dell'area di lavoro e incollarlo nell'editor.
Fare clic su Salva.
Esaminare e modificare i campi. Usare gli stessi parametri usati per creare l'area di lavoro, ad esempio sottoscrizione, area, nome dell'area di lavoro, nomi di subnet, ID risorsa della rete virtuale esistente.
Per una descrizione dei campi, vedere Campi del modello di Resource Manager.
Fare clic su Rivedi e crea e quindi su Crea.
Nota
L'accesso alla rete pubblica nell'account di archiviazione dell'area di lavoro è Abilitato da reti virtuali e indirizzi IP selezionati e non su Disabilitato per supportare le risorse di calcolo serverless senza richiedere endpoint privati. L'account di archiviazione dell'area di lavoro si trova in un gruppo di risorse gestite e il firewall di archiviazione può essere aggiornato solo quando si aggiunge una configurazione di connettività di rete (NCC) per le connessioni serverless all'area di lavoro. Se si vuole abilitare l'accesso dall'ambiente di calcolo serverless di Azure Databricks usando endpoint privati, contattare il team dell'account di Azure Databricks.