Configurare il progetto Databricks usando l'estensione Databricks per Visual Studio Code
L'estensione Databricks per Visual Studio Code offre una visualizzazione configurazione all'interno del pannello dell'estensione che consente di configurare e aggiornare facilmente le impostazioni per il progetto Databricks. Queste funzionalità includono un selettore di distribuzione dell'area di lavoro di destinazione, una configurazione semplice dell'autenticazione e del calcolo, la sincronizzazione delle cartelle dell'area di lavoro e semplici passaggi per attivare l'ambiente virtuale Python necessario per il debug.
La visualizzazione Configurazione all'interno dell'estensione Databricks per Visual Studio Code è disponibile dopo aver creato o migrato un progetto a un progetto Databricks. Vedi Creare un nuovo progetto Databricks.
Nota
Le versioni precedenti dell'estensione Databricks per Visual Studio Code definivano le impostazioni di configurazione in un file JSON di progetto e le variabili di ambiente erano impostate nel terminale. Nella versione di rilascio, la configurazione del progetto e dell'ambiente si trova nei file databricks.yml
e databricks.env
.
Se il tuo progetto è un Databricks Asset Bundle, l'interfaccia utente dell'estensione Databricks fornisce anche un Esplora Risorse Bundle e una Visualizzazione Variabili Bundle per gestire le risorse e le variabili del bundle. Consultare le funzionalità dell'estensione dei bundle di asset di Databricks.
Modificare l'area di lavoro di distribuzione di destinazione
Per selezionare o cambiare la destinazione di distribuzione per il progetto Databricks, ad esempio per passare da una dev
destinazione a una prod
destinazione:
Nella visualizzazione Configurazione del pannello dell'estensione Databricks, fare clic sull'icona a forma di ingranaggio (Seleziona un obiettivo Databricks Asset Bundle) associata a Target.
Nella Palette comandi, selezionare la destinazione di distribuzione desiderata.
Dopo aver configurato una destinazione, vengono visualizzati l'Host e la modalità di distribuzione Mode. Per informazioni sulle modalità di distribuzione dei bundle di asset di Databricks, vedere Modalità di distribuzione del bundle di asset di Databricks.
L'host dell'area di lavoro può essere modificato modificando l'impostazione di destinazione workspace
nel databricks.yml
file di configurazione associato al progetto. Si veda Obiettivi.
Nota
L'estensione Databricks seguente per le funzionalità di Visual Studio Code è disponibile solo quando la modalità di distribuzione di destinazione è in fase di sviluppo:
- Utilizzare il cluster di sviluppo allegato per i lavori di bundle
- Sincronizzare i file della cartella dell'area di lavoro
- Selezionare un cluster di sviluppo interattivo
Configurare il profilo Databricks per il progetto
Quando si crea un progetto Databricks o converte un progetto a un progetto Databricks, si configura un profilo che include le impostazioni di autenticazione usate per connettersi a Databricks. Per modificare il profilo di autenticazione usato, fare clic sull'icona a forma di ingranaggio associata a AuthType nella visualizzazione Configurazione .
Per altre informazioni sull'estensione Databricks per l'autenticazione di Visual Studio Code, vedere Configurare l'autorizzazione per l'estensione Databricks per Visual Studio Code.
Selezionare il calcolo per l'esecuzione di codice e processi
Usando l'estensione Databricks per Visual Studio Code, è possibile selezionare serverless, selezionare un cluster Azure Databricks esistente o creare un nuovo cluster di Azure Databricks per l'esecuzione del codice e dei processi. Dopo aver eseguito la connessione al calcolo, vengono visualizzati l'ID di un cluster, la versione di Databricks Runtime, il creatore, lo stato e la modalità di accesso. È anche possibile avviare e arrestare un cluster e passare direttamente ai dettagli della pagina del cluster.
Suggerimento
Se non si vuole attendere l'avvio del cluster di processi, selezionare l'opzione Ignora il cluster di processi nel bundle subito sotto la selezione del cluster per usare il cluster selezionato per l'esecuzione dei processi in modalità di sviluppo. Questa operazione non è disponibile se si usa un ambiente di calcolo serverless.
Usa il serverless
Il calcolo serverless viene gestito da Azure Databricks. Quando si eseguono carichi di lavoro in un ambiente di calcolo serverless, Azure Databricks alloca e gestisce automaticamente le risorse di calcolo necessarie.
Nella visualizzazione Configurazione, accanto a Cluster, fare clic su Selezionare un cluster o sull'icona a forma di ingranaggio (Configura cluster).
Nella Palette dei comandi , selezionare Serverless.
Usare un cluster esistente
Se si dispone di un cluster di Azure Databricks esistente che si vuole usare:
Nella visualizzazione Configurazione, accanto a Cluster, fare clic su Selezionare un cluster o sull'icona a forma di ingranaggio (Configura cluster).
Nella palette dei comandi, selezionare il cluster da usare.
Creare un nuovo cluster
Se non si dispone di un cluster Azure Databricks esistente o si vuole crearne uno nuovo:
Nella visualizzazione Configurazione, accanto a Cluster, fare clic sull'icona a forma di ingranaggio (Configura cluster).
Nella Palette dei Comandi, fare clic su Crea Nuovo Cluster.
Quando viene richiesto di aprire il sito Web esterno (area di lavoro di Azure Databricks), fare clic su Apri.
Se richiesto, accedere all'area di lavoro di Azure Databricks.
Seguire le istruzioni per creare un cluster.
Nota
Databricks consiglia di creare un cluster di calcolo personale. In questo modo è possibile avviare immediatamente l'esecuzione dei carichi di lavoro, riducendo al minimo il sovraccarico di gestione del calcolo.
Dopo aver creato e eseguito il cluster, tornare a Visual Studio Code.
Nella visualizzazione Configurazione, accanto a Cluster, fare clic sull'icona a forma di ingranaggio (Configura cluster).
Nella Palette dei comandi, fai clic sul cluster che desideri utilizzare.
Sincronizzare la cartella dell'area di lavoro con Databricks
È possibile sincronizzare la cartella dell'area di lavoro di Databricks remota associata al progetto di Databricks facendo clic sull'icona di sincronizzazione (Avvia sincronizzazione) associata a Cartella remota nella configurazione visualizzazione del pannello dell'estensione Databricks.
Nota
L'estensione Databricks per Visual Studio Code funziona solo con le directory dell'area di lavoro create. Non è possibile usare una directory dell'area di lavoro esistente nel progetto a meno che non sia stata creata dall'estensione.
Per passare alla visualizzazione dell'area di lavoro in Databricks, fare clic sull'icona del collegamento esterno (Apri collegamento esternamente) associata a cartella remota.
L'estensione determina la cartella dell'area di lavoro di Azure Databricks da usare in base all'impostazione file_path
nel Mapping workspace
della configurazione del bundle di asset Databricks associato al progetto. Vedi Area di lavoro.
Nota
L'estensione Databricks per Visual Studio Code esegue solo una sincronizzazione automatica e unidirezionale delle modifiche ai file dal progetto di Visual Studio Code locale alla cartella dell'area di lavoro correlata nell'area di lavoro remota di Azure Databricks. I file in questa directory dell'area di lavoro remota devono essere temporanei. Non avviare modifiche a questi file dall'interno dell'area di lavoro remota, perché queste modifiche non verranno sincronizzate di nuovo con il progetto locale.
Per informazioni dettagliate sull'utilizzo della funzionalità di sincronizzazione della directory dell'area di lavoro per le versioni precedenti dell'estensione Databricks per Visual Studio Code, vedere Selezionare una directory dell'area di lavoro per l'estensione Databricks per Visual Studio Code.
Configurare l'ambiente Python e Databricks Connect
La sezione Ambiente Python della visualizzazione Configurazione consente di configurare facilmente l'ambiente di sviluppo virtuale Python e l'installazione di Databricks Connect per l'esecuzione e il debug di codice e celle del notebook. Gli ambienti virtuali Python assicurano che il progetto usi versioni compatibili dei pacchetti Python e Python (in questo caso, il pacchetto Databricks Connect).
Per configurare l'ambiente virtuale Python per il tuo progetto, nella visualizzazione Configurazione del pannello di estensione:
- Fare clic sull'elemento rosso Attiva ambiente virtuale in Ambiente Python.
- Nella palette comandi , selezionare Venv o Conda.
- Selezionare le dipendenze da installare, se presenti.
Per modificare gli ambienti, fare clic sull'icona a forma di ingranaggio (Modifica ambiente virtuale) associata all'ambiente attivo.
Per informazioni sull'installazione di Databricks Connect, che consente l'esecuzione e il debug di codice e notebook in Visual Studio Code, vedere Eseguire il debug del codice usando Databricks Connect per l'estensione Databricks per Visual Studio Code.