Condividi tramite


Eseguire un file su un cluster o un file o un notebook come un processo in Azure Databricks usando l'estensione Databricks per Visual Studio Code

L'estensione Databricks per Visual Studio Code consente di eseguire il codice Python su un cluster oppure il codice Python, R, Scala o SQL o i notebook come processo in Azure Databricks.

Queste informazioni presuppongono che l'utente abbia già installato e configurato l'estensione Databricks per Visual Studio Code. Vedere Installare l'estensione Databricks per Visual Studio Code.

Eseguire un file Python in un cluster

Nota

Questa funzionalità non è disponibile quando si usa il calcolo serverless.

Per eseguire un file Python in un cluster Azure Databricks usando l'estensione Databricks per Visual Studio Code, con l'estensione e il progetto aperto:

  1. Aprire il file Python da eseguire nel cluster.

  2. Esegui una delle operazioni seguenti:

    • Nella barra del titolo dell'editor di file fare clic sull'icona Esegui in Databricks e quindi fare clic su Carica ed esegui file.

      Caricare ed eseguire il file dall'icona

    • In Explorer view (View > Explorer), clic destro sul file e quindi scegliere Esegui in Databricks>Carica ed Esegui il File dal menu di scelta rapida.

      Caricare ed eseguire il file dal menu di scelta rapida

Il file viene eseguito nel cluster e l'output è disponibile nella console di debug (Visualizza > console di debug).

Eseguire un file Python come attività

Per eseguire un file Python come processo di Azure Databricks usando l'estensione Databricks per Visual Studio Code, con l'estensione e il progetto aperto:

  1. Apri il file Python che vuoi eseguire come attività.

  2. Esegui una delle operazioni seguenti:

    • Nella barra del titolo dell'editor di file fare clic sull'icona Esegui in Databricks e quindi fare clic su Esegui file come flusso di lavoro.

      Esegui file come flusso di lavoro dall'icona

    • In Explorer Visualizzazione (Visualizza > Explorer), fare clic con il pulsante destro del mouse sul file e quindi scegliere Esegui in Databricks oppure Esegui File come un Workflow dal menu di scelta rapida.

      Esegui il file come operazione dal menu contestuale

Viene visualizzata una nuova scheda dell'editor denominata Databricks Job Run. Il file viene eseguito come processo nell'area di lavoro e qualsiasi output viene stampato nell'area output della nuova scheda dell'editor.

Per visualizzare informazioni sull'esecuzione del processo, fare clic sul link ID esecuzione attività nella nuova scheda dell'Editor di esecuzione del processo di Databricks. L'area di lavoro viene aperta e i dettagli dell'esecuzione del processo vengono visualizzati nell'area di lavoro.

Eseguire un notebook Python, R, Scala o SQL come attività

Per eseguire un notebook come attività di Azure Databricks usando l'estensione Databricks per Visual Studio Code, con l'estensione e il progetto aperti:

  1. Apri il notebook che desideri eseguire come processo.

    Suggerimento

    Per trasformare un file Python, R, Scala o SQL in un notebook di Azure Databricks, aggiungere il commento # Databricks notebook source all'inizio del file e aggiungere il commento # COMMAND ---------- prima di ogni cella. Per altre informazioni, vedere Importare un file e convertirlo in un notebook.

    Un file di codice Python formattato come notebook di Databricks1

  2. Esegui una delle operazioni seguenti:

    • Nella barra del titolo dell'editor di file del notebook fare clic sull'icona Esegui in Databricks e quindi fare clic su Esegui file come flusso di lavoro.

    Nota

    Se l'esecuzione in Databricks come flusso di lavoro non è disponibile, vedere Creare una configurazione di esecuzione personalizzata.

    • In Visualizzazione Explorer (Visualizzazione > Explorer), fare clic con il pulsante destro del mouse sul file del notebook, quindi selezionare Esegui in Databricks>Esegui file come flusso di lavoro dal menu di scelta rapida.

Viene visualizzata una nuova scheda dell'editor intitolata Databricks Job Run. Il notebook viene eseguito come attività nell'area di lavoro. Il notebook e il relativo output vengono visualizzati nell'area Output della nuova scheda dell'editor.

Per visualizzare le informazioni sull'esecuzione del processo, fare clic sul collegamento ID esecuzione attività nella scheda dell'editor di esecuzione processo Databricks. L'area di lavoro si apre e i dettagli dell'esecuzione del processo vengono mostrati.

Creare una configurazione di esecuzione personalizzata

Una configurazione di esecuzione personalizzata per l'estensione Databricks per Visual Studio Code consente di passare argomenti personalizzati a un processo o a un notebook o di creare impostazioni di esecuzione diverse per file diversi.

Per creare una configurazione di esecuzione personalizzata, fare clic su Esegui > aggiungi configurazione dal menu principale in Visual Studio Code. Selezionare quindi Databricks per una configurazione di esecuzione basata su cluster o Databricks: Workflow per una configurazione di esecuzione basata su attività.

Ad esempio, la configurazione di esecuzione personalizzata seguente modifica il comando Esegui file come flusso di lavoro per passare l'argomento --prod al processo:

{
  "version": "0.2.0",
  "configurations": [
    {
      "type": "databricks-workflow",
      "request": "launch",
      "name": "Run on Databricks as Workflow",
      "program": "${file}",
      "parameters": {},
      "args": ["--prod"]
    }
  ]
}

Suggerimento

Aggiungere "databricks": true alla configurazione "type": "python" se si desidera utilizzare la configurazione di Python, ma sfruttare l'autenticazione Databricks Connect che fa parte della configurazione dell'estensione.

Usando configurazioni di esecuzione personalizzate, è anche possibile passare argomenti della riga di comando ed eseguire il codice semplicemente premendo F5. Per altre informazioni, vedere Avviare configurazioni nella documentazione di Visual Studio Code.