Dela via


Använda Visual Studio Code med Databricks Connect för Scala

Anteckning

Den här artikeln beskriver Databricks Connect för Databricks Runtime 13.3 LTS och senare.

Den här artikeln beskriver hur du använder Databricks Connect för Scala med Visual Studio Code-. Med Databricks Connect kan du ansluta populära IDE:er, notebook-servrar och andra anpassade program till Azure Databricks-kluster. Se Vad är Databricks Connect?. Python-versionen av den här artikeln finns i Att använda Visual Studio Code med Databricks Connect för Python.

Anteckning

Innan du börjar använda Databricks Connect måste du set installera Databricks Connect-klienten.

Följ dessa instruktioner om du vill använda Databricks Connect och Visual Studio Code med Scala (Metals)-tillägget för att skapa, köra och felsöka ett Scala-exempel sbt projekt. Du kan också anpassa det här exemplet till dina befintliga Scala-projekt.

  1. Kontrollera att Java Development Kit (JDK) och Scala är installerade lokalt. Databricks rekommenderar att din lokala JDK- och Scala-version matchar JDK- och Scala-versionen i ditt Azure Databricks-kluster.

  2. Kontrollera att den senaste versionen av sbt är installerad lokalt.

  3. Installera Scala (Metals)-tillägget för Visual Studio Code.

  4. I Visual Studio Code öppnar du mappen where du vill skapa Scala-projektet (File > Open Folder).

  5. Klicka på tilläggsikonen Metals i sidofältet och klicka sedan på Nytt Scala-projekt.

  6. I kommandopaletten väljer du mallen med namnet scala/hello-world.g8och slutför anvisningarna på skärmen för att slutföra skapandet av Scala-projektet i den angivna mappen.

  7. Lägg till inställningar för projektbygge: I Explorer -vyn (View > Explorer), öppnar du filen build.sbt från projektets rot, ersätter filens innehåll med följande och sparar filen:

    scalaVersion := "2.12.15"
    
    libraryDependencies += "com.databricks" % "databricks-connect" % "14.0.0"
    

    Ersätt 2.12.15 med den installerade versionen av Scala, som ska matcha den version som ingår i Databricks Runtime-versionen i klustret.

    Ersätt 14.0.0 med den version av Databricks Connect-biblioteket som matchar Databricks Runtime-versionen i klustret. Du hittar versionsnumren för Databricks Connect-biblioteket på den centrala lagringsplatsen Maven.

  8. Lägg till Scala-kod: Öppna src/main/scala/Main.scala-filen i förhållande till projektets rot, ersätt filens innehåll med följande och spara filen:

    import com.databricks.connect.DatabricksSession
    import org.apache.spark.sql.SparkSession
    
    object Main extends App {
      val spark = DatabricksSession.builder().remote().getOrCreate()
      val df = spark.read.table("samples.nyctaxi.trips")
      df.limit(5).show()
    }
    
  9. Skapa projektet: Kör kommandot >Metals: Importera build- från kommandopaletten.

  10. Lägg till projektkörningsinställningar: I Kör & Felsökning-vyn & (View Run) klickar du på länken skapa en launch.json fil.

  11. I kommandopaletten selectScala-felsökningsprogrammet.

  12. Lägg till följande körningskonfiguration i filen launch.json och spara sedan filen:

    {
      // Use IntelliSense to learn about possible attributes.
      // Hover to view descriptions of existing attributes.
      // For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387
      "version": "0.2.0",
      "configurations": [
        {
          "type": "scala",
          "request": "launch",
          "name": "Scala: Run main class",
          "mainClass": "Main",
          "args": [],
          "jvmOptions": []
        }
      ]
    }
    
  13. Kör projektet: Klicka på ikonen för att starta (Starta felsökning) bredvid Scala: Kör huvudklassen. I vyn Felsökningskonsol (View > Debug Console) visas de första 5 raderna i samples.nyctaxi.tripstable. All Scala-kod körs lokalt, medan all Scala-kod som involverar DataFrame-åtgärder körs på klustret på den fjärranslutna Azure Databricks-arbetsytan och körningssvar skickas tillbaka till den lokala anroparen.

  14. Felsök projektet: Set brytpunkter i koden och klicka sedan på uppspelningsikonen igen. All Scala-kod felsöks lokalt, medan den fortsätter att köras på klustret i den fjärranslutna Azure Databricks-arbetsytan. Spark-motorns kärnkod kan inte felsökas direkt från klienten.