Använda Visual Studio Code med Databricks Connect för Scala
Anteckning
Den här artikeln beskriver Databricks Connect för Databricks Runtime 13.3 LTS och senare.
Den här artikeln beskriver hur du använder Databricks Connect för Scala med Visual Studio Code-. Med Databricks Connect kan du ansluta populära IDE:er, notebook-servrar och andra anpassade program till Azure Databricks-kluster. Se Vad är Databricks Connect?. Python-versionen av den här artikeln finns i Att använda Visual Studio Code med Databricks Connect för Python.
Anteckning
Innan du börjar använda Databricks Connect måste du set installera Databricks Connect-klienten.
Följ dessa instruktioner om du vill använda Databricks Connect och Visual Studio Code med Scala (Metals)-tillägget för att skapa, köra och felsöka ett Scala-exempel sbt
projekt. Du kan också anpassa det här exemplet till dina befintliga Scala-projekt.
Kontrollera att Java Development Kit (JDK) och Scala är installerade lokalt. Databricks rekommenderar att din lokala JDK- och Scala-version matchar JDK- och Scala-versionen i ditt Azure Databricks-kluster.
Kontrollera att den senaste versionen av
sbt
är installerad lokalt.Installera Scala (Metals)-tillägget för Visual Studio Code.
I Visual Studio Code öppnar du mappen where du vill skapa Scala-projektet (File > Open Folder).
Klicka på tilläggsikonen Metals i sidofältet och klicka sedan på Nytt Scala-projekt.
I kommandopaletten väljer du mallen med namnet scala/hello-world.g8och slutför anvisningarna på skärmen för att slutföra skapandet av Scala-projektet i den angivna mappen.
Lägg till inställningar för projektbygge: I Explorer -vyn (View > Explorer), öppnar du filen
build.sbt
från projektets rot, ersätter filens innehåll med följande och sparar filen:scalaVersion := "2.12.15" libraryDependencies += "com.databricks" % "databricks-connect" % "14.0.0"
Ersätt
2.12.15
med den installerade versionen av Scala, som ska matcha den version som ingår i Databricks Runtime-versionen i klustret.Ersätt
14.0.0
med den version av Databricks Connect-biblioteket som matchar Databricks Runtime-versionen i klustret. Du hittar versionsnumren för Databricks Connect-biblioteket på den centrala lagringsplatsen Maven.Lägg till Scala-kod: Öppna
src/main/scala/Main.scala
-filen i förhållande till projektets rot, ersätt filens innehåll med följande och spara filen:import com.databricks.connect.DatabricksSession import org.apache.spark.sql.SparkSession object Main extends App { val spark = DatabricksSession.builder().remote().getOrCreate() val df = spark.read.table("samples.nyctaxi.trips") df.limit(5).show() }
Skapa projektet: Kör kommandot >Metals: Importera build- från kommandopaletten.
Lägg till projektkörningsinställningar: I Kör & Felsökning-vyn
& (View ) klickar du på länkenRun skapa en launch.json fil .I kommandopaletten selectScala-felsökningsprogrammet.
Lägg till följande körningskonfiguration i filen
launch.json
och spara sedan filen:{ // Use IntelliSense to learn about possible attributes. // Hover to view descriptions of existing attributes. // For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387 "version": "0.2.0", "configurations": [ { "type": "scala", "request": "launch", "name": "Scala: Run main class", "mainClass": "Main", "args": [], "jvmOptions": [] } ] }
Kör projektet: Klicka på ikonen för att starta (Starta felsökning) bredvid Scala: Kör huvudklassen. I vyn Felsökningskonsol (View > Debug Console) visas de första 5 raderna i
samples.nyctaxi.trips
table. All Scala-kod körs lokalt, medan all Scala-kod som involverar DataFrame-åtgärder körs på klustret på den fjärranslutna Azure Databricks-arbetsytan och körningssvar skickas tillbaka till den lokala anroparen.Felsök projektet: Set brytpunkter i koden och klicka sedan på uppspelningsikonen igen. All Scala-kod felsöks lokalt, medan den fortsätter att köras på klustret i den fjärranslutna Azure Databricks-arbetsytan. Spark-motorns kärnkod kan inte felsökas direkt från klienten.