Dela via


Använda IntelliJ IDEA med Databricks Connect för Scala

Not

Den här artikeln beskriver Databricks Connect för Databricks Runtime 13.3 LTS och senare.

Den här artikeln beskriver hur du använder Databricks Connect för Scala och IntelliJ IDEA med plugin-programmet Scala. Med Databricks Connect kan du ansluta populära IDE:er, notebook-servrar och andra anpassade program till Azure Databricks-kluster. Se Vad är Databricks Connect?.

Not

Innan du börjar använda Databricks Connect måste du konfigurera Databricks Connect-klienten.

Följ dessa instruktioner om du vill använda Databricks Connect och IntelliJ IDEA med Scala-plugin-programmet för att skapa, köra och felsöka ett Scala-exempelprojekt sbt. Dessa instruktioner har testats med IntelliJ IDEA Community Edition 2023.3.6. Om du använder en annan version eller utgåva av IntelliJ IDEA kan följande instruktioner variera.

  1. Kontrollera att Java Development Kit (JDK) är installerat lokalt. Databricks rekommenderar att din lokala JDK-version matchar JDK-versionen i Azure Databricks-klustret.

  2. Starta IntelliJ IDEA.

  3. Klicka på Arkiv > Ny > Projekt.

  4. Ge projektet ett beskrivande Namn.

  5. För Platsklickar du på mappikonen och slutför anvisningarna på skärmen för att ange sökvägen till ditt nya Scala-projekt.

  6. För Languageklickar du på Scala.

  7. För Build systemklickar du på sbt.

  8. I listrutan JDK väljer du en befintlig installation av JDK:t på utvecklingsdatorn som matchar JDK-versionen i klustret eller väljer Ladda ned JDK och följer anvisningarna på skärmen för att ladda ned en JDK som matchar JDK-versionen i klustret. Versionsinformation finns i krav.

    Not

    Om du väljer en JDK-installation som ligger ovanför eller under JDK-versionen i klustret kan det ge oväntade resultat, eller så kanske koden inte körs alls.

  9. I listrutan sbt väljer du den senaste versionen.

  10. I listrutan Scala väljer du den version av Scala som matchar Scala-versionen i klustret. Versionsinformation finns i krav.

    Not

    Om du väljer en Scala-version som är lägre än eller högre än Scala-versionen i klustret kan det ge oväntade resultat, eller så kanske koden inte körs alls.

  11. För -paketprefixetanger du ett paketprefixvärde för projektets källor, till exempel org.example.application.

  12. Kontrollera att rutan Lägg till exempelkod är markerad.

  13. Klicka på Skapa.

  14. Lägg till Databricks Connect-paketet: Med ditt nya Scala-projekt öppet öppnar du Project-verktygsfönstret (View > Tool Windows > Project) och öppnar filen med namnet build.sbti projektnamn> mål.

  15. Lägg till följande kod i slutet av build.sbt-filen, som deklarerar projektets beroende av en specifik version av Databricks Connect-biblioteket för Scala, kompatibel med Databricks Runtime-versionen av klustret:

    libraryDependencies += "com.databricks" % "databricks-connect" % "14.3.1"
    

    Ersätt 14.3.1 med den version av Databricks Connect-biblioteket som matchar Databricks Runtime-versionen i klustret. Databricks Connect 14.3.1 matchar till exempel Databricks Runtime 14.3 LTS. Du hittar versionsnumren för Databricks Connect-biblioteket på den centrala lagringsplatsen Maven.

  16. Klicka på meddelandeikonen Läs in sbt-ändringar för att uppdatera Scala-projektet med den nya platsen för biblioteket och det nya beroendet.

  17. Vänta tills förloppsindikatorn för sbt längst ned i IDE försvinner. Det kan ta några minuter att slutföra sbt inläsningsprocessen.

  18. Lägg till kod: I Project-verktygsfönstret öppnar du filen med namnet Main.scalai projektnamn> src > main > scala.

  19. Ersätt befintlig kod i filen med följande kod och spara sedan filen:

    package org.example.application
    
    import com.databricks.connect.DatabricksSession
    import org.apache.spark.sql.SparkSession
    
    object Main {
      def main(args: Array[String]): Unit = {
        val spark = DatabricksSession.builder().remote().getOrCreate()
        val df = spark.read.table("samples.nyctaxi.trips")
        df.limit(5).show()
      }
    }
    
  20. Kör koden: starta målklustret på din fjärranslutna Azure Databricks-arbetsyta.

  21. När klustret har startat klickar du på Kör > Kör "Main"på huvudmenyn.

  22. I verktygsfönstret Kör (Visa >-verktyget Windows > Kör) på fliken Main visas de första 5 raderna i tabellen samples.nyctaxi.trips. All Scala-kod körs lokalt, medan all Scala-kod som involverar DataFrame-åtgärder körs på klustret på den fjärranslutna Azure Databricks-arbetsytan och körningssvar skickas tillbaka till den lokala anroparen.

  23. Felsök koden: starta målklustret på din fjärranslutna Azure Databricks-arbetsyta om den inte redan körs.

  24. I föregående kod klickar du på rännstenen bredvid df.limit(5).show() för att ange en brytpunkt.

  25. När klustret har startat klickar du på Kör > Felsökning 'Huvud'på huvudmenyn.

  26. I verktygsfönstret Felsökning (Visa >-verktyget Windows > Felsökning) på fliken Console klickar du på kalkylatorn (Utvärdera uttryck).

  27. Ange uttrycket df.schema och klicka på Utvärdera för att visa DataFrame-schemat.

  28. Klicka på den gröna pilen ( Resume Program) i sidofältet i felsökningsfönstrets sidofält.

  29. I fönstret Console visas de första 5 raderna i tabellen samples.nyctaxi.trips. All Scala-kod körs lokalt, medan all Scala-kod som involverar DataFrame-åtgärder körs på klustret på den fjärranslutna Azure Databricks-arbetsytan och körningssvar skickas tillbaka till den lokala anroparen.