Sdílet prostřednictvím


Použití IntelliJ IDEA s Databricks Connect pro Scala

Poznámka

Tento článek popisuje Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší.

Tento článek popisuje, jak používat Databricks Connect pro Scalu a IntelliJ IDEA s pluginem pro Scalu. Databricks Connect umožňuje připojit oblíbená prostředí IDE, servery poznámkových bloků a další vlastní aplikace ke clusterům Azure Databricks. Podívejte se na Co je to Databricks Connect?.

Poznámka

Než začnete používat Databricks Connect, musíte nastavit klienta Databricks Connect.

Pokud chcete použít Databricks Connect a IntelliJ IDEA s modulem plug-in Scala k vytvoření, spuštění a ladění ukázkového projektu Scala sbt, postupujte podle těchto pokynů. Tyto pokyny byly testovány v IntelliJ IDEA Community Edition 2023.3.6. Pokud používáte jinou verzi nebo edici IntelliJ IDEA, můžou se následující pokyny lišit.

  1. Ujistěte se, že je sada Java Development Kit (JDK) nainstalovaná místně. Databricks doporučuje, aby vaše místní verze sady JDK odpovídala verzi sady JDK ve vašem clusteru Azure Databricks.

  2. Spusťte IntelliJ IDEA.

  3. Klepněte na Soubor > Nový > Projekt.

  4. Dejte svému projektu smysluplný název.

  5. Pro Umístěníklikněte na ikonu složky, poté doplňte pokyny na obrazovce a zadejte cestu k novému projektu Scala.

  6. Chcete-li vybrat jazyk, klikněte na Scala.

  7. U systému sestavení klepněte na tlačítko sbt.

  8. V rozevíracím seznamu JDK vyberte existující instalaci sady JDK na vývojovém počítači, která odpovídá verzi sady JDK v clusteru, nebo vyberte Stáhnout sadu JDK a podle pokynů na obrazovce stáhněte sadu JDK, která odpovídá verzi sady JDK ve vašem clusteru.

    Poznámka

    Volba instalace sady JDK, která je vyšší nebo nižší než verze sady JDK ve vašem clusteru, může způsobit neočekávané výsledky nebo se váš kód nemusí vůbec spustit.

  9. V rozevíracím seznamu sbt vyberte nejnovější verzi.

  10. V rozevíracím seznamu Scala vyberte verzi Scala, která odpovídá verzi Scala ve vašem clusteru.

    Poznámka

    Volba verze Scala, která je nižší nebo vyšší než verze Scala ve vašem clusteru, může způsobit neočekávané výsledky nebo se váš kód nemusí vůbec spustit.

  11. Pro předponu balíčku zadejte konkrétní hodnotu předpony balíčku pro zdroje vašeho projektu, například org.example.application.

  12. Ujistěte se, že je zaškrtnuté políčko Přidat vzorový kód.

  13. Klikněte na Vytvořit.

  14. Přidejte balíček Databricks Connect: otevřete nový projekt Scala v okně nástroje projektu (Zobrazit Nástroj Windows Projektu), otevřete soubor s názvem , v názvu projektu cílové.

  15. Na konec souboru build.sbt přidejte následující kód, který deklaruje závislost projektu na konkrétní verzi knihovny Databricks Connect pro Scala:

    libraryDependencies += "com.databricks" % "databricks-connect" % "14.3.1"
    

    Nahraďte 14.3.1 verzí knihovny Databricks Connect, která odpovídá verzi Databricks Runtime ve vašem clusteru. Čísla verzí knihovny Databricks Connect najdete v centrálním úložištiMaven .

  16. Kliknutím na ikonu Načíst sbt změníte ikonu oznámení a aktualizujete projekt Scala novým umístěním knihovny a závislostí.

  17. Počkejte, až indikátor průběhu sbt v dolní části integrovaného vývojového prostředí zmizí. Dokončení procesu načítání sbt může trvat několik minut.

  18. Přidejte kód: v okně nástroje Projectu otevřete soubor s názvem , v názvu projektu hlavní scala.

  19. Nahraďte veškerý existující kód v souboru následujícím kódem a pak soubor uložte:

    package org.example.application
    
    import com.databricks.connect.DatabricksSession
    import org.apache.spark.sql.SparkSession
    
    object Main {
      def main(args: Array[String]): Unit = {
        val spark = DatabricksSession.builder().remote().getOrCreate()
        val df = spark.read.table("samples.nyctaxi.trips")
        df.limit(5).show()
      }
    }
    
  20. Spusťte kód: Spusťte cílový cluster ve vzdáleném pracovním prostoru Azure Databricks.

  21. Po spuštění clusteru v hlavní nabídce klikněte na Spustit > Spustit hlavní.

  22. V okně nástroje Spustit (Zobrazit > Nástroj Windows > Spustit) na kartě Hlavní se zobrazí prvních 5 řádků tabulky samples.nyctaxi.trips. Veškerý kód Scala běží místně, zatímco veškerý kód Scala zahrnující operace datového rámce běží v clusteru ve vzdáleném pracovním prostoru Azure Databricks a odpovědi na spuštění se odešlou zpět místnímu volajícímu.

  23. Ladění kódu: Spusťte cílový cluster ve vzdáleném pracovním prostoru Azure Databricks, pokud ještě není spuštěný.

  24. V předchozím kódu klikněte na okraj vedle df.limit(5).show() a nastavte bod přerušení.

  25. Po spuštění clusteru klikněte v hlavní nabídce na Spustit > ladit 'Main'.

  26. V okně nástroje Ladění (Zobrazit > Nástroj Windows > Ladění), na kartě Konzola klikněte na ikonu kalkulačky (Vyhodnotit výraz).

  27. Zadejte výraz df.schema a klikněte na Vyhodnotit, aby se zobrazilo schéma DataFrame.

  28. Na postranním panelu okna nástroje Ladění klikněte na ikonu zelené šipky (Resume Program).

  29. V podokně konzoly se zobrazí prvních 5 řádků tabulky samples.nyctaxi.trips. Veškerý kód Scala běží místně, zatímco veškerý kód Scala zahrnující operace datového rámce běží v clusteru ve vzdáleném pracovním prostoru Azure Databricks a odpovědi na spuštění se odešlou zpět místnímu volajícímu.