Použití IntelliJ IDEA s Databricks Connect pro Scala
Poznámka
Tento článek popisuje Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší.
Tento článek popisuje, jak používat Databricks Connect pro Scalu a IntelliJ IDEA s pluginem pro Scalu. Databricks Connect umožňuje připojit oblíbená prostředí IDE, servery poznámkových bloků a další vlastní aplikace ke clusterům Azure Databricks. Podívejte se na Co je to Databricks Connect?.
Poznámka
Než začnete používat Databricks Connect, musíte nastavit klienta Databricks Connect.
Pokud chcete použít Databricks Connect a IntelliJ IDEA s modulem plug-in Scala k vytvoření, spuštění a ladění ukázkového projektu Scala sbt
, postupujte podle těchto pokynů. Tyto pokyny byly testovány v IntelliJ IDEA Community Edition 2023.3.6. Pokud používáte jinou verzi nebo edici IntelliJ IDEA, můžou se následující pokyny lišit.
Ujistěte se, že je sada Java Development Kit (JDK) nainstalovaná místně. Databricks doporučuje, aby vaše místní verze sady JDK odpovídala verzi sady JDK ve vašem clusteru Azure Databricks.
Spusťte IntelliJ IDEA.
Klepněte na Soubor > Nový > Projekt.
Dejte svému projektu smysluplný název.
Pro Umístěníklikněte na ikonu složky, poté doplňte pokyny na obrazovce a zadejte cestu k novému projektu Scala.
Chcete-li vybrat jazyk, klikněte na Scala.
U systému sestavení klepněte na tlačítko sbt.
V rozevíracím seznamu JDK vyberte existující instalaci sady JDK na vývojovém počítači, která odpovídá verzi sady JDK v clusteru, nebo vyberte Stáhnout sadu JDK a podle pokynů na obrazovce stáhněte sadu JDK, která odpovídá verzi sady JDK ve vašem clusteru.
Poznámka
Volba instalace sady JDK, která je vyšší nebo nižší než verze sady JDK ve vašem clusteru, může způsobit neočekávané výsledky nebo se váš kód nemusí vůbec spustit.
V rozevíracím seznamu sbt vyberte nejnovější verzi.
V rozevíracím seznamu Scala vyberte verzi Scala, která odpovídá verzi Scala ve vašem clusteru.
Poznámka
Volba verze Scala, která je nižší nebo vyšší než verze Scala ve vašem clusteru, může způsobit neočekávané výsledky nebo se váš kód nemusí vůbec spustit.
Pro předponu balíčku zadejte konkrétní hodnotu předpony balíčku pro zdroje vašeho projektu, například
org.example.application
.Ujistěte se, že je zaškrtnuté políčko Přidat vzorový kód.
Klikněte na Vytvořit.
Přidejte balíček Databricks Connect: otevřete nový projekt Scala v okně nástroje projektu
( Zobrazit ), otevřete soubor s názvemNástroj Windows Projektu , v .názvu projektu cílové Na konec souboru
build.sbt
přidejte následující kód, který deklaruje závislost projektu na konkrétní verzi knihovny Databricks Connect pro Scala:libraryDependencies += "com.databricks" % "databricks-connect" % "14.3.1"
Nahraďte
14.3.1
verzí knihovny Databricks Connect, která odpovídá verzi Databricks Runtime ve vašem clusteru. Čísla verzí knihovny Databricks Connect najdete v centrálním úložištiMaven . Kliknutím na ikonu Načíst sbt změníte ikonu oznámení a aktualizujete projekt Scala novým umístěním knihovny a závislostí.
Počkejte, až indikátor průběhu
sbt
v dolní části integrovaného vývojového prostředí zmizí. Dokončení procesu načítánísbt
může trvat několik minut.Přidejte kód: v okně nástroje Projectu
otevřete soubor s názvem , v .názvu projektu hlavní scala Nahraďte veškerý existující kód v souboru následujícím kódem a pak soubor uložte:
package org.example.application import com.databricks.connect.DatabricksSession import org.apache.spark.sql.SparkSession object Main { def main(args: Array[String]): Unit = { val spark = DatabricksSession.builder().remote().getOrCreate() val df = spark.read.table("samples.nyctaxi.trips") df.limit(5).show() } }
Spusťte kód: Spusťte cílový cluster ve vzdáleném pracovním prostoru Azure Databricks.
Po spuštění clusteru v hlavní nabídce klikněte na Spustit > Spustit hlavní.
V okně nástroje Spustit (Zobrazit > Nástroj Windows > Spustit) na kartě Hlavní se zobrazí prvních 5 řádků tabulky
samples.nyctaxi.trips
. Veškerý kód Scala běží místně, zatímco veškerý kód Scala zahrnující operace datového rámce běží v clusteru ve vzdáleném pracovním prostoru Azure Databricks a odpovědi na spuštění se odešlou zpět místnímu volajícímu.Ladění kódu: Spusťte cílový cluster ve vzdáleném pracovním prostoru Azure Databricks, pokud ještě není spuštěný.
V předchozím kódu klikněte na okraj vedle
df.limit(5).show()
a nastavte bod přerušení.Po spuštění clusteru klikněte v hlavní nabídce na Spustit > ladit 'Main'.
V okně nástroje Ladění (Zobrazit > Nástroj Windows > Ladění), na kartě Konzola klikněte na ikonu kalkulačky (Vyhodnotit výraz).
Zadejte výraz
df.schema
a klikněte na Vyhodnotit, aby se zobrazilo schéma DataFrame.Na postranním panelu okna nástroje Ladění klikněte na ikonu zelené šipky (Resume Program).
V podokně konzoly se zobrazí prvních 5 řádků tabulky
samples.nyctaxi.trips
. Veškerý kód Scala běží místně, zatímco veškerý kód Scala zahrnující operace datového rámce běží v clusteru ve vzdáleném pracovním prostoru Azure Databricks a odpovědi na spuštění se odešlou zpět místnímu volajícímu.