Używanie środowiska IntelliJ IDEA z usługą Databricks Połączenie dla języka Scala
Uwaga
W tym artykule opisano usługę Databricks Połączenie dla środowiska Databricks Runtime 13.3 LTS i nowszych wersji.
W tym artykule opisano sposób używania usługi Databricks Połączenie dla języka Scala i środowiska IntelliJ IDEA z wtyczką Scala. Usługa Databricks Połączenie umożliwia łączenie popularnych środowisk IDE, serwerów notesów i innych aplikacji niestandardowych z klastrami usługi Azure Databricks. Zobacz Co to jest usługa Databricks Połączenie?.
Uwaga
Przed rozpoczęciem korzystania z usługi Databricks Połączenie należy skonfigurować klienta usługi Databricks Połączenie.
Aby użyć usługi Databricks Połączenie i środowiska IntelliJ IDEA z wtyczką Scala w celu utworzenia, uruchomienia i debugowania przykładowego projektu Scalasbt
, postępuj zgodnie z tymi instrukcjami. Te instrukcje zostały przetestowane w środowisku IntelliJ IDEA Community Edition 2023.3.6. Jeśli używasz innej wersji lub wydania środowiska IntelliJ IDEA, poniższe instrukcje mogą się różnić.
Upewnij się, że zestaw Java Development Kit (JDK) jest zainstalowany lokalnie. Usługa Databricks zaleca, aby lokalna wersja zestawu JDK odpowiadała wersji zestawu JDK w klastrze usługi Azure Databricks.
Uruchom środowisko IntelliJ IDEA.
Kliknij pozycję Plik > nowy > projekt.
Nadaj projektowi znaczącą nazwę.
W obszarze Lokalizacja kliknij ikonę folderu i ukończ wskazówki na ekranie, aby określić ścieżkę do nowego projektu Scala.
W obszarze Język kliknij pozycję Scala.
W obszarze System kompilacji kliknij pozycję sbt.
Z listy rozwijanej zestaw JDK wybierz istniejącą instalację zestawu JDK na maszynie dewelopera zgodnej z wersją zestawu JDK w klastrze lub wybierz pozycję Pobierz zestaw JDK i postępuj zgodnie z instrukcjami wyświetlanymi na ekranie, aby pobrać zestaw JDK zgodny z wersją zestawu JDK w klastrze.
Uwaga
Wybranie instalacji zestawu JDK, która znajduje się powyżej lub poniżej wersji zestawu JDK w klastrze, może spowodować nieoczekiwane wyniki lub kod może w ogóle nie działać.
Z listy rozwijanej sbt wybierz najnowszą wersję.
Z listy rozwijanej Scala wybierz wersję języka Scala zgodną z wersją języka Scala w klastrze.
Uwaga
Wybranie wersji języka Scala poniżej lub nowszej wersji języka Scala w klastrze może spowodować nieoczekiwane wyniki lub kod może w ogóle nie działać.
W polu Prefiks pakietu wprowadź wartość prefiksu pakietu dla źródeł projektu, na przykład
org.example.application
.Upewnij się, że pole Dodaj przykładowy kod jest zaznaczone.
Kliknij pozycję Utwórz.
Dodaj pakiet Połączenie usługi Databricks: po otwarciu nowego projektu Scala w oknie narzędzia Project (Wyświetl > narzędzie > Windows Project) otwórz plik o nazwie
build.sbt
, w obiekcie docelowym nazwy> projektu.Dodaj następujący kod na końcu
build.sbt
pliku, który deklaruje zależność projektu od określonej wersji biblioteki usługi Databricks Połączenie dla języka Scala:libraryDependencies += "com.databricks" % "databricks-connect" % "14.3.1"
Zastąp
14.3.1
element wersją biblioteki usługi Databricks Połączenie zgodną z wersją środowiska Databricks Runtime w klastrze. Numery wersji biblioteki usługi Databricks Połączenie można znaleźć w centralnym repozytorium Maven.Kliknij ikonę powiadomienia Załaduj zmiany sbt , aby zaktualizować projekt Scala przy użyciu nowej lokalizacji biblioteki i zależności.
Poczekaj,
sbt
aż wskaźnik postępu w dolnej części środowiska IDE zniknie. Processbt
ładowania może potrwać kilka minut.Dodaj kod: w oknie narzędzia project otwórz plik o nazwie
Main.scala
, w głównej > scala src > nazwy> projektu.Zastąp istniejący kod w pliku następującym kodem, a następnie zapisz plik:
package org.example.application import com.databricks.connect.DatabricksSession import org.apache.spark.sql.SparkSession object Main { def main(args: Array[String]): Unit = { val spark = DatabricksSession.builder().remote().getOrCreate() val df = spark.read.table("samples.nyctaxi.trips") df.limit(5).show() } }
Uruchom kod: uruchom klaster docelowy w zdalnym obszarze roboczym usługi Azure Databricks.
Po uruchomieniu klastra w menu głównym kliknij pozycję Uruchom > polecenie "Main".
W oknie Uruchom narzędzie (Wyświetl > narzędzie > Windows Run) na karcie Main (Główne) zostanie wyświetlonych pierwszych 5 wierszy
samples.nyctaxi.trips
tabeli. Cały kod Scala działa lokalnie, podczas gdy cały kod Scala obejmujący operacje ramki danych jest uruchamiany w klastrze w zdalnym obszarze roboczym usługi Azure Databricks i uruchamiane odpowiedzi są wysyłane z powrotem do lokalnego obiektu wywołującego.Debuguj kod: uruchom klaster docelowy w zdalnym obszarze roboczym usługi Azure Databricks, jeśli jeszcze nie jest uruchomiony.
W poprzednim kodzie kliknij gutter obok, aby ustawić
df.limit(5).show()
punkt przerwania.Po uruchomieniu klastra w menu głównym kliknij pozycję Uruchom > debugowanie "Main".
W oknie narzędzia Debugowanie (Wyświetl > narzędzie Debugowanie systemu Windows>) na karcie Konsola kliknij ikonę kalkulatora (Oceń wyrażenie).
Wprowadź wyrażenie
df.schema
i kliknij przycisk Oceń , aby wyświetlić schemat ramki danych.Na pasku bocznym okna narzędzia debugowania kliknij ikonę zielonej strzałki (wznów program).
W okienku Konsola zostanie wyświetlonych pierwszych 5 wierszy
samples.nyctaxi.trips
tabeli. Cały kod Scala działa lokalnie, podczas gdy cały kod Scala obejmujący operacje ramki danych jest uruchamiany w klastrze w zdalnym obszarze roboczym usługi Azure Databricks i uruchamiane odpowiedzi są wysyłane z powrotem do lokalnego obiektu wywołującego.