Databricks Connect för R
Kommentar
Den här artikeln beskriver sparklyr
integrering med Databricks Connect för Databricks Runtime 13.0 och senare. Den här integreringen tillhandahålls varken av Databricks eller stöds direkt av Databricks.
För frågor går du till Posit Community.
Om du vill rapportera problem går du till avsnittet Problem på lagringsplatsen sparklyr
i GitHub.
Mer information finns i Databricks Connect v2 i dokumentationen sparklyr
.
Den här artikeln visar hur du snabbt kommer igång med Databricks Connect med hjälp av R, sparklyr
och RStudio Desktop.
- Python-versionen av den här artikeln finns i Databricks Connect för Python.
- Scala-versionen av den här artikeln finns i Databricks Connect för Scala.
Med Databricks Connect kan du ansluta populära IDE:er som RStudio Desktop, notebook-servrar och andra anpassade program till Azure Databricks-kluster. Se Vad är Databricks Connect?.
Självstudie
I den här självstudien används RStudio Desktop och Python 3.10. Om du inte redan har installerat dem installerar du R och RStudio Desktop och Python 3.10.
Ytterligare information om den här självstudien finns i avsnittet "Databricks Connect" i Spark Connect och Databricks Connect v2 på sparklyr
webbplatsen.
Krav
För att slutföra den här självstudien måste du uppfylla följande krav:
- Din Azure Databricks-målarbetsyta och ditt kluster måste uppfylla kraven för Beräkningskonfiguration för Databricks Connect.
- Du måste ha ditt kluster-ID tillgängligt. Om du vill hämta ditt kluster-ID klickar du på Beräkning i sidofältet i arbetsytan och klickar sedan på klustrets namn. Kopiera teckensträngen mellan
clusters
ochconfiguration
i URL:en i webbläsarens adressfält.
Steg 1: Skapa en personlig åtkomsttoken
Kommentar
Databricks Connect för R-autentisering stöder för närvarande endast personliga åtkomsttoken för Azure Databricks.
I den här självstudien används autentisering med personlig åtkomsttoken i Azure Databricks för autentisering med din Azure Databricks-arbetsyta.
Om du redan har en personlig åtkomsttoken för Azure Databricks går du vidare till Steg 2. Om du inte är säker på om du redan har en personlig åtkomsttoken för Azure Databricks kan du följa det här steget utan att påverka andra personliga Åtkomsttoken för Azure Databricks i ditt användarkonto.
Om du vill skapa en personlig åtkomsttoken följer du stegen i Personliga åtkomsttoken för Azure Databricks för arbetsyteanvändare.
Steg 2: Skapa projektet
- Starta RStudio Desktop.
- På huvudmenyn klickar du på Arkiv > Nytt projekt.
- Välj Ny katalog.
- Välj Nytt projekt.
- För Katalognamn och Skapa projekt som underkatalog för anger du den nya projektkatalogens namn och var du vill skapa den nya projektkatalogen.
- Välj Använd renv med det här projektet. Om du uppmanas att installera en uppdaterad version av
renv
paketet klickar du på Ja. - Klicka på Create Project (Skapa projekt).
Steg 3: Lägg till Databricks Connect-paketet och andra beroenden
På huvudmenyn för RStudio Desktop klickar du på Verktyg > Installera paket.
Låt Installera från inställd till Lagringsplats (CRAN).
För Paket anger du följande lista över paket som är nödvändiga för Databricks Connect-paketet och den här självstudien:
sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyr
Låt Installera till bibliotek vara inställt på din virtuella R-miljö.
Kontrollera att Installera beroenden är markerat.
Klicka på Installera.
När du uppmanas i konsolvyn (Visa Flytta fokus till konsolen) för att fortsätta med installationen anger du
Y
.> Paketensparklyr
ochpysparklyr
och deras beroenden installeras i din virtuella R-miljö.I konsolfönstret använder du
reticulate
för att installera Python genom att köra följande kommando. (Databricks Connect för R kräverreticulate
att Python installeras först.) I följande kommando ersätter du3.10
med huvudversionen och delversionen av Python-versionen som är installerad i ditt Azure Databricks-kluster. Information om hur du hittar den här huvudversionen och delversionen finns i avsnittet "Systemmiljö" i viktig information för ditt klusters Databricks Runtime-version i Databricks Runtime versionsanteckningar och kompatibilitet.reticulate::install_python(version = "3.10")
Installera Databricks Connect-paketet i konsolfönstret genom att köra följande kommando. I följande kommando ersätter du
13.3
med den Databricks Runtime-version som är installerad i ditt Azure Databricks-kluster. Om du vill hitta den här versionen går du till informationssidan för klustret på azure Databricks-arbetsytan på fliken Konfiguration i rutan Databricks Runtime-version.pysparklyr::install_databricks(version = "13.3")
Om du inte känner till Databricks Runtime-versionen för klustret eller om du inte vill söka efter det kan du köra följande kommando i stället och
pysparklyr
fråga klustret för att fastställa rätt Databricks Runtime-version som ska användas:pysparklyr::install_databricks(cluster_id = "<cluster-id>")
Om du vill att projektet ska ansluta senare till ett annat kluster som har samma Databricks Runtime-version än den som du precis angav använder
pysparklyr
du samma Python-miljö. Om det nya klustret har en annan Databricks Runtime-version bör du körapysparklyr::install_databricks
kommandot igen med den nya Databricks Runtime-versionen eller kluster-ID:t.
Steg 4: Ange miljövariabler för arbetsytans URL, åtkomsttoken och kluster-ID
Databricks rekommenderar inte att du hårdkodar känsliga eller ändrade värden, till exempel url:en för din Azure Databricks-arbetsyta, Azure Databricks personliga åtkomsttoken eller Azure Databricks-kluster-ID i dina R-skript. Lagra i stället dessa värden separat, till exempel i lokala miljövariabler. I den här självstudien används RStudio Desktops inbyggda stöd för att lagra miljövariabler i en .Renviron
fil.
Skapa en
.Renviron
fil för att lagra miljövariablerna, om den här filen inte redan finns och öppna sedan filen för redigering: Kör följande kommando i RStudio Desktop Console:usethis::edit_r_environ()
.Renviron
I filen som visas (Visa > Flytta fokus till källa) anger du följande innehåll. Ersätt följande platshållare i det här innehållet:- Ersätt
<workspace-url>
med url:en per arbetsyta, till exempelhttps://adb-1234567890123456.7.azuredatabricks.net
. - Ersätt
<personal-access-token>
med din personliga åtkomsttoken för Azure Databricks från steg 1. - Ersätt
<cluster-id>
med ditt kluster-ID från den här självstudiekursens krav.
DATABRICKS_HOST=<workspace-url> DATABRICKS_TOKEN=<personal-access-token> DATABRICKS_CLUSTER_ID=<cluster-id>
- Ersätt
Spara filen
.Renviron
.Läs in miljövariablerna i R: På huvudmenyn klickar du på Starta om session > R.
Steg 5: Lägg till kod
På huvudmenyn för RStudio Desktop klickar du på Arkiv Nytt fil R-skript>.>
Ange följande kod i filen och spara sedan filen (Spara fil>) som
demo.R
:library(sparklyr) library(dplyr) library(dbplyr) sc <- sparklyr::spark_connect( master = Sys.getenv("DATABRICKS_HOST"), cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"), token = Sys.getenv("DATABRICKS_TOKEN"), method = "databricks_connect", envname = "r-reticulate" ) trips <- dplyr::tbl( sc, dbplyr::in_catalog("samples", "nyctaxi", "trips") ) print(trips, n = 5)
Steg 6: Kör koden
Klicka på Källa i verktygsfältet
demo.R
för filen i RStudio Desktop.I konsolen visas de första fem raderna i
trips
tabellen.I vyn Anslutningar (Visa > Visa anslutningar) kan du utforska tillgängliga kataloger, scheman, tabeller och vyer.
Steg 7: Felsöka koden
demo.R
I filen klickar du på rännstenen bredvid för attprint(trips, n = 5)
ange en brytpunkt.- I verktygsfältet
demo.R
för filen klickar du på Källa. - När koden pausar körningen vid brytpunkten kan du granska variabeln i miljövyn (Visa visa > miljö).
- På huvudmenyn klickar du på Felsöka > Fortsätt.
- I konsolen visas de första fem raderna i
trips
tabellen.