Databricks Connect voor R
Notitie
In dit artikel wordt de integratie behandeld sparklyr
met Databricks Connect voor Databricks Runtime 13.0 en hoger. Deze integratie wordt niet geleverd door Databricks en wordt niet rechtstreeks ondersteund door Databricks.
Ga naar de Posit Community voor vragen.
Als u problemen wilt melden, gaat u naar de sectie Problemen van de sparklyr
opslagplaats in GitHub.
Zie Databricks Connect v2 in de sparklyr
documentatie voor meer informatie.
In dit artikel wordt gedemonstreerd hoe u snel aan de slag kunt met Databricks Connect met behulp van R, sparklyr
en RStudio Desktop.
- Zie Databricks Connect voor Python voor de Python-versie van dit artikel.
- Zie Databricks Connect voor Scala voor de Scala-versie van dit artikel.
Met Databricks Connect kunt u populaire IDE's, zoals RStudio Desktop, notebookservers en andere aangepaste toepassingen, verbinden met Azure Databricks-clusters. Zie Wat is Databricks Connect?
Zelfstudie
In deze zelfstudie wordt gebruikgemaakt van RStudio Desktop en Python 3.10. Als u deze nog niet hebt geïnstalleerd, installeert u R en RStudio Desktop en Python 3.10.
Zie de sectie 'Databricks Connect' van Spark Connect en Databricks Connect v2 op de sparklyr
website voor aanvullende informatie over deze zelfstudie.
Vereisten
Als u deze zelfstudie wilt voltooien, moet u aan de volgende vereisten voldoen:
- Uw Azure Databricks-doelwerkruimte en -cluster moeten voldoen aan de vereisten voor de compute-configuratie voor Databricks Connect.
- U moet de cluster-id beschikbaar hebben. Als u de cluster-id wilt ophalen, klikt u in uw werkruimte op Compute op de zijbalk en vervolgens op de naam van het cluster. Kopieer in de adresbalk van uw webbrowser de tekenreeks tussen
clusters
enconfiguration
in de URL.
Stap 1: Een persoonlijk toegangstoken maken
Notitie
Databricks Connect voor R-verificatie ondersteunt momenteel alleen persoonlijke toegangstokens van Azure Databricks.
In deze zelfstudie wordt gebruikgemaakt van persoonlijke toegangstokenverificatie van Azure Databricks voor verificatie met uw Azure Databricks-werkruimte.
Als u al een persoonlijk toegangstoken van Azure Databricks hebt, gaat u verder met stap 2. Als u niet zeker weet of u al een persoonlijk toegangstoken van Azure Databricks hebt, kunt u deze stap volgen zonder dat dit van invloed is op andere persoonlijke toegangstokens van Azure Databricks in uw gebruikersaccount.
Als u een persoonlijk toegangstoken wilt maken, volgt u de stappen in persoonlijke toegangstokens van Azure Databricks voor werkruimtegebruikers.
Stap 2: Het project maken
- Start RStudio Desktop.
- Klik in het hoofdmenu op Bestand > nieuw project.
- Selecteer Nieuwe map.
- Selecteer Nieuw project.
- Voer voor mapnaam en project maken als submap van de nieuwe projectmap de naam in en waar u deze nieuwe projectmap wilt maken.
- Selecteer Renv gebruiken met dit project. Als u wordt gevraagd een bijgewerkte versie van het
renv
pakket te installeren, klikt u op Ja. - Klik op Project maken.
Stap 3: Het Databricks Connect-pakket en andere afhankelijkheden toevoegen
Klik in het hoofdmenu van RStudio Desktop op Tools > Install Packages.
Laat Installeren ingesteld op Opslagplaats (CRAN).
Voer voor Pakketten de volgende lijst in met pakketten die vereisten zijn voor het Databricks Connect-pakket en deze zelfstudie:
sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyr
Laat Install to Library ingesteld op uw virtuele R-omgeving.
Zorg ervoor dat Afhankelijkheden installeren is geselecteerd.
Klik op Install.
Wanneer u wordt gevraagd in de consoleweergave (Focus verplaatsen naar console weergeven) om door te gaan met de installatie, voert u het volgende in.>
Y
Desparklyr
enpysparklyr
pakketten en de bijbehorende afhankelijkheden worden geïnstalleerd in uw virtuele R-omgeving.Gebruik in het
reticulate
python te installeren door de volgende opdracht uit te voeren. (Databricks Connect voor R vereist datreticulate
Python eerst wordt geïnstalleerd.) Vervang in de volgende opdracht door3.10
de primaire en secundaire versie van de Python-versie die is geïnstalleerd op uw Azure Databricks-cluster. Als u deze primaire en secundaire versie wilt vinden, raadpleegt u de sectie Systeemomgeving van de releaseopmerkingen voor de Databricks Runtime-versie van uw cluster in de releaseversies en compatibiliteit van Databricks Runtime.reticulate::install_python(version = "3.10")
Installeer in het consoledeelvenster het Databricks Connect-pakket door de volgende opdracht uit te voeren. Vervang in de volgende opdracht door
13.3
de Databricks Runtime-versie die is geïnstalleerd op uw Azure Databricks-cluster. Als u deze versie wilt vinden, raadpleegt u op de detailpagina van uw cluster in uw Azure Databricks-werkruimte op het tabblad Configuratie het vak Databricks Runtime-versie .pysparklyr::install_databricks(version = "13.3")
Als u de Databricks Runtime-versie voor uw cluster niet kent of als u deze niet wilt opzoeken, kunt u in plaats daarvan de volgende opdracht uitvoeren en
pysparklyr
het cluster opvragen om de juiste Databricks Runtime-versie te bepalen die u wilt gebruiken:pysparklyr::install_databricks(cluster_id = "<cluster-id>")
Als u wilt dat uw project later verbinding maakt met een ander cluster met dezelfde Databricks Runtime-versie dan de versie die u zojuist hebt opgegeven,
pysparklyr
gebruikt u dezelfde Python-omgeving. Als het nieuwe cluster een andere Versie van Databricks Runtime heeft, moet u depysparklyr::install_databricks
opdracht opnieuw uitvoeren met de nieuwe Versie of cluster-id van Databricks Runtime.
Stap 4: Omgevingsvariabelen instellen voor de URL van de werkruimte, het toegangstoken en de cluster-id
Databricks raadt u niet aan om gevoelige waarden in code vast te stellen of te wijzigen, zoals de URL van uw Azure Databricks-werkruimte, het persoonlijke toegangstoken van Azure Databricks of de azure Databricks-cluster-id in uw R-scripts. Sla deze waarden in plaats daarvan afzonderlijk op, bijvoorbeeld in lokale omgevingsvariabelen. In deze zelfstudie wordt gebruikgemaakt van de ingebouwde ondersteuning van RStudio Desktop voor het opslaan van omgevingsvariabelen in een .Renviron
bestand.
Maak een
.Renviron
bestand om de omgevingsvariabelen op te slaan, als dit bestand nog niet bestaat en open dit bestand om te bewerken: voer in de RStudio Desktop-console de volgende opdracht uit:usethis::edit_r_environ()
Voer in het
.Renviron
bestand dat wordt weergegeven (> weergeven) de volgende inhoud in. Vervang in deze inhoud de volgende tijdelijke aanduidingen:- Vervang
<workspace-url>
bijvoorbeeld door uw URLhttps://adb-1234567890123456.7.azuredatabricks.net
per werkruimte. - Vervang
<personal-access-token>
dit door uw persoonlijke toegangstoken van Azure Databricks uit stap 1. - Vervang
<cluster-id>
door uw cluster-id uit de vereisten van deze zelfstudie.
DATABRICKS_HOST=<workspace-url> DATABRICKS_TOKEN=<personal-access-token> DATABRICKS_CLUSTER_ID=<cluster-id>
- Vervang
Sla het bestand
.Renviron
op.Laad de omgevingsvariabelen in R: klik in het hoofdmenu op Sessie > opnieuw opstarten R.
Stap 5: Code toevoegen
Klik in het hoofdmenu van RStudio Desktop op >>.
Voer de volgende code in het bestand in en sla het bestand op (Bestand > opslaan) als
demo.R
:library(sparklyr) library(dplyr) library(dbplyr) sc <- sparklyr::spark_connect( master = Sys.getenv("DATABRICKS_HOST"), cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"), token = Sys.getenv("DATABRICKS_TOKEN"), method = "databricks_connect", envname = "r-reticulate" ) trips <- dplyr::tbl( sc, dbplyr::in_catalog("samples", "nyctaxi", "trips") ) print(trips, n = 5)
Stap 6: De code uitvoeren
Klik op de werkbalk voor het
demo.R
bestand op Bron op RStudio Desktop.In de console worden de eerste vijf rijen van de
trips
tabel weergegeven.In de weergave Verbindingen (Weergave > Verbindingen weergeven) kunt u beschikbare catalogi, schema's, tabellen en weergaven verkennen.
Stap 7: Fouten opsporen in de code
- Klik in het
demo.R
bestand op de rugmarge naast omprint(trips, n = 5)
een onderbrekingspunt in te stellen. - Klik in de werkbalk voor het
demo.R
bestand op Bron. - Wanneer de code wordt onderbroken op het onderbrekingspunt, kunt u de variabele controleren in de omgevingsweergave (> weergeven).
- Klik in het hoofdmenu op > foutopsporing.
- In de console worden de eerste vijf rijen van de
trips
tabel weergegeven.