Databricks Connect dla języka R
Uwaga
W tym artykule opisano sparklyr
integrację z usługą Databricks Connect dla środowiska Databricks Runtime w wersji 13.0 lub nowszej. Ta integracja nie jest dostarczana przez usługę Databricks ani bezpośrednio obsługiwana przez usługę Databricks.
W przypadku pytań przejdź do społeczności Posit.
Aby zgłosić problemy, przejdź do sekcji sparklyr
Problemy repozytorium w usłudze GitHub.
Aby uzyskać więcej informacji, zobacz Databricks Connect v2 w sparklyr
dokumentacji.
W tym artykule pokazano, jak szybko rozpocząć pracę z usługą Databricks Connect przy użyciu języków R, sparklyr
i RStudio Desktop.
- Aby zapoznać się z wersją języka Python tego artykułu, zobacz Databricks Connect dla języka Python.
- Aby zapoznać się z wersją języka Scala tego artykułu, zobacz Databricks Connect for Scala.
Usługa Databricks Connect umożliwia łączenie popularnych środowisk IDE, takich jak RStudio Desktop, serwery notesów i inne aplikacje niestandardowe z klastrami usługi Azure Databricks. Zobacz Co to jest usługa Databricks Connect?.
Samouczek
W tym samouczku są używane programy RStudio Desktop i Python 3.10. Jeśli jeszcze ich nie zainstalowano, zainstaluj programy R i RStudio Desktop i Python 3.10.
Aby uzyskać dodatkowe informacje na temat tego samouczka, zobacz sekcję "Databricks Connect" w temacie Spark Connect i Databricks Connect v2 w witrynie sparklyr
internetowej.
Wymagania
Aby ukończyć ten samouczek, musisz spełnić następujące wymagania:
- Docelowy obszar roboczy i klaster usługi Azure Databricks muszą spełniać wymagania konfiguracji obliczeniowej dla usługi Databricks Connect.
- Musisz mieć dostępny identyfikator klastra. Aby uzyskać identyfikator klastra, w obszarze roboczym kliknij pozycję Obliczenia na pasku bocznym, a następnie kliknij nazwę klastra. Na pasku adresu przeglądarki internetowej skopiuj ciąg znaków między
clusters
iconfiguration
w adresie URL.
Krok 1. Tworzenie osobistego tokenu dostępu
Uwaga
Usługa Databricks Connect na potrzeby uwierzytelniania języka R obecnie obsługuje tylko osobiste tokeny dostępu usługi Azure Databricks.
W tym samouczku używane jest uwierzytelnianie osobistego tokenu dostępu usługi Azure Databricks do uwierzytelniania w obszarze roboczym usługi Azure Databricks.
Jeśli masz już osobisty token dostępu usługi Azure Databricks, przejdź do kroku 2. Jeśli nie masz już osobistego tokenu dostępu usługi Azure Databricks, możesz wykonać ten krok bez wpływu na inne osobiste tokeny dostępu usługi Azure Databricks na koncie użytkownika.
Aby utworzyć osobisty token dostępu, wykonaj kroki opisane w artykule Osobiste tokeny dostępu usługi Azure Databricks dla użytkowników obszaru roboczego.
Krok 2. Tworzenie projektu
- Uruchom program RStudio Desktop.
- W menu głównym kliknij pozycję Plik > nowy projekt.
- Wybierz pozycję Nowy katalog.
- Wybierz pozycję Nowy projekt.
- W obszarze Nazwa katalogu i Utwórz projekt jako podkatalog wprowadź nazwę nowego katalogu projektu i miejsce utworzenia nowego katalogu projektu.
- Wybierz pozycję Użyj ponownego odwzorowania z tym projektem. Jeśli zostanie wyświetlony monit o zainstalowanie zaktualizowanej
renv
wersji pakietu, kliknij przycisk Tak. - Kliknij pozycję Create Project (Utwórz projekt).
Krok 3. Dodawanie pakietu Databricks Connect i innych zależności
W menu głównym programu RStudio Desktop kliknij pozycję Narzędzia > Zainstaluj pakiety.
Pozostaw opcję Zainstaluj z zestawu na wartość Repository (CRAN).
W obszarze Pakiety wprowadź następującą listę pakietów, które są wymaganiami wstępnymi dla pakietu Databricks Connect i w tym samouczku:
sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyr
Pozostaw opcję Zainstaluj w bibliotece ustawioną na środowisko wirtualne języka R.
Upewnij się, że wybrano opcję Zainstaluj zależności .
Kliknij przycisk Zainstaluj.
Po wyświetleniu monitu w widoku Konsoli (Wyświetl > przenieś fokus do konsoli), aby kontynuować instalację, wprowadź .
Y
Pakietysparklyr
ipysparklyr
i oraz ich zależności są instalowane w środowisku wirtualnym języka R.W okienku Konsola użyj polecenia
reticulate
, aby zainstalować język Python, uruchamiając następujące polecenie. (Program Databricks Connect dla języka R wymagareticulate
, aby język Python był instalowany jako pierwszy). W poniższym poleceniu zastąp3.10
wersję główną i pomocniczą wersji języka Python zainstalowaną w klastrze usługi Azure Databricks. Aby znaleźć tę wersję główną i pomocniczą, zobacz sekcję "Środowisko systemowe" informacji o wersji środowiska Databricks Runtime klastra w wersjach i zgodności środowiska Databricks Runtime.reticulate::install_python(version = "3.10")
W okienku Konsola zainstaluj pakiet Databricks Connect, uruchamiając następujące polecenie. W poniższym poleceniu zastąp element
13.3
wersją środowiska Databricks Runtime zainstalowaną w klastrze usługi Azure Databricks. Aby znaleźć tę wersję, na stronie szczegółów klastra w obszarze roboczym usługi Azure Databricks na karcie Konfiguracja zobacz pole Wersja środowiska uruchomieniowego usługi Databricks.pysparklyr::install_databricks(version = "13.3")
Jeśli nie znasz wersji środowiska Databricks Runtime dla klastra lub nie chcesz go wyszukać, możesz zamiast tego uruchomić następujące polecenie i
pysparklyr
wykona zapytanie względem klastra, aby określić poprawną wersję środowiska Databricks Runtime do użycia:pysparklyr::install_databricks(cluster_id = "<cluster-id>")
Jeśli chcesz, aby projekt łączył się później z innym klastrem, który ma tę samą wersję środowiska Databricks Runtime niż określona przez Ciebie,
pysparklyr
będzie używać tego samego środowiska języka Python. Jeśli nowy klaster ma inną wersję środowiska Databricks Runtime, należy ponownie uruchomićpysparklyr::install_databricks
polecenie z nową wersją środowiska Databricks Runtime lub identyfikatorem klastra.
Krok 4. Ustawianie zmiennych środowiskowych dla adresu URL obszaru roboczego, tokenu dostępu i identyfikatora klastra
Usługa Databricks nie zaleca kodowania poufnych lub zmieniających się wartości, takich jak adres URL obszaru roboczego usługi Azure Databricks, osobisty token dostępu usługi Azure Databricks lub identyfikator klastra usługi Azure Databricks do skryptów języka R. Zamiast tego należy przechowywać te wartości oddzielnie, na przykład w lokalnych zmiennych środowiskowych. W tym samouczku jest używana wbudowana obsługa programu RStudio Desktop do przechowywania zmiennych środowiskowych w .Renviron
pliku.
.Renviron
Utwórz plik do przechowywania zmiennych środowiskowych, jeśli ten plik jeszcze nie istnieje, a następnie otwórz ten plik do edycji: w konsoli programu RStudio Desktop uruchom następujące polecenie:usethis::edit_r_environ()
W wyświetlonym
.Renviron
pliku (Wyświetl > przenieś fokus do źródła) wprowadź następującą zawartość. W tej zawartości zastąp następujące symbole zastępcze:- Zastąp
<workspace-url>
ciąg adresem URL obszaru roboczego, na przykładhttps://adb-1234567890123456.7.azuredatabricks.net
. - Zastąp
<personal-access-token>
element osobistym tokenem dostępu usługi Azure Databricks z kroku 1. - Zastąp
<cluster-id>
element identyfikatorem klastra z wymagań tego samouczka.
DATABRICKS_HOST=<workspace-url> DATABRICKS_TOKEN=<personal-access-token> DATABRICKS_CLUSTER_ID=<cluster-id>
- Zastąp
Zapisz plik
.Renviron
.Załaduj zmienne środowiskowe do języka R: w menu głównym kliknij pozycję Uruchom ponownie sesję > języka R.
Krok 5. Dodawanie kodu
W menu głównym programu RStudio Desktop kliknij pozycję Plik > nowy plik > R Script.
Wprowadź następujący kod w pliku, a następnie zapisz plik (Zapisz plik>) jako
demo.R
:library(sparklyr) library(dplyr) library(dbplyr) sc <- sparklyr::spark_connect( master = Sys.getenv("DATABRICKS_HOST"), cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"), token = Sys.getenv("DATABRICKS_TOKEN"), method = "databricks_connect", envname = "r-reticulate" ) trips <- dplyr::tbl( sc, dbplyr::in_catalog("samples", "nyctaxi", "trips") ) print(trips, n = 5)
Krok 6. Uruchamianie kodu
Na pulpicie programu RStudio na pasku narzędzi pliku
demo.R
kliknij pozycję Źródło.W konsoli pojawi się pięć pierwszych wierszy
trips
tabeli.W widoku Połączenia (Wyświetl > pokaż połączenia) możesz eksplorować dostępne wykazy, schematy, tabele i widoki.
Krok 7. Debugowanie kodu
demo.R
W pliku kliknij gutter obok, aby ustawićprint(trips, n = 5)
punkt przerwania.- Na pasku narzędzi
demo.R
pliku kliknij pozycję Źródło. - Gdy kod wstrzymuje działanie w punkcie przerwania, możesz sprawdzić zmienną w widoku Środowisko (Wyświetl > pokaż środowisko).
- W menu głównym kliknij pozycję Debuguj > kontynuuj.
- W konsoli pojawi się pięć pierwszych wierszy
trips
tabeli.