Udostępnij za pośrednictwem


Databricks Connect dla języka R

Uwaga

W tym artykule opisano sparklyr integrację z usługą Databricks Connect dla środowiska Databricks Runtime w wersji 13.0 lub nowszej. Ta integracja nie jest dostarczana przez usługę Databricks ani bezpośrednio obsługiwana przez usługę Databricks.

W przypadku pytań przejdź do społeczności Posit.

Aby zgłosić problemy, przejdź do sekcji sparklyr Problemy repozytorium w usłudze GitHub.

Aby uzyskać więcej informacji, zobacz Databricks Connect v2 w sparklyr dokumentacji.

W tym artykule pokazano, jak szybko rozpocząć pracę z usługą Databricks Connect przy użyciu języków R, sparklyri RStudio Desktop.

Usługa Databricks Connect umożliwia łączenie popularnych środowisk IDE, takich jak RStudio Desktop, serwery notesów i inne aplikacje niestandardowe z klastrami usługi Azure Databricks. Zobacz Co to jest usługa Databricks Connect?.

Samouczek

W tym samouczku są używane programy RStudio Desktop i Python 3.10. Jeśli jeszcze ich nie zainstalowano, zainstaluj programy R i RStudio Desktop i Python 3.10.

Aby uzyskać dodatkowe informacje na temat tego samouczka, zobacz sekcję "Databricks Connect" w temacie Spark Connect i Databricks Connect v2 w witrynie sparklyr internetowej.

Wymagania

Aby ukończyć ten samouczek, musisz spełnić następujące wymagania:

  • Docelowy obszar roboczy i klaster usługi Azure Databricks muszą spełniać wymagania konfiguracji obliczeniowej dla usługi Databricks Connect.
  • Musisz mieć dostępny identyfikator klastra. Aby uzyskać identyfikator klastra, w obszarze roboczym kliknij pozycję Obliczenia na pasku bocznym, a następnie kliknij nazwę klastra. Na pasku adresu przeglądarki internetowej skopiuj ciąg znaków między clusters i configuration w adresie URL.

Krok 1. Tworzenie osobistego tokenu dostępu

Uwaga

Usługa Databricks Connect na potrzeby uwierzytelniania języka R obecnie obsługuje tylko osobiste tokeny dostępu usługi Azure Databricks.

W tym samouczku używane jest uwierzytelnianie osobistego tokenu dostępu usługi Azure Databricks do uwierzytelniania w obszarze roboczym usługi Azure Databricks.

Jeśli masz już osobisty token dostępu usługi Azure Databricks, przejdź do kroku 2. Jeśli nie masz już osobistego tokenu dostępu usługi Azure Databricks, możesz wykonać ten krok bez wpływu na inne osobiste tokeny dostępu usługi Azure Databricks na koncie użytkownika.

Aby utworzyć osobisty token dostępu, wykonaj kroki opisane w artykule Osobiste tokeny dostępu usługi Azure Databricks dla użytkowników obszaru roboczego.

Krok 2. Tworzenie projektu

  1. Uruchom program RStudio Desktop.
  2. W menu głównym kliknij pozycję Plik > nowy projekt.
  3. Wybierz pozycję Nowy katalog.
  4. Wybierz pozycję Nowy projekt.
  5. W obszarze Nazwa katalogu i Utwórz projekt jako podkatalog wprowadź nazwę nowego katalogu projektu i miejsce utworzenia nowego katalogu projektu.
  6. Wybierz pozycję Użyj ponownego odwzorowania z tym projektem. Jeśli zostanie wyświetlony monit o zainstalowanie zaktualizowanej renv wersji pakietu, kliknij przycisk Tak.
  7. Kliknij pozycję Create Project (Utwórz projekt).

Tworzenie projektu programu RStudio Desktop

Krok 3. Dodawanie pakietu Databricks Connect i innych zależności

  1. W menu głównym programu RStudio Desktop kliknij pozycję Narzędzia > Zainstaluj pakiety.

  2. Pozostaw opcję Zainstaluj z zestawu na wartość Repository (CRAN).

  3. W obszarze Pakiety wprowadź następującą listę pakietów, które są wymaganiami wstępnymi dla pakietu Databricks Connect i w tym samouczku:

    sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyr
    
  4. Pozostaw opcję Zainstaluj w bibliotece ustawioną na środowisko wirtualne języka R.

  5. Upewnij się, że wybrano opcję Zainstaluj zależności .

  6. Kliknij przycisk Zainstaluj.

Instalowanie zależności pakietów usługi Databricks Connect

  1. Po wyświetleniu monitu w widoku Konsoli (Wyświetl > przenieś fokus do konsoli), aby kontynuować instalację, wprowadź .Y Pakiety sparklyr i pysparklyr i oraz ich zależności są instalowane w środowisku wirtualnym języka R.

  2. W okienku Konsola użyj polecenia reticulate , aby zainstalować język Python, uruchamiając następujące polecenie. (Program Databricks Connect dla języka R wymaga reticulate , aby język Python był instalowany jako pierwszy). W poniższym poleceniu zastąp 3.10 wersję główną i pomocniczą wersji języka Python zainstalowaną w klastrze usługi Azure Databricks. Aby znaleźć tę wersję główną i pomocniczą, zobacz sekcję "Środowisko systemowe" informacji o wersji środowiska Databricks Runtime klastra w wersjach i zgodności środowiska Databricks Runtime.

    reticulate::install_python(version = "3.10")
    
  3. W okienku Konsola zainstaluj pakiet Databricks Connect, uruchamiając następujące polecenie. W poniższym poleceniu zastąp element 13.3 wersją środowiska Databricks Runtime zainstalowaną w klastrze usługi Azure Databricks. Aby znaleźć tę wersję, na stronie szczegółów klastra w obszarze roboczym usługi Azure Databricks na karcie Konfiguracja zobacz pole Wersja środowiska uruchomieniowego usługi Databricks.

    pysparklyr::install_databricks(version = "13.3")
    

    Jeśli nie znasz wersji środowiska Databricks Runtime dla klastra lub nie chcesz go wyszukać, możesz zamiast tego uruchomić następujące polecenie i pysparklyr wykona zapytanie względem klastra, aby określić poprawną wersję środowiska Databricks Runtime do użycia:

    pysparklyr::install_databricks(cluster_id = "<cluster-id>")
    

    Jeśli chcesz, aby projekt łączył się później z innym klastrem, który ma tę samą wersję środowiska Databricks Runtime niż określona przez Ciebie, pysparklyr będzie używać tego samego środowiska języka Python. Jeśli nowy klaster ma inną wersję środowiska Databricks Runtime, należy ponownie uruchomić pysparklyr::install_databricks polecenie z nową wersją środowiska Databricks Runtime lub identyfikatorem klastra.

Krok 4. Ustawianie zmiennych środowiskowych dla adresu URL obszaru roboczego, tokenu dostępu i identyfikatora klastra

Usługa Databricks nie zaleca kodowania poufnych lub zmieniających się wartości, takich jak adres URL obszaru roboczego usługi Azure Databricks, osobisty token dostępu usługi Azure Databricks lub identyfikator klastra usługi Azure Databricks do skryptów języka R. Zamiast tego należy przechowywać te wartości oddzielnie, na przykład w lokalnych zmiennych środowiskowych. W tym samouczku jest używana wbudowana obsługa programu RStudio Desktop do przechowywania zmiennych środowiskowych w .Renviron pliku.

  1. .Renviron Utwórz plik do przechowywania zmiennych środowiskowych, jeśli ten plik jeszcze nie istnieje, a następnie otwórz ten plik do edycji: w konsoli programu RStudio Desktop uruchom następujące polecenie:

    usethis::edit_r_environ()
    
  2. W wyświetlonym .Renviron pliku (Wyświetl > przenieś fokus do źródła) wprowadź następującą zawartość. W tej zawartości zastąp następujące symbole zastępcze:

    • Zastąp <workspace-url> ciąg adresem URL obszaru roboczego, na przykład https://adb-1234567890123456.7.azuredatabricks.net.
    • Zastąp <personal-access-token> element osobistym tokenem dostępu usługi Azure Databricks z kroku 1.
    • Zastąp <cluster-id> element identyfikatorem klastra z wymagań tego samouczka.
    DATABRICKS_HOST=<workspace-url>
    DATABRICKS_TOKEN=<personal-access-token>
    DATABRICKS_CLUSTER_ID=<cluster-id>
    
  3. Zapisz plik .Renviron.

  4. Załaduj zmienne środowiskowe do języka R: w menu głównym kliknij pozycję Uruchom ponownie sesję > języka R.

Ustawianie zmiennych środowiskowych dla usługi Databricks Connect

Krok 5. Dodawanie kodu

  1. W menu głównym programu RStudio Desktop kliknij pozycję Plik > nowy plik > R Script.

  2. Wprowadź następujący kod w pliku, a następnie zapisz plik (Zapisz plik>) jako demo.R:

    library(sparklyr)
    library(dplyr)
    library(dbplyr)
    
    sc <- sparklyr::spark_connect(
      master     = Sys.getenv("DATABRICKS_HOST"),
      cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"),
      token      = Sys.getenv("DATABRICKS_TOKEN"),
      method     = "databricks_connect",
      envname    = "r-reticulate"
    )
    
    trips <- dplyr::tbl(
      sc,
      dbplyr::in_catalog("samples", "nyctaxi", "trips")
    )
    
    print(trips, n = 5)
    

Krok 6. Uruchamianie kodu

  1. Na pulpicie programu RStudio na pasku narzędzi pliku demo.R kliknij pozycję Źródło.

    Uruchamianie projektu programu RStudio Desktop

  2. W konsoli pojawi się pięć pierwszych wierszy trips tabeli.

  3. W widoku Połączenia (Wyświetl > pokaż połączenia) możesz eksplorować dostępne wykazy, schematy, tabele i widoki.

    Widok Połączenia dla projektu

Krok 7. Debugowanie kodu

  1. demo.R W pliku kliknij gutter obok, aby ustawić print(trips, n = 5) punkt przerwania.
  2. Na pasku narzędzi demo.R pliku kliknij pozycję Źródło.
  3. Gdy kod wstrzymuje działanie w punkcie przerwania, możesz sprawdzić zmienną w widoku Środowisko (Wyświetl > pokaż środowisko).
  4. W menu głównym kliknij pozycję Debuguj > kontynuuj.
  5. W konsoli pojawi się pięć pierwszych wierszy trips tabeli.

Debugowanie projektu programu RStudio Desktop