Databricks Connect pro R
Poznámka:
Tento článek popisuje sparklyr
integraci s Databricks Connect pro Databricks Runtime 13.0 a vyšší. Tuto integraci neposkytuje Databricks ani přímo nepodporuje Databricks.
Pokud máte otázky, přejděte do komunity Posit.
Pokud chcete nahlásit problémy, přejděte do části Problémy úložiště na GitHubu sparklyr
.
Další informace najdete v tématu Databricks Connect v2 v sparklyr
dokumentaci.
Tento článek ukazuje, jak rychle začít používat Databricks Connect pomocí R, sparklyr
a RStudio Desktopu.
- Informace o verzi Pythonu tohoto článku najdete v tématu Databricks Connect pro Python.
- Informace o verzi Scala tohoto článku najdete v tématu Databricks Connect pro Scala.
Databricks Connect umožňuje připojit k clusterům Azure Databricks oblíbená prostředí ID, jako jsou RStudio Desktop, servery poznámkových bloků a další vlastní aplikace. Podívejte se, co je Databricks Connect?
Kurz
V tomto kurzu se používá RStudio Desktop a Python 3.10. Pokud je ještě nemáte nainstalované, nainstalujte R a RStudio Desktop a Python 3.10.
Další informace o tomto kurzu najdete v části Databricks Connect služby Spark Connect a Databricks Connect v2 na sparklyr
webu.
Požadavky
K dokončení tohoto kurzu musíte splnit následující požadavky:
- Váš cílový pracovní prostor a cluster Azure Databricks musí splňovat požadavky na konfiguraci výpočetních prostředků pro Databricks Connect.
- Musíte mít k dispozici ID clusteru. Pokud chcete získat ID clusteru, klikněte v pracovním prostoru na bočním panelu na Compute a potom na název clusteru. V adresní řádku webového prohlížeče zkopírujte řetězec znaků mezi
clusters
adresou URL aconfiguration
do adresy URL.
Krok 1: Vytvoření tokenu pat
Poznámka:
Databricks Connect pro ověřování R v současné době podporuje pouze tokeny pat azure Databricks.
V tomto kurzu se k ověřování s pracovním prostorem Azure Databricks používá ověřování tokenů pat azure Databricks.
Pokud už máte osobní přístupový token Azure Databricks, přejděte ke kroku 2. Pokud si nejste jistí, jestli už máte osobní přístupový token Azure Databricks, můžete postupovat podle tohoto kroku, aniž byste ovlivnili jakékoli další tokeny pat Azure Databricks ve vašem uživatelském účtu.
Pokud chcete vytvořit osobní přístupový token, postupujte podle kroků v osobních přístupových tokenech Azure Databricks pro uživatele pracovního prostoru.
Krok 2: Vytvoření projektu
- Spusťte RStudio Desktop.
- V hlavní nabídce klikněte na Soubor > nový projekt.
- Vyberte Nový adresář.
- Vyberte Nový projekt.
- Jako název adresáře a vytvořit projekt jako podadresář zadejte název nového adresáře projektu a místo pro vytvoření tohoto nového adresáře projektu.
- Vyberte Použít verzi renv s tímto projektem. Pokud se zobrazí výzva k instalaci aktualizované verze
renv
balíčku, klikněte na tlačítko Ano. - Klikněte na Create Project (Vytvořit projekt).
Krok 3: Přidání balíčku Databricks Connect a dalších závislostí
V hlavní nabídce RStudio Desktopu klikněte na Nástroje > instalovat balíčky.
Možnost Instalovat ponechte nastavenou na úložiště (CRAN).
V případě balíčků zadejte následující seznam balíčků, které jsou nezbytné pro balíček Databricks Connect, a tento kurz:
sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyr
Ponechte možnost Instalovat do knihovny nastavenou na virtuální prostředí R.
Ujistěte se, že je vybrána možnost Instalovat závislosti .
Klikněte na Install (Nainstalovat).
Po zobrazení konzoly (zobrazení > přesunout fokus do konzoly) zobrazíte výzvu k pokračování v instalaci, zadejte
Y
. Balíčkysparklyr
apysparklyr
jejich závislosti se nainstalují ve virtuálním prostředí R.V podokně konzoly použijte
reticulate
k instalaci Pythonu spuštěním následujícího příkazu. (Databricks Connect pro R vyžadujereticulate
a python musí být nainstalovaný jako první.) V následujícím příkazu nahraďte3.10
hlavní a podverzí verze Pythonu, která je nainstalovaná v clusteru Azure Databricks. Pokud chcete najít tuto hlavní a podverzi, přečtěte si část Systémové prostředí poznámky k verzi pro verzi Databricks Runtime vašeho clusteru ve verzích a kompatibilitě modulu Databricks Runtime.reticulate::install_python(version = "3.10")
V podokně konzoly nainstalujte balíček Databricks Connect spuštěním následujícího příkazu. V následujícím příkazu nahraďte
13.3
verzí Databricks Runtime nainstalovanou v clusteru Azure Databricks. Pokud chcete tuto verzi najít, na stránce podrobností vašeho clusteru v pracovním prostoru Azure Databricks na kartě Konfigurace se podívejte do pole Verze modulu Runtime Databricks.pysparklyr::install_databricks(version = "13.3")
Pokud neznáte verzi Databricks Runtime pro váš cluster nebo ho nechcete vyhledat, můžete místo toho spustit následující příkaz a dotazovat cluster,
pysparklyr
aby určil správnou verzi databricks Runtime, která se má použít:pysparklyr::install_databricks(cluster_id = "<cluster-id>")
Pokud chcete, aby se váš projekt později připojil k jinému clusteru, který má stejnou verzi Databricks Runtime než ten, který jste právě zadali,
pysparklyr
použije stejné prostředí Pythonu. Pokud má nový cluster jinou verzi Databricks Runtime, měli byste příkaz spustitpysparklyr::install_databricks
znovu s novou verzí databricks Runtime nebo ID clusteru.
Krok 4: Nastavení proměnných prostředí pro adresu URL pracovního prostoru, přístupový token a ID clusteru
Databricks nedoporučuje pevně zakódovat nebo měnit hodnoty, jako je adresa URL pracovního prostoru Azure Databricks, osobní přístupový token Azure Databricks nebo ID clusteru Azure Databricks do skriptů R. Místo toho tyto hodnoty uložte samostatně, například v místních proměnných prostředí. V tomto kurzu se používá integrovaná podpora RStudio Desktopu pro ukládání proměnných prostředí do .Renviron
souboru.
Vytvořte
.Renviron
soubor pro uložení proměnných prostředí, pokud tento soubor ještě neexistuje, a otevřete tento soubor pro úpravy: v konzole RStudio Desktop Console spusťte následující příkaz:usethis::edit_r_environ()
Do zobrazeného
.Renviron
souboru (Zobrazit > přesunout fokus na zdroj) zadejte následující obsah. V tomto obsahu nahraďte následující zástupné symboly:- Nahraďte adresou URL pro jednotlivé pracovní prostory, například
https://adb-1234567890123456.7.azuredatabricks.net
.<workspace-url>
- Nahraďte
<personal-access-token>
osobním přístupovým tokenem Azure Databricks z kroku 1. - Nahraďte
<cluster-id>
ID clusteru z požadavků tohoto kurzu.
DATABRICKS_HOST=<workspace-url> DATABRICKS_TOKEN=<personal-access-token> DATABRICKS_CLUSTER_ID=<cluster-id>
- Nahraďte adresou URL pro jednotlivé pracovní prostory, například
Uložte soubor
.Renviron
.Načtěte proměnné prostředí do jazyka R: v hlavní nabídce klikněte na Tlačítko Restartovat relaci > R.
Krok 5: Přidání kódu
V hlavní nabídce RStudio Desktop klepněte na soubor > nový soubor > R skript.
Do souboru zadejte následující kód a uložte soubor (>Uložit soubor) jako
demo.R
:library(sparklyr) library(dplyr) library(dbplyr) sc <- sparklyr::spark_connect( master = Sys.getenv("DATABRICKS_HOST"), cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"), token = Sys.getenv("DATABRICKS_TOKEN"), method = "databricks_connect", envname = "r-reticulate" ) trips <- dplyr::tbl( sc, dbplyr::in_catalog("samples", "nyctaxi", "trips") ) print(trips, n = 5)
Krok 6: Spuštění kódu
Na ploše RStudio na panelu nástrojů souboru
demo.R
klikněte na Zdroj.V konzole se zobrazí prvních pět řádků
trips
tabulky.V zobrazení Připojení (zobrazit > připojení) můžete prozkoumat dostupné katalogy, schémata, tabulky a zobrazení.
Krok 7: Ladění kódu
demo.R
V souboru klikněte na hřbet vedleprint(trips, n = 5)
a nastavte zarážku.- Na panelu nástrojů souboru
demo.R
klikněte na Zdroj. - Když se kód pozastaví na zarážce, můžete zkontrolovat proměnnou v zobrazení Prostředí (Zobrazit > prostředí).
- V hlavní nabídce klepněte na tlačítko Pokračovat ladění>.
- V konzole se zobrazí prvních pět řádků
trips
tabulky.