Jaa


R-kirjaston hallinta

Kirjastot tarjoavat uudelleenkäytettävän koodin, jonka haluat ehkä sisällyttää Microsoft Fabric Spark -ohjelmiin tai -projekteihin.

Microsoft Fabric tukee R-suorituspalvelua monien suosittujen avoimen lähdekoodin R-pakettien kanssa, kuten Valmiiksi asennettu TidyVerse. Kun Spark-esiintymä käynnistyy, nämä kirjastot sisällytetään automaattisesti ja ovat heti käytettävissä muistikirjoissa tai Spark-työmääritelmissä.

R-kirjastot on ehkä päivitettävä eri syistä. Esimerkiksi yksi ydinriippuvuuksistasi julkaisi uuden version tai tiimisi on luonut mukautetun paketin, jonka tarvitset käytettäväksi Spark-klustereissa.

Sinun kannattaa sisällyttää kahdentyyppisiä kirjastoja skenaariosi perusteella:

  • Syötekirjastot viittaavat julkisissa lähteissä tai säilöissä, kuten CRAN tai GitHub, sijaitseviin kirjastoihin.

  • Mukautetut kirjastot ovat sinun tai organisaatiosi luomaa koodia, .tar.gz voidaan hallita kirjastojen hallintaportaaleissa.

Microsoft Fabriciin on asennettu kaksi pakettitasoa:

  • Ympäristö: Hallitse kirjastoja ympäristön kautta ja käytä samoja kirjastoja uudelleen useissa muistikirjoissa tai työpaikoissa.

  • Istunto : Istuntotason asennus luo ympäristön tiettyä muistikirjaistuntoa varten. Istuntotason kirjastojen muutos ei säily istuntojen välillä.

Yhteenveto käytettävissä olevista R-kirjaston hallintatoiminnoista:

Kirjaston tyyppi Ympäristön asennus Istuntotason asennus
R-syöte (CRAN) Ei tuettu Tuettu
R Custom Tuettu Tuettu

Edellytykset

Istuntotason R-kirjastot

Kun teet vuorovaikutteista tietoanalyysia tai koneoppimista, saatat kokeilla uudempia paketteja tai tarvitset ehkä paketteja, jotka eivät ole tällä hetkellä käytettävissä työtilassasi. Työtilan asetusten päivittämisen sijaan voit lisätä, hallita ja päivittää istunnon riippuvuuksia istunnon laajuisten pakettien avulla.

  • Kun asennat istuntolaajennuksia kirjastoja, vain nykyisellä muistikirjalla on pääsy määritettyihin kirjastoihin.
  • Nämä kirjastot eivät vaikuta muihin istuntoihin tai työpaikkoihin, jotka käyttävät samaa Spark-varantoa.
  • Nämä kirjastot asennetaan perustason suorituspalvelu- ja uima-allastason kirjastojen päälle.
  • Muistikirjakirjastot ovat etusijalla.
  • Istunnon laajuudelta suojatut R-kirjastot eivät säily istunnoissa. Nämä kirjastot asennetaan kunkin istunnon alussa, kun liittyvät asennuskomennot suoritetaan.
  • Istunnon laajuudelta suojatut R-kirjastot asennetaan automaattisesti sekä ohjain- että työntekijäsolmuihin.

Muistiinpano

R-kirjastojen hallinnan komennot poistetaan käytöstä, kun suoritetaan putkitöitä. Jos haluat asentaa paketin putken sisälle, sinun on käytettävä kirjastonhallintaominaisuuksia työtilatasolla.

R-pakettien asentaminen CRAN:lta

Voit helposti asentaa R-kirjaston CRAN:sta.

# install a package from CRAN
install.packages(c("nycflights13", "Lahman"))

Voit myös käyttää CRAN-tilannevedoksia säilönä varmistaaksesi, että lataat saman pakettiversion joka kerta.

# install a package from CRAN snapsho
install.packages("highcharter", repos = "https://cran.microsoft.com/snapshot/2021-07-16/")

Asenna R-paketit devtoolsin avulla

Kirjasto devtools yksinkertaistaa pakettikehitystä yleisten tehtävien nopeuttamiseksi. Tämä kirjasto asennetaan Oletusarvoisessa Microsoft Fabric -suorituspalvelussa.

Voit devtools käyttää tätä määrittämään asennettavan kirjaston tietyn version. Nämä kirjastot asennetaan klusterin kaikkiin solmuihin.

# Install a specific version. 
install_version("caesar", version = "1.0.0")

Vastaavasti voit asentaa kirjaston suoraan GitHubista.

# Install a GitHub library. 

install_github("jtilly/matchingR")

Tällä hetkellä Microsoft Fabric tukee seuraavia devtools funktioita:

Komento Kuvaus
install_github() Asentaa R-paketin GitHubista
install_gitlab() Asentaa R-paketin GitLabista
install_bitbucket() Asentaa R-paketin BitBucketista
install_url() Asentaa R-paketin mielivaltaisella URL-osoitteella
install_git() Asennukset mielivaltaiksesta Git-säilöstä
install_local() Asennetaan paikallisesta tiedostosta levyllä
install_version() Asennetaan tietystä versiosta CRANissa

Mukautettujen R-kirjastojen asentaminen

Jos haluat käyttää istuntotason mukautettua kirjastoa, sinun on ensin ladattava se liitettyyn Lakehouse-kirjastoon.

  1. Valitse vasemmalla puolella Lisää lisätäksesi aiemmin luodun lakehousen tai luodaksesi lakehousen.

    Näyttökuva siitä, miten voit lisätä lakehousen muistikirjaasi.

  2. Jos haluat lisätä tiedostoja tähän Lakehouse-järjestelmään, valitse työtilasi ja valitse sitten Lakehouse.

    Näyttökuva siitä, miten voit siirtyä Lakehouse-tallennustilaan tiedostojen lisäämiseksi.

  3. Napsauta hiiren kakkospainikkeella tai valitse "..." Tiedostot-kohdan vieressä, jos haluat ladata .tar.gz tiedoston.

    Näyttökuva siitä, miten voit ladata tiedoston Lakehouse Files -kansioon.

  4. Kun olet ladannut sen, palaa muistikirjaasi. Asenna mukautettu kirjasto istuntoon seuraavan komennon avulla:

    install.packages("filepath/filename.tar.gz", repos = NULL, type = "source")
    

Asennettujen kirjastojen tarkasteleminen

Tee kysely kaikista istunnossa asennetuista kirjastoista -komennolla library .

# query all the libraries installed in current session
library()

Tarkista kirjaston packageVersion versio käyttämällä funktiota:

# check the package version
packageVersion("caesar")

R-paketin poistaminen istunnosta

-funktion detach avulla voit poistaa kirjaston nimitilasta. Nämä kirjastot pysyvät levyllä, kunnes ne ladataan uudelleen.

# detach a library

detach("package: caesar")

Jos haluat poistaa istunnon laajuuden paketin muistikirjasta, käytä komentoa remove.packages() . Tällä kirjaston muutoksella ei ole vaikutusta saman klusterin muihin istuntoihin. Käyttäjät eivät voi poistaa tai poistaa oletusarvoisen Microsoft Fabric -suorituspalvelun sisäisiä kirjastoja.

Muistiinpano

Et voi poistaa ydinpaketteja, kuten SparkR, SparklyR tai R.

remove.packages("caesar")

Istunnon laajuuden R-kirjastot ja SparkR

Muistikirjapohjaiset kirjastot ovat käytettävissä SparkR-työntekijöille.

install.packages("stringr")
library(SparkR)

str_length_function <- function(x) {
  library(stringr)
  str_length(x)
}

docs <- c("Wow, I really like the new light sabers!",
               "That book was excellent.",
               "R is a fantastic language.",
               "The service in this restaurant was miserable.",
               "This is neither positive or negative.")

spark.lapply(docs, str_length_function)

Istunnon laajuuden R-kirjastot ja sparklyr-kirjastot

Sparkin spark_apply() sisällä voi käyttää mitä tahansa R-paketteja. Packages-argumentti on oletusarvoisesti FALSE ( sparklyr::spark_apply()EPÄTOSI). Tämä kopioi nykyisten libPath-polkujen kirjastot työntekijöille, jotta voit tuoda ja käyttää niitä työntekijöihin. Voit esimerkiksi suorittaa seuraavan komennon luodaksesi caesar-salatun sanoman, jossa on sparklyr::spark_apply():

install.packages("caesar", repos = "https://cran.microsoft.com/snapshot/2021-07-16/")

spark_version <- sparkR.version()
config <- spark_config()
sc <- spark_connect(master = "yarn", version = spark_version, spark_home = "/opt/spark", config = config)

apply_cases <- function(x) {
  library(caesar)
  caesar("hello world")
}
sdf_len(sc, 5) %>%
  spark_apply(apply_cases, packages=FALSE)

Lue lisää R-toiminnoista: