Moduly jazyka R
Důležité
Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.
Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).
- přečtěte si informace o přesunu projektů strojového učení z ML Studio (classic) do Azure Machine Learning.
- přečtěte si další informace o Azure Machine Learning.
Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.
v tomto článku jsou uvedené moduly v Machine Learning studiu (classic), které podporují spouštění kódu R. Tyto moduly usnadňují publikování modelů R v produkčním prostředí a použití prostředí komunity jazyka R k řešení problémů v reálném světě.
Poznámka
platí pro: jenom Machine Learning Studio (classic)
podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.
Tento článek také popisuje některé obecné požadavky na používání jazyka R v nástroji Machine Language Studio (Classic) a uvádí seznam známých problémů a tipů.
Seznam modulů
Kategorie jazykové moduly jazyka R obsahuje následující moduly:
- spustit skript r: spustí skript r z Machine Learning experimentu.
- Vytvoření modelu r: vytvoří model r pomocí vlastních prostředků.
Požadavky při použití jazyka R
před použitím skriptu jazyka R v aplikaci Machine Learning Studio (classic) se podívejte na následující požadavky:
Pokud jste importovali data, která používají CSV nebo jiné formáty, nemůžete číst data přímo ve formátu CSV z vašeho kódu R. Místo toho použijte příkaz převést na datovou sadu pro přípravu dat, než je použijete jako vstup do modulu R.
když připojíte jakoukoli Machine Learning datovou sadu jako vstup do modulu R, datová sada se automaticky načte do pracovního prostoru R jako datový rámec s názvem proměnné dataset.
Můžete však definovat další datové rámce nebo změnit název výchozí proměnné datové sady v rámci skriptu jazyka R.
Moduly R běží v chráněném a izolovaném prostředí v rámci vašeho privátního pracovního prostoru. V pracovním prostoru můžete vytvořit datové rámce a proměnné pro použití ve více modulech.
Datové snímky R ale nemůžete načíst z jiného pracovního prostoru ani číst proměnné vytvořené v jiném pracovním prostoru, a to i v případě, že je tento pracovní prostor otevřený v relaci Azure. Nemůžete také použít moduly, které mají závislost v jazyce Java, nebo které vyžadují přímý přístup k síti.
Optimalizace pro úlohy bodování R
implementace jazyka R v prostředí Machine Learning Studio (classic) a pracovním prostoru obsahuje dvě hlavní komponenty. Jedna komponenta koordinuje provádění skriptu a druhý poskytuje vysokorychlostní přístup k datům a vyhodnocování. Komponenta bodování je optimalizovaná tak, aby vylepšila škálovatelnost a výkon.
proto pracovní prostory R v Machine Learning studiu (classic) podporují také dva druhy vyhodnocovacích úloh, které jsou optimalizovány pro různé požadavky. Při sestavování experimentu se obvykle používá bodování na bázi souborového souboru. Obvykle používáte službu Request response Service (RR) pro velmi rychlé bodování při bodování jako součást webové služby.
Podpora balíčku R a verze
Machine Learning Studio (classic) zahrnuje více než 500 nejoblíbenějších balíčků R. Balíčky R, ze kterých můžete vybírat, závisí na verzi jazyka R, kterou pro svůj experiment vyberete:
- CRAN R
- Microsoft R Open (MRO 3.2.2 nebo MRO 3.4.4)
Pokaždé, když vytvoříte experiment, musíte zvolit jednu verzi jazyka R, na které se má spustit, pro všechny moduly v experimentu.
Seznam balíčků na verzi
seznam balíčků, které jsou aktuálně podporované v Machine Learning, najdete v tématu balíčky R podporované Machine Learning.
V experimentu můžete také přidat následující kód do modulu spuštění skriptu jazyka R a spustit ho pro získání datové sady obsahující názvy a verze balíčků. Nezapomeňte nastavit verzi R ve vlastnostech modulu, aby se vygeneroval správný seznam pro vaše zamýšlené prostředí.
data.set <- data.frame(installed.packages())
maml.mapOutputPort("data.set")
Důležité
Balíčky podporované v počítači Language Studio (Classic) se často mění. Pokud máte jakékoli pochybnosti o tom, jestli je balíček R podporovaný, použijte k získání kompletního seznamu balíčků v aktuálním prostředí ukázkový kód R.
Rozšiřování experimentů pomocí jazyka R
Existuje mnoho způsobů, jak experimentovat, pomocí vlastního skriptu R nebo přidáním balíčků R. Tady je několik nápadů, jak začít:
Pomocí kódu R můžete provádět vlastní matematické operace. Například existují balíčky R pro řešení rozdílových rovnic, generování náhodných čísel nebo spouštění simulace Monte Carlo.
Použití vlastních transformací pro data Například můžete použít balíček R k provedení interpolace na data časových řad nebo pro provádění lingvistických analýz.
Pracujte s různými zdroji dat. Moduly skriptu jazyka R podporují další sadu vstupů, které mohou obsahovat datové soubory ve formátu ZIP. Můžete použít datové soubory zip spolu s balíčky R navrženými pro tyto zdroje dat a shrnout hierarchická data do tabulky s plochými daty. můžete je také použít ke čtení dat z Excel a dalších formátů souborů.
Pro vyhodnocení použít vlastní metriky. Například namísto použití funkcí poskytovaných funkcí Evaluatemůžete importovat balíček R a potom použít jeho metriky.
Následující příklad ukazuje celkový proces, jak můžete nainstalovat nové balíčky a použít vlastní kód R v experimentu.
Rozdělení sloupců pomocí R
Někdy data pro extrakci funkcí vyžadují rozsáhlou manipulaci. Předpokládejme, že máte textový soubor, který obsahuje ID následovaný hodnotami a poznámkami, které jsou oddělené mezerami. Nebo Předpokládejme, že váš textový soubor obsahuje znaky, které nepodporuje strojové jazykové Studio (Classic).
K dispozici je několik balíčků R, které pro tyto úlohy poskytují specializované funkce. Balíček knihovny splitstackshape obsahuje několik užitečných funkcí pro rozdělení více sloupců, a to i v případě, že má každý sloupec jiný oddělovač.
Následující příklad ukazuje, jak nainstalovat potřebné balíčky a rozdělit sloupce. Tento kód byste přidali do modulu spouštěného skriptu jazyka R .
#install dependent packages
install.packages("src/concat.split.multiple/data.table_1.9.2.zip", lib=".", repos = NULL, verbose = TRUE)
(success.data.table <- library("data.table", lib.loc = ".", logical.return = TRUE, verbose = TRUE))
install.packages("src/concat.split.multiple/plyr_1.8.1.zip", lib=".", repos = NULL, verbose = TRUE)
(success.plyr <- library("plyr", lib.loc = ".", logical.return = TRUE, verbose = TRUE))
install.packages("src/concat.split.multiple/Rcpp_0.11.2.zip", lib=".", repos = NULL, verbose = TRUE)
(success.Rcpp <- library("Rcpp", lib.loc = ".", logical.return = TRUE, verbose = TRUE))
install.packages("src/concat.split.multiple/reshape2_1.4.zip", lib=".", repos = NULL, verbose = TRUE)
(success.reshape2 <- library("reshape2", lib.loc = ".", logical.return = TRUE, verbose = TRUE))
#install actual packages
install.packages("src/concat.split.multiple/splitstackshape_1.2.0.zip", lib=".", repos = NULL, verbose = TRUE)
(success.splitstackshape <- library("splitstackshape", lib.loc = ".", logical.return = TRUE, verbose = TRUE))
#Load installed library
library(splitstackshape)
#Use library method to split & concat
data <- concat.split.multiple(maml.mapInputPort(1), c("TermsAcceptedUserClientIPAddress", "EmailAddress"), c(".", "@"))
#Print column names to console
colnames(data)
#Redirect data to output port
maml.mapOutputPort("data")
Další materiály
Začněte s tímto kurzem, který popisuje, jak vytvořit vlastní modul R:
Tento článek pojednává o rozdílech mezi těmito dvěma hodnoticími moduly a vysvětluje, jak můžete zvolit metodu bodování při nasazení experimentu jako webové služby:
Tento experiment v Azure AI Gallery ukazuje, jak můžete vytvořit vlastní modul R, který provádí školení, bodování a vyhodnocení:
Tento článek publikovaný v R-blogerů ukazuje, jak můžete vytvořit vlastní metodu vyhodnocení v Machine Learning:
Další informace o jazyce R
Tento web nabízí seznam balíčků, které můžete vyhledávat podle klíčových slov:
Další ukázky kódu R a nápovědu ke službě R a jejím aplikacím najdete v těchto zdrojích informací:
r Project: oficiální lokalita pro jazyk r.
Rseek: vyhledávací modul pro prostředky R.
R-blogerů: agregace blogů v komunitě R.
Cran: největší úložiště balíčků R.
Rychlý-R: dobrý kurz r.
Webinář: Naučte se, jak získat rychlejší konečné výsledky z modelů R.
: Velkéúložiště balíčků R v Bioinformatics.