rxPredict.mlModel : score à l’aide d’un modèle Machine Learning Microsoft R
Les rapports de scoring par instance génèrent une trame de données ou une source de données RevoScaleR à l’aide d’un modèle Machine Learning Microsoft R formé avec la source de données RevoScaleR.
Utilisation
## S3 method for class `mlModel':
rxPredict (modelObject, data, outData = NULL,
writeModelVars = FALSE, extraVarsToWrite = NULL, suffix = NULL,
overwrite = FALSE, dataThreads = NULL,
blocksPerRead = rxGetOption("blocksPerRead"),
reportProgress = rxGetOption("reportProgress"), verbose = 1,
computeContext = rxGetOption("computeContext"), ...)
Arguments
modelObject
Objet d’informations de modèle retourné à partir d’un modèle MicrosoftML. Par exemple, un objet renvoyé par rxFastTrees ou rxLogisticRegression.
data
Un objet source de données RevoScaleR, une trame de données ou le chemin d’accès à un fichier .xdf
.
outData
Texte de sortie ou nom de fichier XDF ou un RxDataSource
avec des fonctionnalités d’écriture pour stocker les prédictions. Si le résultat est NULL
, une trame de données est retournée. La valeur par défaut est NULL
.
writeModelVars
Si la valeur est TRUE
, les variables dans le modèle sont écrites dans le jeu de données de sortie en plus des variables de calcul de score. Si les variables du jeu de données d’entrée sont transformées dans le modèle, les variables transformées sont également incluses. La valeur par défaut est FALSE
.
extraVarsToWrite
NULL
ou le vecteur de caractère des noms de variables supplémentaires à partir des données d’entrée à inclure dans le outData
. Si writeModelVars
est TRUE
, les variables de modèle sont également incluses. La valeur par défaut est NULL
.
suffix
Chaîne de caractères qui spécifie le suffixe à ajouter aux variables de score créées ou NULL
en l’absence de suffixe. La valeur par défaut est NULL
.
overwrite
Si TRUE
, outData
existant est écrasé. Si FALSE
, outData
existant n’est pas remplacé. La valeur par défaut est FALSE
.
dataThreads
Entier spécifiant le degré de parallélisme souhaité dans le pipeline de données. Si NULL
valeur n’est définie, le nombre de threads utilisés est déterminé en interne. La valeur par défaut est NULL
.
blocksPerRead
Spécifie le nombre de blocs à lire pour chaque segment de données lu à partir de la source de données.
reportProgress
Valeur entière qui spécifie le niveau de création de rapports sur la progression du traitement de la ligne :
0
: aucune progression n’est signalée.1
: le nombre de lignes traitées est imprimé et mis à jour.2
: les lignes traitées et les minutages sont signalés.3
: les lignes traitées et l’ensemble des minutages sont signalés.
La valeur par défaut est1
.
verbose
Valeur entière qui spécifie la quantité de sortie souhaitée. Si la valeur est 0
, aucune sortie détaillée n’est imprimée au cours des calculs. Les valeurs entières de 1
à 4
fournissent des quantités d’informations croissantes. La valeur par défaut est 1
.
computeContext
Définit le contexte dans lequel les calculs sont exécutés, spécifiés avec un contexte RxComputeContext valide. Actuellement, les contextes de calcul locaux et RxInSqlServer sont pris en charge.
...
Arguments supplémentaires à passer directement au moteur de calcul Microsoft.
Détails
Les éléments suivants sont signalés dans la sortie par défaut : scoring sur trois variables pour les classifieurs binaires : PredictedLabel, Score et Probability. Le Score pour les classifieurs oneClassSvm et de régression, PredictedLabel pour les classifieurs multiclasses, plus une variable pour chaque catégorie précédée du score.
Valeur
Une trame de données ou un objet RxDataSource qui représente les données de sortie créées. Par défaut, la sortie des classifieurs binaires de scoring inclut trois variables : PredictedLabel
, Score
et Probability
. rxOneClassSvm
et la régression comprennent une variable Score
et les classifieurs multiclasses incluent PredictedLabel
plus une variable pour chaque catégorie précédée de Score
. Si un suffix
est fourni, il est ajouté à la fin de ces noms de variables de sortie.
Auteur(s)
Microsoft Corporation Microsoft Technical Support
Voir aussi
rxFastTrees, rxFastForest, rxLogisticRegression, rxNeuralNet, rxOneClassSvm.
Exemples
# Estimate a logistic regression model
infert1 <- infert
infert1$isCase <- (infert1$case == 1)
myModelInfo <- rxLogisticRegression(formula = isCase ~ age + parity + education + spontaneous + induced,
data = infert1)
# Create an xdf file with per-instance results using rxPredict
xdfOut <- tempfile(pattern = "scoreOut", fileext = ".xdf")
scoreDS <- rxPredict(myModelInfo, data = infert1,
outData = xdfOut, overwrite = TRUE,
extraVarsToWrite = c("isCase", "Probability"))
# Summarize results with an ROC curve
rxRocCurve(actualVarName = "isCase", predVarNames = "Probability", data = scoreDS)
# Use the built-in data set 'airquality' to create test and train data
DF <- airquality[!is.na(airquality$Ozone), ]
DF$Ozone <- as.numeric(DF$Ozone)
set.seed(12)
randomSplit <- rnorm(nrow(DF))
trainAir <- DF[randomSplit >= 0,]
testAir <- DF[randomSplit < 0,]
airFormula <- Ozone ~ Solar.R + Wind + Temp
# Regression Fast Tree for train data
fastTreeReg <- rxFastTrees(airFormula, type = "regression",
data = trainAir)
# Put score and model variables in data frame, including the model variables
# Add the suffix "Pred" to the new variable
fastTreeScoreDF <- rxPredict(fastTreeReg, data = testAir,
writeModelVars = TRUE, suffix = "Pred")
rxGetVarInfo(fastTreeScoreDF)
# Clean-up
file.remove(xdfOut)