rxPredict.mlModel: оценка с использованием модели Машинного обучения Майкрософт R
Отчеты по оценкам для каждого экземпляра выводятся в кадре данных или в источнике данных RevoScaleR с помощью обученной модели Машинного обучения Майкрософт R с источником данных RevoScaleR.
Использование
## S3 method for class `mlModel':
rxPredict (modelObject, data, outData = NULL,
writeModelVars = FALSE, extraVarsToWrite = NULL, suffix = NULL,
overwrite = FALSE, dataThreads = NULL,
blocksPerRead = rxGetOption("blocksPerRead"),
reportProgress = rxGetOption("reportProgress"), verbose = 1,
computeContext = rxGetOption("computeContext"), ...)
Аргументы
modelObject
Объект сведений о модели, возвращаемый из модели MicrosoftML. Например, объект, возвращенный из rxFastTrees или rxLogisticRegression.
data
Объект источника данных RevoScaleR, кадр данных или путь к файлу .xdf
.
outData
Выходной текст или имя XDF-файла или источника данных RxDataSource
с возможностями записи, в котором необходимо сохранить прогнозы. Если указано значение NULL
, то возвращается кадр данных. Значение по умолчанию — NULL
.
writeModelVars
Если указано значение TRUE
, переменные в модели записываются в набор выходных данных в дополнение к переменным оценки. Если переменные из входного набора данных преобразуются в модель, то в модель также включаются и преобразованные переменные. Значение по умолчанию — FALSE
.
extraVarsToWrite
NULL
или символьный вектор имен дополнительных переменных из входных данных для включения в outData
. Если writeModelVars
имеет значение TRUE
, также включаются переменные модели. Значение по умолчанию — NULL
.
suffix
Строка символов, указывающая суффикс для добавления к созданным переменным оценки, или NULL
, если суффикс отсутствует. Значение по умолчанию — NULL
.
overwrite
Если указано значение TRUE
, существующий outData
перезаписывается; если указано значение FALSE
, существующий outData
не перезаписывается. Значение по умолчанию — FALSE
.
dataThreads
Целое число, указывающее требуемую степень параллелизма в конвейере данных. Если указано значение NULL
, количество используемых потоков определяется внутренне. Значение по умолчанию — NULL
.
blocksPerRead
Указывает количество считываемых блоков для каждого фрагмента данных, считываемого из источника данных.
reportProgress
Целочисленное значение, указывающее уровень информирования по ходу обработки строки:
0
— информирование не осуществляется.1
— выводится и обновляется число обработанных записей.2
— выводятся данные об обработанных записях и времени обработки.3
— выводятся данные об обработанных записях и все данные о времени обработки.
Значение по умолчанию —1
.
verbose
Целочисленное значение, указывающее требуемый объем выходных данных. Если задано значение 0
, при вычислениях подробные выходные данные не выводятся. Целочисленные значения из диапазона от 1
до 4
позволяют увеличить объем информации. Значение по умолчанию — 1
.
computeContext
Задает контекст, в котором выполняются вычисления, указанные с помощью допустимого значения RxComputeContext. Сейчас поддерживаются локальные контексты и контексты вычислений RxInSqlServer.
...
Дополнительные аргументы, передаваемые непосредственно в Microsoft Compute Engine.
Сведения
По умолчанию в выходные данные включаются следующие элементы: оценка по трем переменным для двоичных классификаторов: PredictedLabel, Score и Probability; оценка для oneClassSvm и классификаторов регрессии; PredictedLabel для классификаторов с несколькими классами, а также переменная для каждой категории, перед которой идет оценка.
Значение
Кадр данных или объект RxDataSource, представляющий созданные выходные данные. По умолчанию выходные данные оценки двоичных классификаторов включают три переменные: PredictedLabel
, Score
и Probability
; rxOneClassSvm
и регрессия включают одну переменную: Score
, а классификаторы с несколькими классами включают PredictedLabel
и переменную для каждой категории, перед которой идет Score
. Если указан suffix
, он добавляется в конец этих имен выходных переменных.
Авторы
Корпорация Майкрософт Microsoft Technical Support
См. также
rxFastTrees, rxFastForest, rxLogisticRegression, rxNeuralNet, rxOneClassSvm.
Примеры
# Estimate a logistic regression model
infert1 <- infert
infert1$isCase <- (infert1$case == 1)
myModelInfo <- rxLogisticRegression(formula = isCase ~ age + parity + education + spontaneous + induced,
data = infert1)
# Create an xdf file with per-instance results using rxPredict
xdfOut <- tempfile(pattern = "scoreOut", fileext = ".xdf")
scoreDS <- rxPredict(myModelInfo, data = infert1,
outData = xdfOut, overwrite = TRUE,
extraVarsToWrite = c("isCase", "Probability"))
# Summarize results with an ROC curve
rxRocCurve(actualVarName = "isCase", predVarNames = "Probability", data = scoreDS)
# Use the built-in data set 'airquality' to create test and train data
DF <- airquality[!is.na(airquality$Ozone), ]
DF$Ozone <- as.numeric(DF$Ozone)
set.seed(12)
randomSplit <- rnorm(nrow(DF))
trainAir <- DF[randomSplit >= 0,]
testAir <- DF[randomSplit < 0,]
airFormula <- Ozone ~ Solar.R + Wind + Temp
# Regression Fast Tree for train data
fastTreeReg <- rxFastTrees(airFormula, type = "regression",
data = trainAir)
# Put score and model variables in data frame, including the model variables
# Add the suffix "Pred" to the new variable
fastTreeScoreDF <- rxPredict(fastTreeReg, data = testAir,
writeModelVars = TRUE, suffix = "Pred")
rxGetVarInfo(fastTreeScoreDF)
# Clean-up
file.remove(xdfOut)