summary.mlModel: Microsoft R Machine Learning 모델에 대한 요약입니다.
Microsoft R Machine Learning 모델에 대한 요약입니다.
사용
## S3 method for class `mlModel':
summary (object, top = 20, ...)
인수
object
MicrosoftML 분석에서 반환된 모델 개체입니다.
top
rxLogisticRegression 및 rxFastLinear와 같은 선형 모델에 대한 요약에 표시할 상위 계수 수를 지정합니다. 바이어스가 먼저 표시된 후 다른 가중치가 표시되고 절대값을 기준으로 내림차순으로 정렬됩니다.
NULL
로 설정되면 0이 아닌 모든 계수가 표시됩니다. 그렇지 않으면 첫 번째 top
계수만 표시됩니다.
...
요약 메서드에 전달할 추가 인수입니다.
세부 정보
원본 함수 호출에 관한 요약 정보를 제공합니다.
모델 학습에 사용되는 데이터 세트, 모델의 계수에 대한 통계입니다.
값
MicrosoftML 분석 개체의 summary
메서드는 원본 함수 호출과 사용된 기본 매개 변수를 포함하는 목록을 반환합니다.
coef
메서드는 가중치의 명명된 벡터를 반환하여 모델 개체의 정보를 처리합니다.
rxLogisticRegression의 경우 showTrainingStats
가 TRUE
로 설정되면 요약에 다음 통계가 표시될 수도 있습니다.
training.size
모델 학습에 사용되는 데이터 세트의 행 개수를 기준으로 하는 크기입니다.
deviance
모델 편차는 -2 * ln(L)
에 의해 제공됩니다. 여기서 L
은 모델에 통합된 모든 기능을 사용하여 관찰을 얻을 가능성입니다.
null.deviance
Null 편차는 -2 * ln(L0)
에 의해 제공됩니다. 여기서 L0
은 기능이 영향을 주지 않고 관찰을 얻을 가능성입니다. 바이어스가 모델에 포함된 경우 null 모델은 바이어스를 포함합니다.
aic
AIC(Akaike Information Criterion)는 2 * k ``+ deviance
로 정의됩니다. 여기서 k
는 모델의 계수 수입니다. 바이어스는 계수 중 하나로 계산됩니다. AIC는 모델의 상대적 품질 측정값입니다. 모델 적합도(편차로 측정됨)와 모델 복잡도(계수 수로 측정됨) 간 절충을 처리합니다.
coefficients.stats
이는 모델의 각 계수에 대한 통계를 포함하는 데이터 프레임입니다. 각 계수에 대해 다음 통계가 표시됩니다. 바이어스는 첫 번째 행에 표시되고 나머지 계수는 p 값의 오름차순으로 표시됩니다.
- Estimate - 모델의 예상 계수 값입니다.
- Std Error - 계수 예측값의 대규모 표본 분산의 제곱근입니다.
- z-Score - 해당 예측값 및 표준 오차의 비율을 계산하여 계수의 중요도와 관련하여 계수가 0이어야 함을 명시하는 null 가설에 대해 테스트할 수 있습니다. Null 가설에 따라 적용되는 정규화가 없는 경우 관련 계수의 예측값은 평균 0과 표준 편차가 위에서 계산한 표준 오차와 같은 정규 분포를 따릅니다. z-score는 계수 예측값과 계수의 표준 오차 사이 비율을 출력합니다.
- Pr(>|z|) - z-score의 양면 테스트에 대한 해당 p 값입니다. 중요도 수준에 따라 p 값에 중요도 표시기가 추가됩니다.
F(x)
가 표준 정규 분포N(0, 1)
의 CDF이면P(>|z|) = 2 - ``2 * F(|z|)
입니다.
작성자
Microsoft Corporation Microsoft Technical Support
추가 정보
rxFastTrees, rxFastForest, rxFastLinear, rxOneClassSvm, rxNeuralNet, rxLogisticRegression.
예
# Estimate a logistic regression model
logitModel <- rxLogisticRegression(isCase ~ age + parity + education + spontaneous + induced,
transforms = list(isCase = case == 1),
data = infert)
# Print a summary of the model
summary(logitModel)
# Score to a data frame
scoreDF <- rxPredict(logitModel, data = infert,
extraVarsToWrite = "isCase")
# Compute and plot the Radio Operator Curve and AUC
roc1 <- rxRoc(actualVarName = "isCase", predVarNames = "Probability", data = scoreDF)
plot(roc1)
rxAuc(roc1)
#######################################################################################
# Multi-class logistic regression
testObs <- rnorm(nrow(iris)) > 0
testIris <- iris[testObs,]
trainIris <- iris[!testObs,]
multiLogit <- rxLogisticRegression(
formula = Species~Sepal.Length + Sepal.Width + Petal.Length + Petal.Width,
type = "multiClass", data = trainIris)
# Score the model
scoreMultiDF <- rxPredict(multiLogit, data = testIris,
extraVarsToWrite = "Species")
# Print the first rows of the data frame with scores
head(scoreMultiDF)
# Look at confusion matrix
table(scoreMultiDF$Species, scoreMultiDF$PredictedLabel)
# Look at the observations with incorrect predictions
badPrediction = scoreMultiDF$Species != scoreMultiDF$PredictedLabel
scoreMultiDF[badPrediction,]