Compartir a través de


summary.mlModel: Resumen de un modelo de Machine Learning de Microsoft R.

Resumen de un modelo de Machine Learning de Microsoft R.

Uso

 ## S3 method for class `mlModel':
summary  (object, top = 20, ...)

Argumentos

object

Un objeto de modelo devuelto desde un análisis MicrosoftML.

top

Especifica la cantidad de coeficientes superiores que se van a mostrar en el resumen de modelos lineales como rxLogisticRegression y rxFastLinear. El sesgo aparece primero, seguido de otras ponderaciones, que se ordenan de manera descendente según sus valores absolutos. Si se establece en NULL, se muestran todos los coeficientes distintos de cero. De lo contrario, solo se muestran los top primeros coeficientes.

...

Argumentos adicionales que se pasarán al método de resumen.

Detalles

Proporciona información resumida sobre la llamada de función original, el
conjunto de datos que se utiliza para entrenar el modelo y las estadísticas de coeficientes en el modelo.

Value

El método summary de los objetos de análisis MicrosoftML devuelve una lista que incluye la llamada de función original y los parámetros subyacentes que se utilizan. El método coef devuelve un vector de ponderaciones con nombre que procesa la información del objeto del modelo.

En el caso de rxLogisticRegression, es posible que las estadísticas siguientes también se muestren en el resumen si showTrainingStats está establecido en TRUE.

training.size

El tamaño del conjunto de datos que se utiliza para entrenar el modelo, en términos de recuento de filas.

deviance

La desviación del modelo la da -2 * ln(L), donde L representa la probabilidad de obtener las observaciones con todas las características incorporadas en el modelo.

null.deviance

La desviación nula la da -2 * ln(L0), donde L0 representa la probabilidad de obtener las observaciones sin ningún efecto por parte de las características. El modelo nulo incluye el sesgo si existe uno en el modelo.

aic

El criterio de información de Akaike (AIC) se define como 2 * k ``+ deviance, donde k es la cantidad de coeficientes del modelo. El sesgo se cuenta como uno de los coeficientes. El AIC es una medida de la calidad relativa del modelo. Se trata de un equilibrio entre la idoneidad del modelo (medida por la desviación) y la complejidad del modelo (medida por la cantidad de coeficientes).

coefficients.stats

Se refiere a una trama de datos que contiene las estadísticas de cada coeficiente en el modelo. Se muestran las estadísticas siguientes para cada coeficiente. El sesgo aparece en la primera fila, mientras que el resto de los coeficientes se muestran en orden ascendente en función del valor p.

  • Estimación: el valor estimado del coeficiente del modelo.
  • Error estándar: la raíz cuadrada de la varianza de la muestra grande de la estimación del coeficiente.
  • Puntuación z: Podemos contrastar la hipótesis nula, que indica que el coeficiente debe ser cero con respecto a la importancia del coeficiente mediante el cálculo de la proporción de su estimación y su error estándar. Si no se aplica ninguna regularización en función de la hipótesis nula, la estimación del coeficiente en cuestión sigue una distribución normal con media de 0 y una desviación estándar igual al error estándar que se calculó anteriormente. La puntuación z genera la proporción entre la estimación de un coeficiente y el error estándar del coeficiente.
  • Pr(>|z|): es el valor p correspondiente para la prueba bilateral de la puntuación z. Según el nivel de importancia, se anexa un indicador de importancia al valor p. Si F(x) es el CDF de la distribución normal estándar N(0, 1), entonces P(>|z|) = 2 - ``2 * F(|z|).

Autores

Microsoft Corporation Microsoft Technical Support

Consulte también

rxFastTrees, rxFastForest, rxFastLinear, rxOneClassSvm, rxNeuralNet, rxLogisticRegression.

Ejemplos


 # Estimate a logistic regression model
 logitModel <- rxLogisticRegression(isCase ~ age + parity + education + spontaneous + induced,
                   transforms = list(isCase = case == 1),
                   data = infert)
 # Print a summary of the model
 summary(logitModel)

 # Score to a data frame
 scoreDF <- rxPredict(logitModel, data = infert, 
     extraVarsToWrite = "isCase")

 # Compute and plot the Radio Operator Curve and AUC
 roc1 <- rxRoc(actualVarName = "isCase", predVarNames = "Probability", data = scoreDF) 
 plot(roc1)
 rxAuc(roc1)

 #######################################################################################
 # Multi-class logistic regression  
 testObs <- rnorm(nrow(iris)) > 0
 testIris <- iris[testObs,]
 trainIris <- iris[!testObs,]
 multiLogit <- rxLogisticRegression(
     formula = Species~Sepal.Length + Sepal.Width + Petal.Length + Petal.Width,
     type = "multiClass", data = trainIris)

 # Score the model
 scoreMultiDF <- rxPredict(multiLogit, data = testIris, 
     extraVarsToWrite = "Species")    
 # Print the first rows of the data frame with scores
 head(scoreMultiDF)
 # Look at confusion matrix
 table(scoreMultiDF$Species, scoreMultiDF$PredictedLabel)

 # Look at the observations with incorrect predictions
 badPrediction = scoreMultiDF$Species != scoreMultiDF$PredictedLabel
 scoreMultiDF[badPrediction,]