Compartir a través de


Medidas en el informe de validación cruzada

Durante la validación cruzada, Analysis Services divide los datos de una estructura de minería de datos en varias secciones y, a continuación, prueba iterativamente la estructura y los modelos de minería de datos asociados. En función de este análisis, genera un conjunto de medidas estándar de precisión para la estructura y para cada modelo.

El informe contiene cierta información básica acerca del número de subconjuntos de los datos y de la cantidad de datos en cada subconjunto, además de un conjunto de métricas generales que describen la distribución de los datos. Si compara las métricas generales para cada sección transversal, puede evaluar la confiabilidad de la estructura o el modelo.

Analysis Services también muestra un conjunto de medidas detalladas para los modelos de minería de datos. Estas medidas dependen del tipo de modelo y del tipo de atributo que se está analizando: por ejemplo, si es discreto o continuo.

En esta sección se proporciona una lista de las medidas contenidas en el informe de Validación cruzada y su significado. Para más información sobre cómo se calcula cada medida, vea Fórmulas de validación cruzada.

Lista de medidas del informe de validación cruzada

En la tabla siguiente se enumeran las medidas que aparecen en el informe de validación cruzada. Las medidas se agrupan según el tipo de prueba, que se indica en la columna izquierda de la tabla siguiente. La columna de la derecha contiene el nombre de la medida tal como aparece en el informe, junto con una breve explicación de lo que significa.

tipo de prueba Medidas y descripciones
Agrupación en clústeres Medidas que se aplican a los modelos de agrupación en clústeres:

Probabilidad de caso: esta medida suele indicar la probabilidad de que un caso pertenezca a un clúster determinado.
Para la validación cruzada, las puntuaciones se suman y luego se dividen entre el número de casos, de modo que aquí la puntuación es una media de la probabilidad de los casos.
clasificación Medidas que se aplican a los modelos de clasificación:

Verdadero positivo/
Verdadero negativo/ Falso positivo/ Falso positivo: recuento de filas o valores en la partición donde el estado predicho coincide con el estado de destino y la probabilidad de predicción es mayor que el umbral especificado. Los casos que faltan valores para el atributo de destino se excluyen, lo que significa que es posible que los recuentos de todos los valores no se agreguen.
Pass/Fail: recuento de filas o valores en la partición donde el estado predicho coincide con el estado de destino y donde el valor de probabilidad de predicción es mayor que 0.
Probabilidad Las medidas de probabilidad se aplican a varios tipos de modelo:

Lift: la proporción de la probabilidad de predicción real con la probabilidad marginal en los casos de prueba. Se excluyen las filas a las que les falta el valor para el atributo de destino. Esta medida normalmente muestra la mejora de la probabilidad del resultado de destino cuando se usa el modelo.

Error cuadrático medio raíz: raíz cuadrada del error medio para todos los casos de partición, divididos por el número de casos de la partición, excepto las filas que tienen valores que faltan para el atributo de destino. RMSE es un estimador popular para los modelos predictivos. La puntuación calcula el promedio de los valores residuales para cada caso con objeto de producir un único indicador del error del modelo.

Puntuación de registro: el logaritmo de la probabilidad real para cada caso, sumado y, a continuación, dividido por el número de filas del conjunto de datos de entrada, excepto las filas que tienen valores que faltan para el atributo de destino. Como la probabilidad se representa como una fracción decimal, las puntuaciones del registro son siempre números negativos. Un número más próximo a 0 es una puntuación mejor. Mientras que las puntuaciones sin formato pueden tener distribuciones muy irregulares o sesgadas, un logaritmo es similar a un porcentaje.
Estimación Medidas que solo se aplican a los modelos de estimación, que predicen un atributo numérico continuo:

Error cuadrático medio raíz: error medio cuando el valor previsto se compara con el valor real. RMSE es un estimador popular para los modelos predictivos. La puntuación calcula el promedio de los valores residuales para cada caso con objeto de producir un único indicador del error del modelo.

Error absoluto medio: error medio cuando los valores previstos se comparan con los valores reales, calculados como la media de la suma absoluta de errores. La desviación media es útil para comprender lo cercanas que se encontraban las predicciones globales de los valores reales. Una puntuación menor significa que las predicciones fueron más precisas.

Puntuación de registro: el logaritmo de la probabilidad real para cada caso, sumado y, a continuación, dividido por el número de filas del conjunto de datos de entrada, excepto las filas que tienen valores que faltan para el atributo de destino. Como la probabilidad se representa como una fracción decimal, las puntuaciones del registro son siempre números negativos. Un número más próximo a 0 es una puntuación mejor. Mientras que las puntuaciones sin formato pueden tener distribuciones muy irregulares o sesgadas, un logaritmo es similar a un porcentaje.
Agregados Las medidas agregadas proporcionan una indicación de la varianza en los resultados de cada partición:

Media: promedio de los valores de partición para una medida determinada.

Desviación estándar: promedio de la desviación de la media para una medida específica, en todas las particiones de un modelo. Para la validación cruzada, un valor mayor para esta puntuación implica una variación sustancial entre los subconjuntos.

Consulte también

Prueba y validación (minería de datos)