Fórmulas de validação cruzada
Quando você gera um relatório de validação cruzada, ele contém medidas de exatidão para cada modelo, dependendo do tipo de modelo de mineração (ou seja, o algoritmo que foi usado para criar o modelo), o tipo de dados do atributo previsível, e o valor do atributo previsível, se qualquer.
Esta seção lista as medidas usadas no relatório de validação cruzada e descrevem o método de cálculo.
Para obter uma análise das medidas de precisão por tipo de modelo, consulte Medidas no relatório de validação cruzada.
Fórmulas usadas para medidas de validação cruzada
Observação |
---|
Importante: estas medidas de precisão são computadas para cada atributo de destino. Para cada atributo, você pode especificar ou omitir um valor de destino. Se um caso no conjunto de dados não tiver nenhum valor para o atributo de destino, o caso será tratado como tendo um valor especial chamado de valor ausente. Não são consideradas as linhas com valores ausentes durante a computação da medida de exatidão para um atributo de destino específico. Observe que, como as pontuações são computadas individualmente para cada atributo, se valores estiverem presentes para o atributo de destino, mas ausentes para outros atributos, isso não afetará a pontuação do atributo de destino. |
Medida |
Aplica-se a |
Implementação |
---|---|---|
Verdadeiro positivo |
Atributo diferenciado, valor especificado |
Contagem de casos que atendem estas condições:
|
Verdadeiro Negativo |
Atributo diferenciado, valor especificado |
Contagem de casos que atendem estas condições:
|
Falso positivo |
Atributo diferenciado, valor especificado |
Contagem de casos que atendem estas condições:
|
Falso Negativo |
Atributo diferenciado, valor especificado |
Contagem de casos que atendem estas condições:
|
Aprovado/reprovado |
Atributo diferenciado, nenhum destino especificado |
Contagem de casos que atendem estas condições:
|
Comparação de Precisão |
Atributos diferenciados. O valor de destino pode ser especificado, mas não é necessário. |
A probabilidade média de log para todas as linhas com valores para o atributo de destino, onde probabilidade de log para cada caso é calculada como Log(ActualProbability/MarginalProbability). Para Raiz quadrada do erro médio para todos os casos de partição, dividida pelo número de casos na partição, excluindo as linhas com valores ausentes para o atributo de destino. A comparação de precisão pode ser um valor positivo ou negativo. Um valor positivo significa um modelo efetivo que supera a previsão aleatória. |
Pontuação de log |
Atributos diferenciados. Valor designado pode ser especificado mas não é necessário. |
Log da probabilidade real para cada caso, somado, e depois dividido pelo número de linhas no conjunto de dados de entrada, exceto as linhas com valores ausentes para o atributo de destino. Como a probabilidade é representada como uma fração decimal, as pontuações de log são sempre números negativos. Uma pontuação próxima de 0 é melhor. |
Probabilidade de Casos |
Cluster |
Soma das pontuações de probabilidade de cluster para todos os casos, dividida pelo número de casos na partição, excluindo as linhas com valores ausentes para o atributo de destino. |
Significa erro absoluto |
Atributos contínuos |
Soma do erro absoluto para todos os casos na partição, dividida pelo número de casos na partição. |
Erro de quadrado da média de raiz |
Atributos contínuos |
Raiz quadrada do erro de quadrado da média para a partição. |
Erro de quadrado da média de raiz |
Atributos diferenciados. Valor designado pode ser especificado mas não é necessário. |
Raiz quadrada da média dos quadrados de complemento da pontuação de probabilidade, dividida pelo número de casos na partição, excluindo as linhas com valores ausentes para o atributo de destino. |
Erro de quadrado da média de raiz |
Atributo diferenciado, nenhum destino especificado. |
Raiz quadrada da média dos quadrados de complemento da pontuação de probabilidade, dividida pelo número de casos na partição, excluindo os casos com valores ausentes para o atributo de destino. |