Compartilhar via


Fórmulas de validação cruzada

Aplica-se a: SQL Server 2019 e anteriores do Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

A mineração de dados foi preterida no SQL Server 2017 Analysis Services e agora foi descontinuada no SQL Server 2022 Analysis Services. A documentação não foi atualizada para recursos preteridos e descontinuados. Para saber mais, confira Compatibilidade com versões anteriores do Analysis Services.

Quando você gera um relatório de validação cruzada, ele contém medidas de exatidão para cada modelo, dependendo do tipo de modelo de mineração (ou seja, o algoritmo que foi usado para criar o modelo), o tipo de dados do atributo previsível, e o valor do atributo previsível, se qualquer.

Esta seção lista as medidas usadas no relatório de validação cruzada e descrevem o método de cálculo.

Para obter uma análise das medidas de precisão por tipo de modelo, consulte Medidas no relatório de validação cruzada.

Fórmulas usadas para medidas de validação cruzada

Observação

Importante: estas medidas de precisão são computadas para cada atributo de destino. Para cada atributo, você pode especificar ou omitir um valor de destino. Se um caso no conjunto de dados não tiver nenhum valor para o atributo de destino, o caso será tratado como tendo um valor especial chamado de valor ausente. Não são consideradas as linhas com valores ausentes durante a computação da medida de exatidão para um atributo de destino específico. Observe que, como as pontuações são computadas individualmente para cada atributo, se valores estiverem presentes para o atributo de destino, mas ausentes para outros atributos, isso não afetará a pontuação do atributo de destino.

Medida Aplica-se A Implementação
Verdadeiro positivo Atributo diferenciado, valor especificado Contagem de casos que atendem estas condições:

Casos que contém o valor de destino.

O modelo previu que o caso contém o valor de destino.
Verdadeiro Negativo Atributo diferenciado, valor especificado Contagem de casos que atendem estas condições:

Caso não contém o valor de destino.

O modelo previu que o caso não contém o valor de destino.
Falso positivo Atributo diferenciado, valor especificado Contagem de casos que atendem estas condições:

O valor atual é igual ao valor de destino.

O modelo previu que o caso contém o valor de destino.
Falso Negativo Atributo diferenciado, valor especificado Contagem de casos que atendem estas condições:

O valor atual não é igual ao valor de destino.

O modelo previu que o caso não contém o valor de destino.
Passar/falhar Atributo diferenciado, nenhum destino especificado Contagem de casos que atendem estas condições:

Passa se o estado previsível com a mais alta probabilidade é o mesmo que o estado de entrada e a probabilidade é maior que o valor de Limite de Estado.

Caso contrário, falha.
Levantar Atributos diferenciados. Valor designado pode ser especificado mas não é necessário. A probabilidade média de log para todas as linhas com valores para o atributo de destino, em que a probabilidade de log para cada caso é calculada como Log(ActualProbability/MarginalProbability). Para Raiz quadrada do erro médio para todos os casos de partição, dividida pelo número de casos na partição, excluindo as linhas com valores ausentes para o atributo de destino.

A comparação de precisão pode ser um valor positivo ou negativo. Um valor positivo significa um modelo efetivo que supera a previsão aleatória.
Pontuação de log Atributos diferenciados. Valor designado pode ser especificado mas não é necessário. Log da probabilidade real para cada caso, somado, e depois dividido pelo número de linhas no conjunto de dados de entrada, exceto as linhas com valores ausentes para o atributo de destino.

Como a probabilidade é representada como uma fração decimal, as pontuações de log são sempre números negativos. Uma pontuação próxima de 0 é melhor.
Probabilidade de maiúsculas e Cluster Soma das pontuações de probabilidade de cluster para todos os casos, dividida pelo número de casos na partição, excluindo as linhas com valores ausentes para o atributo de destino.
Erro de média absoluta Atributos contínuos Soma do erro absoluto para todos os casos na partição, dividida pelo número de casos na partição.
Erro de raiz de quadrado médio Atributos contínuos Raiz quadrada do erro de quadrado da média para a partição.
Erro de raiz quadrada média Atributos diferenciados. Valor designado pode ser especificado mas não é necessário. Raiz quadrada da média dos quadrados de complemento da pontuação de probabilidade, dividida pelo número de casos na partição, excluindo as linhas com valores ausentes para o atributo de destino.
Erro de raiz quadrada média Atributo diferenciado, nenhum destino especificado. Raiz quadrada da média dos quadrados de complemento da pontuação de probabilidade, dividida pelo número de casos na partição, excluindo os casos com valores ausentes para o atributo de destino.

Consulte Também

Teste e validação (mineração de dados)
Validação cruzada (Analysis Services - Mineração de dados)