Condividi tramite


Formule per la convalida incrociata

Quando viene generato, un report di convalida incrociata contiene misure di accuratezza per ogni modello, a seconda del tipo di modello di data mining (ovvero dell'algoritmo utilizzato per creare il modello), del tipo di dati dell'attributo stimabile e del valore dell'attributo stimabile, se presente.

In questa sezione vengono elencate le misure utilizzate nel report di convalida incrociata e viene descritto il metodo di calcolo.

Per un elenco delle misure di accuratezza in base al tipo di modello, vedere Misure nel report di convalida incrociata.

Formule utilizzate per le misure di convalida incrociata

Nota

Importante: queste misure di accuratezza vengono calcolate per ogni attributo di destinazione. Per ogni attributo è possibile specificare o omettere un valore di destinazione. Se un case nel set di dati non dispone di alcun valore per l'attributo di destinazione, il case viene trattato come se avesse un valore speciale denominato valore mancante. Le righe associate a valori mancanti non vengono conteggiate durante il calcolo della misura di accuratezza per un attributo di destinazione specifico. Si noti che poiché i punteggi vengono calcolati singolarmente per ogni attributo, se i valori sono presenti per l'attributo di destinazione, ma mancanti per altri attributi, questa situazione non influisce sul punteggio per l'attributo di destinazione.

Misura Si applica a Implementazione
Vero positivo Attributo discreto, il valore viene specificato Numero di case che soddisfano le condizioni seguenti:

Il case contiene il valore di destinazione.

Tramite il modello è stato stimato che il case contiene il valore di destinazione.
Veri negativi Attributo discreto, il valore viene specificato Numero di case che soddisfano le condizioni seguenti:

Il case non contiene il valore di destinazione.

Tramite il modello è stato stimato che il case non contiene il valore di destinazione.
Falso positivo Attributo discreto, il valore viene specificato Numero di case che soddisfano le condizioni seguenti:

Il valore effettivo è uguale a quello di destinazione.

Tramite il modello è stato stimato che il case contiene il valore di destinazione.
Falsi negativi Attributo discreto, il valore viene specificato Numero di case che soddisfano le condizioni seguenti:

Il valore effettivo non è uguale a quello di destinazione.

Tramite il modello è stato stimato che il case non contiene il valore di destinazione.
Pass/fail Attributo discreto, nessuna destinazione specificata Numero di case che soddisfano le condizioni seguenti:

Il test viene superato se lo stato stimato con la probabilità più elevata corrisponde allo stato di input e la probabilità è maggiore del valore della soglia di stato.

In caso contrario il test non viene superato.
Ascensore Attributo discreto. Il valore di destinazione può essere specificato ma non è obbligatorio. Probabilità in forma logaritmica media per tutte le righe con valori per l'attributo di destinazione in cui la probabilità in forma logaritmica per ogni case viene calcolata come Log(ActualProbability/MarginalProbability). Per calcolare la media, la somma dei valori di probabilità in forma logaritmica viene divisa per il numero di righe nel set di dati di input, escluse le righe con valori mancanti per l'attributo di destinazione.

Il valore dell'accuratezza può essere positivo o negativo. Un valore positivo indica un modello efficace con prestazioni migliori rispetto all'ipotesi casuale.
Punteggio di log Attributo discreto. Il valore di destinazione può essere specificato ma non è obbligatorio. Logaritmo della probabilità effettiva per ciascun case, sommato e quindi diviso per il numero di righe nel set di dati di input, escluse le righe con valori mancanti per l'attributo di destinazione.

Poiché la probabilità è rappresentata come frazione decimale, i punteggi in forma logaritmica sono sempre numeri negativi. Un punteggio più vicino a 0 corrisponde a un punteggio migliore.
Probabilità di caso Cluster Somma dei punteggi di probabilità del cluster per tutti i case, divisa per il numero di case nella partizione, escluse le righe con valori mancanti per l'attributo di destinazione.
Errore assoluto medio Attributo continuo Somma dell'errore assoluto per tutti i case della partizione, divisa per il numero di case nella partizione.
Errore quadrato medio radice Attributo continuo Radice quadrata dell'errore quadratico medio della partizione.
Radice dell'errore quadratico medio Attributo discreto. Il valore di destinazione può essere specificato ma non è obbligatorio. Radice quadrata della media dei quadrati di complemento del punteggio di probabilità, divisa per il numero di case nella partizione, escluse le righe con valori mancanti per l'attributo di destinazione.
Radice dell'errore quadratico medio Attributo discreto, nessuna destinazione specificata. Radice quadrata della media dei quadrati di complemento del punteggio di probabilità, divisa per il numero di case nella partizione, esclusi i case con valori mancanti per l'attributo di destinazione.

Vedere anche

Test e convalida (Data mining)
Convalida incrociata (Analysis Services - Data mining)