Formule per la convalida incrociata

Articolo
03/06/2017

Quando viene generato, un report di convalida incrociata contiene misure di accuratezza per ogni modello, a seconda del tipo di modello di data mining (ovvero dell'algoritmo utilizzato per creare il modello), del tipo di dati dell'attributo stimabile e del valore dell'attributo stimabile, se presente.

In questa sezione vengono elencate le misure utilizzate nel report di convalida incrociata e viene descritto il metodo di calcolo.

Per un elenco delle misure di accuratezza in base al tipo di modello, vedere Misure nel report di convalida incrociata.

Formule utilizzate per le misure di convalida incrociata

Nota

Importante: queste misure di accuratezza vengono calcolate per ogni attributo di destinazione. Per ogni attributo è possibile specificare o omettere un valore di destinazione. Se un case nel set di dati non dispone di alcun valore per l'attributo di destinazione, il case viene trattato come se avesse un valore speciale denominato valore mancante. Le righe associate a valori mancanti non vengono conteggiate durante il calcolo della misura di accuratezza per un attributo di destinazione specifico. Si noti che poiché i punteggi vengono calcolati singolarmente per ogni attributo, se i valori sono presenti per l'attributo di destinazione, ma mancanti per altri attributi, questa situazione non influisce sul punteggio per l'attributo di destinazione.

Misura	Si applica a	Implementazione
Vero positivo	Attributo discreto, il valore viene specificato	Numero di case che soddisfano le condizioni seguenti: Il case contiene il valore di destinazione. Tramite il modello è stato stimato che il case contiene il valore di destinazione.
Veri negativi	Attributo discreto, il valore viene specificato	Numero di case che soddisfano le condizioni seguenti: Il case non contiene il valore di destinazione. Tramite il modello è stato stimato che il case non contiene il valore di destinazione.
Falso positivo	Attributo discreto, il valore viene specificato	Numero di case che soddisfano le condizioni seguenti: Il valore effettivo è uguale a quello di destinazione. Tramite il modello è stato stimato che il case contiene il valore di destinazione.
Falsi negativi	Attributo discreto, il valore viene specificato	Numero di case che soddisfano le condizioni seguenti: Il valore effettivo non è uguale a quello di destinazione. Tramite il modello è stato stimato che il case non contiene il valore di destinazione.
Pass/fail	Attributo discreto, nessuna destinazione specificata	Numero di case che soddisfano le condizioni seguenti: Il test viene superato se lo stato stimato con la probabilità più elevata corrisponde allo stato di input e la probabilità è maggiore del valore della soglia di stato. In caso contrario il test non viene superato.
Ascensore	Attributo discreto. Il valore di destinazione può essere specificato ma non è obbligatorio.	Probabilità in forma logaritmica media per tutte le righe con valori per l'attributo di destinazione in cui la probabilità in forma logaritmica per ogni case viene calcolata come Log(ActualProbability/MarginalProbability). Per calcolare la media, la somma dei valori di probabilità in forma logaritmica viene divisa per il numero di righe nel set di dati di input, escluse le righe con valori mancanti per l'attributo di destinazione. Il valore dell'accuratezza può essere positivo o negativo. Un valore positivo indica un modello efficace con prestazioni migliori rispetto all'ipotesi casuale.
Punteggio di log	Attributo discreto. Il valore di destinazione può essere specificato ma non è obbligatorio.	Logaritmo della probabilità effettiva per ciascun case, sommato e quindi diviso per il numero di righe nel set di dati di input, escluse le righe con valori mancanti per l'attributo di destinazione. Poiché la probabilità è rappresentata come frazione decimale, i punteggi in forma logaritmica sono sempre numeri negativi. Un punteggio più vicino a 0 corrisponde a un punteggio migliore.
Probabilità di caso	Cluster	Somma dei punteggi di probabilità del cluster per tutti i case, divisa per il numero di case nella partizione, escluse le righe con valori mancanti per l'attributo di destinazione.
Errore assoluto medio	Attributo continuo	Somma dell'errore assoluto per tutti i case della partizione, divisa per il numero di case nella partizione.
Errore quadrato medio radice	Attributo continuo	Radice quadrata dell'errore quadratico medio della partizione.
Radice dell'errore quadratico medio	Attributo discreto. Il valore di destinazione può essere specificato ma non è obbligatorio.	Radice quadrata della media dei quadrati di complemento del punteggio di probabilità, divisa per il numero di case nella partizione, escluse le righe con valori mancanti per l'attributo di destinazione.
Radice dell'errore quadratico medio	Attributo discreto, nessuna destinazione specificata.	Radice quadrata della media dei quadrati di complemento del punteggio di probabilità, divisa per il numero di case nella partizione, esclusi i case con valori mancanti per l'attributo di destinazione.

Vedere anche

Test e convalida (Data mining)
Convalida incrociata (Analysis Services - Data mining)

Condividi tramite

Formule per la convalida incrociata

Formule utilizzate per le misure di convalida incrociata

Vedere anche

Risorse aggiuntive