Misure nel report di convalida incrociata
Durante la convalida incrociata, Analysis Services divide i dati in una struttura di data mining in più sezioni incrociate e quindi testa in modo iterativo la struttura e tutti i modelli di data mining associati. In base a questa analisi, viene restituito un set di misure di accuratezza standard per la struttura e ciascun modello.
Nel report sono contenute alcune informazioni di base sul numero di riduzioni nei dati e la quantità di dati in ciascuna riduzione, nonché un set di metriche generali che consentono di descrivere la distribuzione dei dati. Confrontando la metrica generale per ogni sezione trasversale, è possibile valutare l'affidabilità della struttura o del modello.
Analysis Services visualizza anche un set di misure dettagliate per i modelli di data mining. Queste misure dipendono dal tipo di modello e dal tipo di attributo analizzato, ad esempio se è discreto o continuo.
Questa sezione fornisce un elenco delle misure contenute nel report Convalida incrociata e il relativo significato. Per informazioni dettagliate sulla modalità di calcolo di ogni misura, vedere Formule per la convalida incrociata.
Elenco di misure nel report di convalida incrociata
Nella tabella seguente vengono elencate le misure visualizzate nel report di convalida incrociata. Le misure vengono raggruppate per tipo di test, specificato nella colonna di sinistra della tabella seguente. Nella colonna di destra viene elencato il nome della misura, come visualizzato nel report, e viene fornita una breve spiegazione del significato.
tipo di test | Misure e descrizioni |
---|---|
Clustering | Misure applicabili ai modelli di clustering: Probabilità di maiuscole/minuscole: questa misura indica in genere la probabilità che un caso appartenga a un cluster specifico. Per la convalida incrociata, i punteggi vengono sommati, quindi divisi per il numero di case, pertanto il punteggio indicato rappresenta una probabilità del case media. |
Classificazione | Misure applicabili ai modelli di classificazione: Vero positivo/ Vero negativo/ Falso positivo/ Falso positivo: numero di righe o valori nella partizione in cui lo stato stimato corrisponde allo stato di destinazione e la probabilità di stima è maggiore della soglia specificata. I casi con valori mancanti per l'attributo di destinazione vengono esclusi, vale a dire che i conteggi di tutti i valori potrebbero non essere aggiunti |
Pass/Fail: numero di righe o valori nella partizione in cui lo stato stimato corrisponde allo stato di destinazione e dove il valore di probabilità di stima è maggiore di 0. | |
Probabilità | Le misure di probabilità si applicano a più tipi di modello: Lift: rapporto tra la probabilità di stima effettiva e la probabilità marginale nei test case. Righe associate a valori mancanti per l'attributo di destinazione sono escluse. Tramite questa misura viene generalmente mostrato quanto la probabilità del risultato di destinazione migliori in caso di utilizzo del modello. Errore quadratico medio radice: radice quadrata dell'errore medio per tutti i case di partizione, diviso per il numero di case nella partizione, escluse le righe con valori mancanti per l'attributo di destinazione. Radice errore quadratico medio è uno stimatore comune per modelli predittivi. Per il punteggio viene eseguita la media dei residui per ciascun case per produrre un singolo indicatore di errore del modello. Punteggio del log: logaritmo della probabilità effettiva per ogni caso, sommato e quindi diviso per il numero di righe nel set di dati di input, escluse le righe con valori mancanti per l'attributo di destinazione. Poiché la probabilità è rappresentata come frazione decimale, i punteggi in forma logaritmica sono sempre numeri negativi. Un numero più vicino a 0 corrisponde a un punteggio migliore. Mentre punteggi non elaborati possono avere distribuzioni non regolari o non simmetriche, un punteggio in forma logaritmica è analogo a una percentuale. |
Stima | Misure che si applicano solo ai modelli di stima, che stimano un attributo numerico continuo: Errore quadratico medio radice: errore medio quando il valore stimato viene confrontato con il valore effettivo. Radice errore quadratico medio è uno stimatore comune per modelli predittivi. Per il punteggio viene eseguita la media dei residui per ciascun case per produrre un singolo indicatore di errore del modello. Errore assoluto medio: errore medio quando i valori stimati vengono confrontati con i valori effettivi, calcolati come media della somma assoluta degli errori. L'errore assoluto medio è utile per capire quanto le stime siano vicine ai valori effettivi. Un punteggio più piccolo indica che le stime sono più accurate. Punteggio log: logaritmo della probabilità effettiva per ogni caso, sommato e quindi diviso per il numero di righe nel set di dati di input, escluse le righe con valori mancanti per l'attributo di destinazione. Poiché la probabilità è rappresentata come frazione decimale, i punteggi in forma logaritmica sono sempre numeri negativi. Un numero più vicino a 0 corrisponde a un punteggio migliore. Mentre punteggi non elaborati possono avere distribuzioni non regolari o non simmetriche, un punteggio in forma logaritmica è analogo a una percentuale. |
Aggregazioni | Le misure di aggregazione forniscono un'indicazione della varianza nei risultati per ogni partizione: Media: media dei valori di partizione per una determinata misura. Deviazione standard: media della deviazione dalla media per una misura specifica, in tutte le partizioni di un modello. Per la convalida incrociata, un valore superiore per questo punteggio implica una variazione sostanziale tra le riduzioni. |