Scheda Convalida incrociata (vista Grafico accuratezza modello di data mining)
La convalida incrociata consente di partizionare una struttura di data mining in sezioni trasversali, eseguire in maniera iterativa il training dei modelli e testarli a fronte di ciascuna sezione trasversale. È possibile specificare un numero di riduzioni in cui suddividere i dati. Ciascuna riduzione viene a sua volta utilizzata come dati di test, mentre i dati rimanenti vengono usati per eseguire il training di un nuovo modello. Analysis Services genera quindi un set di metriche di accuratezza standard per ogni modello. Confrontando le misure relative ai modelli generati per ogni sezione trasversale, è possibile valutare l'affidabilità del modello di data mining per l'intero set di dati.
Per altre informazioni, vedere Convalida incrociata (Analysis Services - Data mining).
Nota
Non è possibile usare la convalida incrociata con i modelli compilati usando l'algoritmo Microsoft Time Series o l'algoritmo Microsoft Sequence Clustering. Se si esegue il report su una struttura di data mining che contiene tali tipi di modelli, questi ultimi non saranno inclusi nel report.
Elenco attività
Specificare il numero di riduzioni.
Specificare il numero massimo di case da utilizzare per la convalida incrociata.
Specificare la colonna stimabile.
Se si desidera, specificare un stato stimabile.
Se si desidera, impostare i parametri che consentono di controllare la modalità di valutazione dell'accuratezza della stima.
Fare clic su Ottieni risultati per visualizzare i risultati della convalida incrociata.
Elenco di elementi dell'interfaccia utente
Numero di riduzioni
Specificare il numero di riduzioni, o partizioni, da creare. Poiché il valore minimo è 2, metà del set di dati viene utilizzata per il testing e l'altra metà per il training.
Per le strutture di data mining di sessione, il valore massimo è 10.
Il valore massimo è 256 se la struttura di data mining viene archiviata in un'istanza di Analysis Services.
Nota
Aumentando il numero di riduzioni, aumenta anche il tempo necessario per l'esecuzione della convalida incrociata. È possibile che si verifichino problemi di prestazioni se il numero di case e il valore di Conteggio di riduzione sono grandi.
Numero massimo di casi
Specificare il numero massimo di case da utilizzare per la convalida incrociata. Il numero di case in una determinata riduzione corrisponde al valore Numero massimo di case diviso per il valore Conteggio di riduzione .
Se 0è il valore specificato, tutti i case nei dati di origine vengono usati per la convalida incrociata.
Non esiste alcun valore predefinito.
Nota
Il tempo di elaborazione è direttamente proporzionale all'aumento del numero di case.
Attributo di destinazione
Selezionare una colonna dall'elenco di colonne stimabili presenti in tutti i modelli. Per ciascuna operazione di convalida incrociata è possibile selezionare solo una colonna stimabile.
Per testare solo i modelli di clustering, selezionare Cluster.
Stato di destinazione
Digitare un valore o selezionarne uno di destinazione da un elenco a discesa di valori.
Il valore predefinito è null
, ad indicare che deve essere eseguito il test di tutti gli stati.
Opzione disabilitata per i modelli di clustering.
Soglia di destinazione
Specificare un valore compreso tra 0 e 1 per indicare la probabilità di stima al di sopra della quale uno stato stimato viene considerato corretto. Il valore può essere impostato con incrementi di 0,1.
Il valore predefinito è null
, ad indicare che la stima più probabile viene conteggiata come corretta.
Nota
Anche se è possibile impostare 0,0, l'utilizzo di questo valore aumenta il tempo di elaborazione e non produce risultati significativi.
Ottenere risultati
Fare clic per avviare la convalida incrociata del modello mediante i parametri specificati.
Il modello viene partizionato nel numero specificato di riduzioni e viene eseguito il test di un modello distinto per ciascuna riduzione. La restituzione di risultati da parte della convalida incrociata potrebbe pertanto richiedere del tempo.
Per altre informazioni sull'interpretazione dei risultati del report di convalida incrociata, vedere Misure nel report di convalida incrociata.
Impostazione della soglia di accuratezza
È possibile controllare lo standard per misurare l'accuratezza della stima impostando un valore per Soglia di destinazione. Una soglia rappresenta una sorta di barra di accuratezza. A ogni stima viene assegnata una probabilità di correttezza del valore stimato. Pertanto, se si imposta il valore soglia di destinazione più vicino a 1, è necessario che la probabilità per una determinata stima sia piuttosto elevata da contare come una stima valida. Viceversa, se si imposta Soglia di destinazione più vicina a 0, anche le stime con valori di probabilità inferiori vengono conteggiate come stime "buone".
Non esiste un valore soglia consigliato perché la probabilità di una stima dipende dalla quantità di dati e dal tipo di valutazione che si sta effettuando. È necessario esaminare le stime a livelli di probabilità diversi per determinare una barra di accuratezza appropriata per i dati. È importante eseguire questa operazione, perché il valore impostato per Soglia di destinazione influisce sull'accuratezza misurata del modello.
Si supponga ad esempio che vengano effettuate tre stime per un particolare stato di destinazione e che le probabilità di ogni stima siano 0,05, 0,15 e 0,8. Se si imposta la soglia su 0,5, solo una stima viene conteggiata come corretta. Se si imposta Soglia di destinazione su 0,10, due stime vengono conteggiate come corrette.
Quando soglia di destinazione è impostata su null
, ovvero il valore predefinito, la stima più probabile per ogni caso viene conteggiata come corretta. Nell'esempio precedente, 0,05, 0,15 e 0,8 sono le probabilità per le stime nei tre diversi case. Nonostante le probabilità siano molto diverse, ciascuna stima viene conteggiata come corretta, perché ogni case genera una sola stima. Si tratta inoltre delle stime migliori per tali case.
Vedi anche
Test e convalida (data mining)
Convalida incrociata (Analysis Services - Data mining)
Misure nel report di convalida incrociata
Stored procedure di data mining (Analysis Services - Data mining)