Condividi tramite


Grafico di accuratezza (Analysis Services - Data mining)

Nella scheda Grafico di accuretezza di Grafico accuratezza modello di data mining è possibile visualizzare diversi tipi di grafico, a seconda del modello che si seleziona, dell'attributo stimabile nel modello e di altre impostazioni.

Se nel modello viene stimato un valore discreto, è possibile creare un grafico di accuratezza o un grafico dei profitti. Un grafico di accuratezza confronta l'accuratezza delle stime di ogni modello e può essere configurato per mostrare l'accuratezza per le stime in generale o per stime di un valore specifico. Un grafico dei profitti è un tipo di grafico correlato che contiene le stesse informazioni di un grafico di accuratezza, ma visualizza anche l'aumento di profitto previsto associato all'utilizzo di ogni modello. Per selezionare il tipo di grafico desiderato, utilizzare l'elenco Tipo di grafico.

Nota Non è possibile visualizzare modelli Time Series in un grafico di accuratezza o dei profitti, ma è possibile visualizzare un grafico che contiene sia le serie cronologiche che le stime basate sulle serie utilizzando la scheda Stima modello di data mining. Per ulteriori informazioni, vedere Algoritmo Microsoft Time Series.

Per ulteriori informazioni, vedere: Profit Chart (Analysis Services - Data Mining) e Scatter Plot (Analysis Services - Data Mining)Grafico profitti (Analysis Services - Data mining), Grafico a dispersione (Analysis Services - Data mining)

Scenario

Nella scheda Grafico di accuratezza viene visualizzata una rappresentazione grafica della variazione di accuratezza causata dal modello di data mining. Si consideri ad esempio il caso in cui il reparto Marketing dell'azienda Adventure Works Cycles intenda creare una campagna di mailing diretto. Dalle campagne precedenti è stato ricavato che la percentuale di risposta tipica è pari al 10%. In una tabella del database è archiviato un elenco di 10.000 potenziali clienti. In base alla percentuale di risposta tipica, è quindi possibile prevedere che risponderanno 1.000 clienti potenziali.

Si consideri inoltre che il budget del progetto non è sufficiente per raggiungere tutti i 10.000 clienti archiviati nel database. Il budget consente di inviare un annuncio pubblicitario solo a 5.000 clienti. Il reparto Marketing ha due alternative:

  • Selezionare come destinatari 5.000 clienti in modo casuale

  • Utilizzare un modello di data mining per selezionare come destinatari i 5.000 clienti che con maggiore probabilità risponderanno

Se la società seleziona 5.000 clienti in modo casuale, è possibile prevedere di ricevere solo 500 risposte in base alla percentuale di risposta tipica. Questo scenario è rappresentato dalla linea casuale del grafico di accuratezza. Se invece il reparto Marketing utilizza un modello di data mining per selezionare i destinatari del mailing, è possibile prevedere una percentuale di risposta superiore in quanto è possibile scegliere come destinatari i clienti che con maggiore probabilità risponderanno. Se il modello è perfetto, significa che consente di creare stime che non sono mai errate e l'azienda può prevedere di ricevere 1.000 risposte inviando il mailing ai 1.000 potenziali clienti indicati dal modello. Questo scenario è rappresentato dalla linea ideale del grafico di accuratezza. In realtà, è più probabile che il modello di data mining sia compreso tra i due estremi, ovvero tra l'ipotesi casuale e una stima perfetta. Qualsiasi miglioramento dell'ipotesi casuale viene considerato un livello di accuratezza.

Utilizzo del grafico di accuratezza

È possibile creare due tipi di grafici di accuratezza, uno in cui si specifica un valore di destinazione per la colonna stimabile e l'altro in cui non si specifica il valore. Quando si passa dalla scheda Selezione input alla scheda Grafico di accuratezza e viceversa, il grafico viene aggiornato per riflettere le modifiche apportate ai mapping delle colonne oppure ad altre impostazioni.

Grafico di accuratezza con valore di destinazione

Di seguito viene illustrato un grafico di accuratezza per il modello Targeted Mailing creato in Esercitazione di base sul data mining. In questo grafico, l'attributo di destinazione è [Bike Buyer] e il valore di destinazione è 1, per indicare che il cliente ha acquistato una bicicletta o è probabile che l'acquisti. Il grafico di accuratezza evidenzia quindi come il modello garantisca una migliore individuazione dei clienti che probabilmente acquisteranno una bicicletta.

Oltre al modello di base, il grafico include un modello correlato filtrato per clienti di destinazione specifici. È possibile aggiungere più modelli a un grafico di accuratezza, purché tutti i modelli includano lo stesso attributo stimabile. Questo filtro limita i case utilizzati nel training e nella valutazione di clienti al di sotto dei 30 anni. Di conseguenza, il numero di case rispetto a cui viene valutato il modello è diverso per il modello di base e per il modello filtrato. È importante ricordare questo punto durante l'interpretazione dei risultati della stima e di altre statistiche.

Grafico di accuratezza in cui sono mostrati due modelli

L'asse x del grafico rappresenta la percentuale del set di dati di test utilizzata per confrontare le stime. L'asse y del grafico rappresenta la percentuale di valori stimati.

La linea retta diagonale, visualizzata in blu, è presente in ogni grafico. Rappresenta i risultati della stima casuale ed è la linea di base rispetto alla quale valutare l'accuratezza. Per ogni modello aggiunto a un grafico di accuratezza, si ottengono due linee aggiuntive: una rappresenta i risultati ideali per il set di dati di training se fosse possibile creare un modello in grado di fornire sempre stime perfette, mentre la seconda rappresenta l'accuratezza effettiva, o il miglioramento nei risultati, per il modello.

In questo esempio, la linea ideale del modello filtrato è visualizzata in blu scuro, mentre la linea dell'accuratezza effettiva è visualizzata in giallo. Osservando il grafico è possibile notare che la linea ideale ha un picco intorno al 40%. Ciò significa che se il modello fosse perfetto sarebbe possibile raggiungere il 100% dei clienti di destinazione inviando il mailing solo al 40% della popolazione totale. L'accuratezza effettiva per il modello filtrato per l'invio del mailing al 40% della popolazione è compresa tra il 60 e il 70%. Ciò significa che è possibile raggiungere il 60-70% dei clienti di destinazione inviando il mailing solo al 40% della popolazione totale dei clienti.

In Legenda data mining sono presentati i valori effettivi in qualsiasi punto delle curve. È possibile modificare la posizione misurata facendo clic sulla barra grigia verticale e spostandola. Nel grafico, la linea grigia è stata spostata sul 30%, perché è il punto in cui sia il modello filtrato sia quello non filtrato sembrano essere più efficienti, mentre dopo questo punto il grado di accuratezza diminuisce.

In Legenda data mining sono inoltre presenti i punteggi e le statistiche che agevolano l'interpretazione del grafico. Questi risultati rappresentano l'accuratezza del modello in corrispondenza della linea grigia, che qui è posizionata in modo da includere il 30% dei test case complessivi.

Serie, modello

Punteggio

Popolazione di destinazione

Probabilità di stima

Targeted mailing all

0,71

47,40%

61,38%

Targeted mailing under 30

0,85

51,81%

46,62%

Modello di stima casuale

  

31%

  

Modello ideale per: Targeted mailing all

  

62,48%

  

Modello ideale per: Targeted mailing under 30

  

65,28%

  

Da questi risultati si nota che, se misurato sul 30% di tutti i case, il modello generale (Targeted mailing all) può stimare il comportamento relativo all'acquisto di biciclette del 47,40% della popolazione di destinazione. In altre parole, se si invia un mailing diretto solo al 30% dei clienti presenti nel database, è possibile raggiungere poco meno della metà dei destinatari. Se si utilizza il modello filtrato, è possibile raggiungere circa il 51% dei clienti di destinazione.

Il valore di Probabilità stima rappresenta la soglia richiesta per includere un cliente tra i case di acquisto probabile. Per ogni case, il modello valuta l'accuratezza di ogni stima e archivia il valore, che sarà possibile utilizzare per filtrare o individuare i clienti di destinazione. Ad esempio, per individuare i potenziali acquirenti dal modello di base è possibile utilizzare una query per recuperare i case con un valore di Probabilità stima pari almeno al 61%. Per ottenere i clienti di destinazione del modello filtrato, è possibile utilizzare una query per recuperare i case che soddisfano tutti i criteri: età e valore di PredictProbability pari almeno al 46%.

È interessante confrontare i modelli. Il modello filtrato sembra acquisire un maggior numero di clienti potenziali, ma quando si individuano come destinatari i clienti con un punteggio di probabilità di stima del 46% esiste anche il 53% di possibilità di inviare un mailing a una persona che non acquisterà una bicicletta. Pertanto, per decidere quale sia il modello migliore è opportuno trovare un equilibrio tra la maggiore precisione e il minor numero di destinatari offerti dal modello filtrato rispetto alla selettività del modello di base.

Il valore di Punteggio consente di confrontare i modelli calcolandone l'efficacia in una popolazione normalizzata. Poiché un punteggio superiore garantisce maggiore efficacia, in questo caso la strategia ottimale potrebbe essere quella di destinare il mailing ai clienti sotto i 30 anni, nonostante la probabilità di stima inferiore.

Grafico di accuratezza per modello senza valore di destinazione

Se non si specifica lo stato della colonna stimabile, viene creato il tipo di grafico illustrato nel diagramma seguente. In questo grafico vengono illustrate le prestazioni del modello per tutti gli stati dell'attributo stimabile. Ad esempio, nel grafico viene illustrata la correttezza con cui il modello esegue la stima dei clienti che probabilmente acquisteranno una bicicletta e di quelli che probabilmente non l'acquisteranno.

L'asse x è lo stesso del grafico con la colonna stimabile specificata, ma in questo caso l'asse y rappresenta la percentuale di stime corrette. La linea ideale pertanto è la diagonale che indica che in corrispondenza del 50% dei dati il modello stima correttamente il 50% dei case, il massimo che è possibile aspettarsi.

Grafico di accuratezza in cui sono visualizzate stime corrette

È possibile fare clic sul grafico per spostare la barra grigia verticale in modo da visualizzare in Legenda data mining la percentuale di case complessivi e la percentuale di case stimati correttamente. Ad esempio, se si posiziona la barra di scorrimento grigia in corrispondenza del contrassegno del 50%, in Legenda data mining vengono visualizzati i punteggi di accuratezza riportati di seguito. Le cifre sono basate sul modello TM_Decision Tree creato nell'Esercitazione di base sul data mining.

Serie, modello

Punteggio

Popolazione di destinazione

Probabilità di stima

TM_DecisionTree

0,77

40,50%

72,91%

Modello ideale

  

50%

  

In questa tabella si osserva che in corrispondenza del 50% della popolazione, il modello creato stima correttamente il 40% dei case. Questo modello può essere considerato ragionevolmente accurato. Si noti tuttavia che questo particolare modello stima tutti i valori dell'attributo stimabile. È pertanto probabile che il modello sia accurato nello stimare che il 90% dei clienti non acquisteranno una bicicletta.

Nota

L'accuratezza della stima per tutti i valori discreti dell'attributo stimabile è visualizzata in una sola linea. Se si desidera vedere le linee di accuratezza della stima per ogni singolo valore dell'attributo stimabile, è necessario creare un grafico di accuratezza separato per ciascun valore.

Torna all'inizio

Creazione di un grafico di accuratezza

Nell'Esercitazione di base sul data mining è incluso uno scenario relativo alla creazione di un grafico di accuratezza per il modello di mailing diretto. Per ulteriori informazioni, vedere Test dell'accuratezza con i grafici di accuratezza (Esercitazione di base sul data mining).

Per una procedura dettagliata valida per tutti i tipi di grafico, vedere Procedura: Creazione di un grafico di accuratezza per un modello di data mining.