Esplorazione del modello Decision Trees (Esercitazione di base sul data mining)
L'algoritmo Microsoft Decision Trees consente di stimare quali colonne influiscono sulla decisione di acquistare una bicicletta in base alle colonne restanti nel set di training.
Per l'esplorazione di modelli di data mining per l'albero delle decisioni, nel Visualizzatore Microsoft Decision Trees sono disponibili le schede seguenti:
Albero delle decisioni
Rete di dipendenze
Nelle sezioni seguenti viene descritto come selezionare il visualizzatore appropriato ed esplorare gli altri modelli di data mining.
Scheda Albero delle decisioni
Nella scheda Albero delle decisioni è possibile esaminare i tre modelli che costituiscono un modello di data mining.
Poiché il modello di mailing diretto di questa esercitazione contiene un solo attributo stimabile, ovvero Bike Buyer, esiste un solo albero da visualizzare. In caso di più alberi, è possibile utilizzare la casella Albero per scegliere un altro albero.
Esaminando il modello TM_Decision_Tree nel Visualizzatore Microsoft Decision Trees è possibile dedurre che l'età è il fattore più importante nella stima dell'acquisto di biciclette. Un dato interessante da sottolineare è che, una volta raggruppati i clienti per età, il ramo successivo dell'albero è diverso per ogni nodo di età. Esplorando la scheda Albero delle decisioni è possibile concludere che le persone di età compresa tra 34 e 40 anni non automunite o proprietarie di una sola auto acquisteranno una bicicletta con molta probabilità, allo stesso modo dei "single" di età più giovane che vivono nell'area del Pacifico e non dispongono di automobile o ne posseggono una sola.
Per esplorare il modello nella scheda Albero delle decisioni
Selezionare la scheda Visualizzatore modello di data mining in Progettazione modelli di data mining.
Per impostazione predefinita, nella finestra di progettazione viene aperto il primo modello aggiunto alla struttura, in questo caso TM_Decision_Tree.
Utilizzare i pulsanti a forma di lente di ingrandimento per regolare le dimensioni della visualizzazione dell'albero.
Per impostazione predefinita, nel Visualizzatore Microsoft Decision Trees vengono visualizzati solo i primi tre livelli dell'albero. Se l'albero contiene meno di tre livelli, il visualizzatore visualizza solo i livelli esistenti. È possibile visualizzare più livelli utilizzando il dispositivo di scorrimento Mostra livello o l'elenco Espansione predefinita.
Fare scorrere il dispositivo Mostra livello fino alla quarta barra.
Cambiare il valore di Sfondo in 1.
Modificando l'impostazione dell'elenco Sfondo è possibile visualizzare rapidamente il numero di case in ogni nodo per i quali il valore di destinazione di [Bike Buyer] è uguale a 1. In questo particolare scenario ogni case rappresenta un cliente. Il valore 1 indica che il cliente ha già acquistato una bicicletta; il valore 0 indica che il cliente non ha acquistato una bicicletta. Quanto più scura appare l'ombreggiatura del nodo, tanto più alta sarà la percentuale di case nel nodo che presentano il valore di destinazione.
Posizionare il cursore sul nodo identificato dall'etichetta Tutti. Nella descrizione comando corrispondente verranno visualizzate le seguenti informazioni:
Numero totale di case
Numero di case relativi ai non acquirenti di biciclette
Numero di case relativi agli acquirenti di biciclette
Numero di case con valori mancanti per [Bike Buyer]
In alternativa, posizionare il cursore su un nodo qualsiasi dell'albero per visualizzare la condizione necessaria per raggiungere tale nodo dal nodo precedente. È inoltre possibile visualizzare queste stesse informazioni in Legenda data mining.
Fare clic sul nodo relativo a Età >= 34 e < 41. L'istogramma viene visualizzato come una barra orizzontale sottile sul nodo e rappresenta la distribuzione dei clienti in questa fascia di età che hanno (rosa) e non hanno acquistato (blu) una bicicletta. Il visualizzatore indica che i clienti di età compresa tra 34 e 40 anni non automuniti o proprietari di una sola auto acquisteranno probabilmente una bicicletta. È inoltre possibile constatare che la probabilità di acquistare una bicicletta aumenta se il cliente è di età compresa tra 38 e 40 anni.
Poiché al momento della creazione della struttura e del modello è stato abilitato il drill-through, è possibile recuperare informazioni dettagliate dai case del modello e dalla struttura di data mining, comprese le colonne non incluse nel modello di data mining (ad esempio emailAddress, FirstName).
Per ulteriori informazioni, vedere Utilizzo del drill-through sui modelli di data mining e strutture di data mining (Analysis Services - Data mining).
Per eseguire il drill-through sui dati dei case
Fare clic con il pulsante destro del mouse su un nodo, scegliere Drill-through, quindi Solo colonne modello.
I dettagli relativi a ogni case di training vengono visualizzati in formato foglio di calcolo. Tali dettagli provengono dalla vista vTargetMail selezionata come tabella del case durante la generazione della struttura di data mining.
Fare clic con il pulsante destro del mouse su un nodo, scegliere Drill-through, quindi Colonne struttura e modello.
Verrà visualizzato lo stesso foglio di calcolo con le colonne della struttura aggiunte alla fine.
Torna all'inizio
Scheda Rete di dipendenze
Nella scheda Rete di dipendenze vengono visualizzate le relazioni tra gli attributi che contribuiscono alla capacità di stima del modello di data mining. Il Visualizzatore rete di dipendenze consolida il concetto dedotto dai risultati ottenuti, in base al quale l'età e l'area geografica sono fattori importanti nella stima dell'acquisto di biciclette.
Per esplorare il modello nella scheda Rete di dipendenze
Fare clic sul nodo Bike Buyer per identificarne le dipendenze.
Il nodo centrale della rete di dipendenze, Bike Buyer, rappresenta l'attributo stimabile del modello di data mining. L'ombreggiatura rosa indica che tutti gli attributi influenzano l'acquisto di biciclette.
Regolare il dispositivo di scorrimento Tutti i collegamenti per identificare l'attributo più influente.
Spostando verso il basso il dispositivo di scorrimento rimangono visibili solo gli attributi che incidono maggiormente sulla colonna [Bike Buyer]. Se si sposta il dispositivo di scorrimento è possibile verificare che l'età e l'area di residenza costituiscono i fattori principali per stimare se una persona è un acquirente di biciclette.
Attività successiva della lezione
Esplorazione del modello di clustering (Esercitazione di base sul data mining)
Vedere anche