Condividi tramite


Esplorazione del modello Sequence Clustering (Esercitazione intermedia sul data mining)

Ora che è stato compilato il modello Sequence Clustering with Region, è possibile esplorarlo usando microsoft Sequence Clustering Viewer nella scheda Visualizzatore modelli di data mining di data mining Designer. Microsoft Sequence Cluster Viewer contiene cinque schede: Diagramma cluster, Profili cluster, Caratteristiche cluster, ClusterDiscrimination e Transizioni di stato. Per altre informazioni sull'uso di questo visualizzatore, vedere Esplorare un modello tramite il visualizzatore Microsoft Sequence Cluster.

Scheda Diagramma dei cluster

Nella scheda Diagramma cluster vengono visualizzati graficamente i cluster individuati dall'algoritmo nel database. Il layout del diagramma rappresenta la relazione tra i cluster, con i cluster simili raggruppati. Per impostazione predefinita, l'ombreggiatura di ogni nodo rappresenta la densità di tutti i case nel cluster: quanto più scura appare l'ombreggiatura del nodo, maggiore sarà il numero di case contenuti. È possibile modificare il significato dell'ombreggiatura dei nodi in modo da rappresentare il supporto, all'interno di ogni cluster, di un attributo e uno stato.

È inoltre possibile rinominare i cluster per facilitare l'identificazione e l'utilizzo dei cluster di destinazione. In questa esercitazione verranno rinominati il cluster con la percentuale più elevata di clienti dell'area del Pacifico e il cluster che contiene il maggior numero di case.

Nota

I case assegnati a cluster specifici potrebbero cambiare quando si rielabora il modello, a seconda dei dati e dei parametri del modello stesso. Inoltre, se i cluster vengono rinominati, i nomi andranno persi quando si rielabora il modello di data mining.

Per cambiare l'attributo utilizzato per evidenziare i cluster

  1. Nell'elenco Variabile ombreggiatura selezionare Modello.

  2. Selezionare Cycling Cap nell'elenco Stato .

    Il diagramma verrà aggiornato per visualizzare la concentrazione del prodotto selezionato in ognuno dei cluster. Il cluster caratterizzato dall'ombreggiatura più scura contiene la densità maggiore di berretti da ciclista (Cycling Cap). È possibile modificare la variabile ombreggiatura per usare qualsiasi stato di qualsiasi colonna di input.

  3. Nell'elenco Variabile ombreggiatura selezionare Popolamento.

    Impostando la variabile ombreggiatura su Popolazione, il diagramma viene aggiornato per confrontare i cluster in base alla dimensione. Il cluster con l'ombreggiatura più scura contiene più case rispetto agli altri cluster.

Per rinominare i nodi del modello

  1. Impostare Shading Variable su Regione impostare State su Pacific.

  2. Evidenziare il nodo più scuro del grafico.

  3. Fare clic con il pulsante destro del mouse su questo cluster e scegliere Rinomina cluster.

  4. Digitare il nomePacific Cluster.

  5. Modificare il valore di Variabile ombreggiatura inPopolamento.

  6. Nel grafico aggiornato individuare il cluster più scuro, che dovrebbe corrispondere al cluster più grande. Se non si è in grado di individuare il cluster più grande in base all'ombreggiatura, posizionare il mouse su ogni cluster e visualizzare la descrizione comando, quindi scegliere il cluster che contiene il maggior numero di case.

  7. Fare clic con il pulsante destro del mouse su questo cluster e scegliere Rinomina cluster. Digitare il nuovo nome, Largest Cluster.

È possibile eseguire il drill-through dal nodo che rappresenta il cluster per visualizzare i dettagli dei case contenuti in ogni cluster. Questa operazione può essere utile se si desidera intraprendere determinate azioni sulla base dei risultati dell'analisi, ad esempio inviare un messaggio di posta elettronica a un cliente. È inoltre possibile esplorare gli altri attributi dei case inclusi nella struttura ma non utilizzati nel modello, ad esempio Region e IncomeGroup. Per altre informazioni sul drill-through dai modelli di data mining ai case sottostanti, vedere Query drill-through (data mining).

Per eseguire il drill-through nei dettagli dal diagramma dei cluster

  1. Fare clic con il pulsante destro del mouse su Pacific Cluster, selezionare Drill-through e quindi selezionare Colonne modello e struttura.

    Verrà visualizzata la finestra di dialogo Drill-through . Le colonne che non vengono usate nel modello, ma che sono disponibili per l'esecuzione di query sono precedute da Structure.

    È possibile notare che questo cluster contiene prevalentemente clienti dell'area del Pacifico e solo alcuni clienti residenti in altre aree geografiche.

  2. Fare clic sul segno più nella colonna nidificata v Assoc Seq Line Items per visualizzare la sequenza di articoli in un determinato ordine cliente.

  3. Chiudere la finestra di dialogo Drill-through .

    Nota

    Il pulsante Riproduci consente di rieseguire una query sui dati; Tuttavia, la riesegui query non modifica i dati visualizzati, a meno che il modello non sia stato aggiornato dinamicamente in background da un altro processo.

Torna all'inizio

Scheda Profili cluster

Nella scheda Profili cluster vengono visualizzate le sequenze presenti in ogni cluster. I cluster sono elencati in singole colonne a destra della colonna States .

Nel visualizzatore la riga Modello descrive la distribuzione complessiva degli elementi in un cluster e la riga Model.samples contiene sequenze degli elementi. Ogni riga delle sequenze di colore in ogni cella della riga Model.samples rappresenta il comportamento di un utente selezionato in modo casuale nel cluster.

Ogni colore in ogni singolo istogramma di sequenza rappresenta un modello di prodotto. In Legenda data mining vengono indicate le sequenze di prodotti utilizzando la codifica con colori e i nomi dei modelli dei prodotti. Se sono state aggiunte altre colonne al modello per il clustering, ad esempio Region o IncomeGroup, il visualizzatore conterrà una riga aggiuntiva per ogni colonna, in cui viene visualizzata la distribuzione di questi valori all'interno di ogni cluster.

Per visualizzare le sequenze più comuni in un cluster

  1. Fare clic con il pulsante destro del mouse sulla riga Modello nella colonna per il cluster Largest Clustere scegliere Mostra legenda.

    La colonna Color contiene una barra ombreggiata che indica la frequenza degli elementi trovati nelle sequenze. Ogni articolo è rappresentato da un colore diverso. Nella colonna Significato sono elencati i nomi dei modelli di prodotto per ogni colore. La colonna Distribuzione indica la percentuale di case che contengono questo elemento in una sequenza.

  2. Chiudere la legenda di data mining.

  3. Fare clic con il pulsante destro del mouse sulla riga Model.samples nella colonna con l'intestazione Popolamento e selezionare Mostra legenda.

  4. Analizzare l'elenco delle sequenze nel modello complessivo.

    In Legenda data mining sono elencate per prime le sequenze più comuni, pertanto è possibile notare che Mountain Tire Tube è il primo articolo in molte sequenze. Ciò indica che è molto probabile che un cliente includa per primo tra gli acquisti l'articolo Mountain Tire Tube.

Per eseguire il drill-through nei case dal visualizzatore cluster

  1. Scorrere verso il basso nel riquadro Attributo fino a trovare la riga per l'attributo Region .

    La riga contiene un istogramma per ogni cluster nel modello, più un istogramma aggiuntivo per Population, ovvero l'intero set di case usato nel modello. Un istogramma è una barra contenente diversi colori, ognuno dei quali rappresenta un attributo, mentre la dimensione della sezione colorata relativa all'attributo rappresenta la percentuale di case caratterizzati da tale attributo.

  2. Confrontare gli istogrammi per i cluster rinominati Pacific Cluster e Largest Cluster. Ogni cluster viene visualizzato in una colonna diversa.

    Entrambi sono identificati da un colore in tinta unita, ma i colori sono diversi.

  3. Region Nella riga posizionare il mouse sull'istogramma colorato per Largest Cluster.

    I valori visualizzati nella descrizione comando indicano le percentuali effettive dei case di ogni area.

  4. Fare clic con il pulsante destro del Region mouse sull'istogramma colorato nella riga per Pacific Cluster, selezionare Drill-through e quindi selezionare Solo colonne modello.

  5. Spostare la barra di scorrimento per rivedere tutti i clienti contenuti in questo cluster.

    Eseguendo il drill-through nei dettagli è possibile notare anche questa volta che il cluster contiene prevalentemente ordini provenienti dall'area del Pacifico, oltre ad alcuni ordini provenienti dal America del Nord e dall'Europa.

  6. Chiudere la finestra di dialogo Drill-through .

Torna all'inizio

Scheda Caratteristiche cluster

La scheda Caratteristiche cluster riepiloga le transizioni tra gli stati in un cluster visualizzando barre che rappresentano visivamente l'importanza del valore dell'attributo per il cluster selezionato. La colonna Variabili indica il modello che deve essere importante per il cluster o il popolamento selezionato: un valore specifico o la relazione tra i valori, noti come transizione. La colonna Valori fornisce maggiori dettagli sul valore o sulla transizione e la colonna Probabilità rappresenta visivamente il peso di questo attributo o transizione.

Per visualizzare gli attributi importanti per un cluster

  1. Nell'elenco a discesa Cluster selezionare Pacific Cluster.

    L'elenco viene aggiornato per visualizzare le caratteristiche del cluster rinominato Pacific Cluster. In questo cluster, la caratteristica più importante è Region.

  2. Posizionare il mouse sulla barra ombreggiata nella riga per Region.

    La probabilità che il valore corrisponda a Pacific è molto elevata. Per altre informazioni su come interpretare questi valori, vedere Microsoft Sequence Clustering Algorithm Technical Reference.

  3. Esaminare l'elenco delle caratteristiche del cluster fino a individuare la prima riga di transizione.

  4. Una riga di transizione contiene il testo Transition nella colonna Variables e alcune combinazioni di valori di attributo sequenziale nella colonna Valore . La sequenza può inoltre contenere punti iniziali e valori mancanti.

    Si supponga, ad esempio, che la transizione abbia il valore [Start] -> Road Tire Tube. Ciò significa che i clienti contenuti in questo cluster includono frequentemente l'articolo Road Tire Tube per primo tra gli acquisti. Questo comportamento potrebbe indicare che il prodotto è un articolo popolare molto ricercato dai clienti oppure semplicemente che il prodotto è facile da reperire sul sito riservato agli acquisti.

  5. Scorrere l'elenco fino a trovare la prima transizione che non ha [Start] o mancante in esso.

    Si supponga, ad esempio, di trovare la transizione, Touring Tire, Touring Tire Tube. Ciò significa che i clienti inclusi in questo cluster hanno frequentemente acquistato questi articoli in combinazione, esattamente nell'ordine indicato.

  6. Posizionare il mouse sulla barra ombreggiata relativa a questa transizione.

    La probabilità della transizione verrà visualizzata come percentuale.

  7. Nell'elenco a discesa Cluster selezionare Popolamento (Tutto).

    L'elenco degli attributi verrà aggiornato per visualizzare le caratteristiche di tutti gli ordini utilizzati per creare il modello. In questo modello di data mining la caratteristica più importante per distinguere tra i cluster è Region, con un valore di America del Nord.

Dall'analisi di queste attività emergono due aspetti. In primo luogo, per ottenere un numero significativo di combinazioni è necessario disporre di una quantità elevata di dati. Ad esempio, le sequenze con le probabilità più alte possono includere uno stato [Start] o Mancante .

Il secondo è che esiste un forte effetto di clustering sugli attributi per Region, che rende più difficile visualizzare i gruppi di sequenze. Si decide pertanto di creare un altro modello che utilizza solo le sequenze e non include le colonne relative a area o reddito.

Torna all'inizio

Scheda Analisi discriminante tra cluster

La scheda Discriminazione cluster consente di confrontare due cluster per determinare quali attributi distingueno un determinato cluster da un altro cluster. La scheda contiene quattro colonne: variabili, valori, cluster 1 e cluster 2. È possibile scegliere qualsiasi cluster da usare come Cluster 1 e Cluster 2.

La colonna Variabili indica il nome dell'attributo, che può essere un nome di colonna o una combinazione di nome colonna e la transizione della parola. La colonna Valori mostra il valore esatto dell'attributo o della transizione. Le barre ombreggiate nelle colonne per Cluster 1 e Cluster 2 indicano la forza dell'attributo nei cluster confrontati. Più lunga è la barra, maggiore è la probabilità che il cluster includa case con tale attributo.

Per confrontare due cluster tramite la scheda Analisi discriminante tra cluster

  1. Nella scheda Discriminazione cluster selezionare Pacific Cluster.

    Per impostazione predefinita, la selezione per Cluster 2 viene modificata in Complement of Pacific Cluster.

    L'attributo superiore che distingue Pacific Cluster da tutti gli altri casi è l'area. L'influenza dell'attributo Region sul clustering nasconde gli altri attributi. Per evitare questo effetto, provare a eseguire il confronto tra alcuni dei cluster più piccoli. Questa operazione modifica l'elenco degli attributi, che potrebbe ora includere più transizioni tra modelli.

  2. Individuare una riga di transizione e posizionare il mouse sulla barra ombreggiata.

    Gli elementi nella colonna Valori possono includere sia stati che transizioni. L'ombreggiatura di ogni elemento indica il punteggio dell'analisi discriminante. Per altre informazioni sul significato di punteggi diversi, vedere Contenuto del modello di data mining per i modelli di clustering sequenza (Analysis Services - Data mining).

Torna all'inizio

Scheda Transizioni di stato

Nella scheda Transizioni di stato è possibile selezionare un cluster e passare attraverso le transizioni di stato. Se si seleziona Population (All) nell'elenco a discesa cluster, il diagramma mostra la distribuzione degli stati per l'intero modello di data mining.

Ogni nodo del grafico rappresenta uno stato o un possibile valore delle sequenze che si sta tentando di analizzare. Il colore di sfondo dei nodi rappresenta la frequenza di tale stato. Alcuni stati sono collegati da linee che indicano la presenza di una transizione tra tali stati. È possibile spostare il dispositivo di scorrimento verso l'alto o verso il basso per modificare la soglia di probabilità delle transizioni. Ad alcuni nodi sono associati numeri che indicano la probabilità dello stato.

Per esplorare le relazioni nella scheda Transizioni di stato

  1. Nella scheda Transizioni di stato del visualizzatore modello di data mining selezionare Pacific Cluster dall'elenco dei cluster. Assicurarsi che l'opzione Mostra etichette perimetrali sia selezionata.

    Il grafico verrà aggiornato per visualizzare le transizioni più comuni in questo cluster.

  2. Fare clic su un nodo collegato da una linea a un altro nodo.

    Il grafico verrà aggiornato per evidenziare i nodi correlati. Il valore numerico accanto alla linea indica la probabilità della transizione.

  3. Generare il dispositivo di scorrimento fino a Tutti i collegamenti per aumentare il numero di transizioni incluse nel grafico.

  4. Selezionare Popolamento (Tutto) da Cluster.

    Si noti che quando si carica un cluster diverso, vengono ripristinate le impostazioni di visualizzazione predefinite del grafico, pertanto il dispositivo di scorrimento viene ricollocato in posizione centrale.

  5. Fare clic sul nodo più scuro nel grafico, che deve essere Sport-100.

    Si noti che questo prodotto non è collegato da alcuna linea ad altri prodotti.

  6. Spostare il dispositivo di scorrimento verso l'alto di uno spazio, per aumentare il numero di transizioni incluse nel grafico. Non andare ancora a Tutti i collegamenti .

    Il grafico verrà aggiornato con l'aggiunta di diverse transizioni, nessuna delle quali include tuttavia il modello Sport-100.

  7. Spostare il controllo dispositivo di scorrimento tutto il modo in Tutti i collegamenti. Fare clic sul nodo Sport-100, se non è già selezionato.

    Il grafico verrà aggiornato con l'aggiunta di numerose transizioni che includono il prodotto Sport-100. La direzione della freccia della linea di connessione indica se l'articolo Sport-100 è stato selezionato come primo o secondo articolo nella coppia.

  8. Fare clic sul nodo relativo a Touring Tire e riposizionare il dispositivo di scorrimento al centro.

    Per prima cosa, ci sono molte linee di transizione che collegano Touring Tire ad altri prodotti, ma quando si aumenta la soglia di probabilità, le transizioni meno probabili vengono eliminate dal grafico, lasciando solo la transizione, Touring Tire > Touring Tire Tire Tube. Questa transizione indica che se un cliente include un articolo Touring Tire tra gli acquisti, esiste una forte probabilità che il cliente inserisca successivamente un articolo Touring Tire Tube.

Torna all'inizio

Generic Content Tree Viewer

Questo visualizzatore può essere utilizzato per tutti i modelli, indipendentemente dall'algoritmo o dal tipo di modello. MicrosoftGeneric Content Tree Viewer è disponibile nell'elenco a discesa Visualizzatore.

Un albero dei contenuti è una rappresentazione di un modello di data mining sotto forma di una serie di nodi, in cui ogni nodo rappresenta le informazioni relative ai dati di training. Il nodo può contenere un modello, un set di regole, un cluster o la definizione di un intervallo di date che condividono alcuni attributi. Il contenuto esatto del nodo differisce a seconda dell'algoritmo e dell'attributo stimabile, ma la rappresentazione generale del contenuto è la stessa.

È possibile espandere ogni nodo per aumentare il livello di dettaglio e copiare il contenuto di qualsiasi nodo negli Appunti. Per altre informazioni, vedere Visualizzare un modello utilizzando Microsoft Generic Content Tree Viewer.

Per visualizzare i dettagli di un modello Sequence Clustering tramite Generic Content Tree Viewer

  1. Nella scheda Visualizzatore modelli di data mining fare clic sull'elenco Visualizzatore di contenuti e selezionare Visualizzatore albero contenuto generico Microsoft.

  2. Nel riquadro Didascalia nodo fare clic su Pacific Cluster (1).

    Il nome di questo nodo è composto dal nome descrittivo assegnato al cluster e dall'ID nodo sottostante. È possibile utilizzare gli ID nodo per eseguire il drill-down in ulteriori dettagli relativi al modello.

  3. Espandere il primo nodo figlio, denominato Livello sequenza per cluster 1.

    Il nodo del livello di sequenza relativo a un cluster contiene dettagli sugli stati e le transizioni inclusi in tale cluster. È possibile utilizzare questi dettagli, disponibili nella colonna NODE_DISTRIBUTION, per esplorare le sequenze e gli stati di ogni cluster o dell'intero modello.

  4. Continuare a espandere i nodi e a visualizzare i dettagli nel visualizzatore HTML.

Per altre informazioni sul contenuto del modello di data mining e su come usare i dettagli nel visualizzatore, vedere Contenuto del modello di data mining per i modelli di clustering sequenza (Analysis Services - Data mining).

Torna all'inizio

Attività successiva della lezione

Creazione di un modello Sequence Clustering correlato (Esercitazione intermedia sul data mining)

Vedere anche

Algoritmo Microsoft Sequence Clustering
Sequence Clustering Model Query Examples