Esercitazione su DMX per Bike Buyer
In questa esercitazione vengono descritte le procedure per la creazione, il training e l'esplorazione di modelli di data mining utilizzando il linguaggio di query DMX (Data Mining Extensions). Questi modelli di data mining verranno quindi utilizzati per la creazione di stime relative alla probabilità che un cliente acquisti una bicicletta.
I modelli di data mining verranno creati dai dati contenuti nel database di esempio AdventureWorksDW2012 , che archivia i dati per la società fittizia Adventure Works Cycles. Adventure Works Cycles è una grande azienda di produzione multinazionale. che produce e vende biciclette in metallo e a struttura mista per i mercati di America del nord, Europa e Asia. La sede operativa si trova a Bothell, nello stato di Washington, in cui lavorano 290 dipendenti, e la società dispone di numerosi reparti vendite dislocati nelle diverse aree di mercato a livello internazionale.
Scenario dell'esercitazione
Adventure Works Cycles ha deciso di estendere l'analisi dei dati creando un'applicazione personalizzata che usa la funzionalità di data mining. Gli obiettivi dell'applicazione personalizzata sono i seguenti:
Utilizzare come input determinate caratteristiche di un potenziale cliente e stimare se tale cliente acquisterà una bicicletta.
Utilizzare come input un elenco di potenziali clienti con le relative caratteristiche e stimare quali di essi acquisteranno una bicicletta.
Nel primo caso, i dati dei clienti vengono forniti da una pagina di registrazione del cliente e, nel secondo caso, un elenco di potenziali clienti viene fornito dal reparto marketing Adventure Works Cycles.
Il reparto marketing ha inoltre l'esigenza di raggruppare i clienti esistenti in categorie sulla base di caratteristiche quali il luogo di residenza, il numero di figli e la distanza dal luogo di lavoro per stabilire se tali gruppi possono essere utilizzati per la definizione di offerte mirate a specifiche tipologie di clientela. Questo richiederà un ulteriore modello di data mining.
Microsoft SQL Server Analysis Services offre diversi strumenti che possono essere usati per eseguire queste attività:
Il linguaggio di query DMX
Algoritmo Microsoft Decision Trees e Algoritmo Microsoft Clustering
Editor di query in SQL Server Management Studio
Data Mining Extensions (DMX) è un linguaggio di query fornito da Analysis Services che è possibile usare per creare e usare modelli di data mining. L'algoritmo Microsoft Decision Trees crea modelli che possono essere usati per stimare se un utente acquisterà una bicicletta. Il modello risultante può utilizzare un singolo cliente o una tabella di clienti come input. L'algoritmo Microsoft Clustering può creare raggruppamenti di clienti in base alle caratteristiche condivise. Lo scopo di questa esercitazione consiste nel fornire gli script DMX che verranno utilizzati nell'applicazione personalizzata.
Per altre informazioni: Soluzioni di data mining
Struttura e modelli di data mining
Prima di iniziare a creare istruzioni DMX, è importante comprendere gli oggetti principali usati da Analysis Services per creare modelli di data mining. Per struttura di data mining si intende una struttura di dati che definisce il dominio da cui vengono compilati i modelli di data mining. Una singola struttura di data mining può contenere più modelli di data mining che condividono lo stesso dominio. Un modello di data mining applica un algoritmo specifico ai dati rappresentati da una struttura di data mining.
Gli elementi di compilazione della struttura di data mining sono le relative colonne, che descrivono le informazioni contenute nell'origine dei dati. Tali colonne includono informazioni quali il tipo di dati, il tipo di contenuto e la modalità di distribuzione dei dati.
I modelli di data mining devono contenere la colonna chiave descritta nella struttura di data mining, nonché un subset delle colonne restanti. Il modello di data mining definisce l'utilizzo di ogni colonna e l'algoritmo utilizzato per creare il modello stesso. Ad esempio, in DMX è possibile specificare una colonna come colonna chiave o colonna PREDICT. Le colonne non specificate vengono considerate come colonne di input.
In DMX è possibile creare modelli di data mining in due modi, ovvero creando contemporaneamente una struttura di data mining e il modello di data mining associato mediante l'istruzione CREATE MINING MODEL oppure creando prima una struttura di data mining con l'istruzione CREATE MINING STRUCTURE e quindi aggiungendo un modello di data mining alla struttura mediante l'istruzione ALTER STRUCTURE. Questi metodi sono descritti nella tabella seguente.
CREATE MINING MODEL
Questa istruzione consente di creare contemporaneamente una struttura di data mining e il modello di data mining associato utilizzando lo stesso nome. Al nome del modello di data mining viene aggiunto il suffisso "Structure" per differenziarlo dalla struttura di data mining. Questa istruzione è utile quando si crea una struttura di data mining che conterrà un unico modello di data mining.
Per altre informazioni, vedere CREATE MINING MODEL (DMX).
ALTER MINING STRUCTURE
Questa istruzione consente di aggiungere un modello di data mining a una struttura di data mining già esistente sul server. È utile se si desidera creare una struttura di data mining contenente più modelli di data mining. L'esigenza di aggiungere più modelli di data mining in un'unica struttura di data mining può essere dettata da numerose ragioni. È possibile ad esempio creare più modelli di data mining che utilizzano algoritmi diversi per stabilire quale algoritmo funziona meglio oppure creare più modelli di data mining che utilizzano lo stesso algoritmo, ma impostando un parametro in modo diverso in ogni modello per individuare l'impostazione ottimale per il parametro.
Per altre informazioni, vedere ALTER MINING STRUCTURE (DMX).
In questa esercitazione si utilizzerà il secondo metodo poiché si creerà una struttura di data mining contenente diversi modelli di data mining.
Ulteriori informazioni
Informazioni di riferimento sulle estensioni di data mining (DMX), informazioni sull'istruzione Select DMX, la struttura e l'utilizzo delle query di stima DMX
Contenuto dell'esercitazione
L'esercitazione è suddivisa nelle lezioni seguenti:
Lezione 1: Creazione della struttura di data mining Bike Buyer
In questa lezione verranno illustrate le procedure per l'utilizzo dell'istruzione CREATE
per creare strutture di data mining.
Lezione 2: Aggiunta di modelli di data mining alla struttura di data mining Bike Buyer
In questa lezione verranno illustrate le procedure per l'utilizzo dell'istruzione ALTER
per aggiungere modelli di data mining a una struttura di data mining.
Lezione 3: Elaborazione della struttura di data mining Bike Buyer
In questa lezione verranno illustrate le procedure per l'utilizzo dell'istruzione INSERT INTO
per elaborare le strutture di data mining e i modelli di data mining ad esse associati.
Lezione 4: Esplorazione dei modelli di data mining Bike Buyer
In questa lezione verranno illustrate le procedure per l'utilizzo dell'istruzione SELECT
per esplorare il contenuto dei modelli di data mining.
Lezione 5: Esecuzione di query di stima
In questa lezione verranno illustrate le procedure per l'utilizzo dell'istruzione PREDICTION JOIN
per creare stime basate su modelli di data mining.
Requisiti
Prima di eseguire l'esercitazione, verificare che sia installato quanto segue:
Microsoft SQL Server
Microsoft SQL Server 2005 Analysis Services (SSAS), SQL Server 2008 Analysis Services (SSAS), SQL Server 2014 Analysis Services (SSAS) o SQL Server Analysis Services
Database AdventureWorksDW2012 . Per una maggiore sicurezza, i database di esempio non vengono installati per impostazione predefinita. Per installare i database di esempio ufficiali per Microsoft SQL Server, visitare la pagina Database di esempio Microsoft SQL e selezionare i database da installare.
Nota
Quando si esaminano le esercitazioni, è consigliabile aggiungere i pulsanti Argomento successivo e Argomento precedente alla barra degli strumenti del visualizzatore di documenti.
Vedi anche
Esercitazione su DMX per Market Basket
Esercitazione di base sul data mining