Condividi tramite


Metodi di discretizzazione

Per il corretto funzionamento di alcuni algoritmi utilizzati per la creazione dei modelli di data mining in Microsoft SQL Server 2005 Analysis Services (SSAS) sono necessari tipi di contenuto specifici. Ad esempio, alcuni algoritmi tra cui Microsoft Naive Bayes non possono utilizzare colonne continue come input né stimare valori continui. Alcune colonne, inoltre, possono contenere un numero così elevato di valori che l'algoritmo non riesce a identificare facilmente schemi significativi nei dati, in base ai quali creare un modello.

In tali casi, è possibile discretizzare i dati nelle colonne in modo da poter utilizzare gli algoritmi per generare un modello di data mining. Per discretizzazione si intende il processo di raggruppamento in bucket dei valori di un set di dati continuo in modo da consentire un numero discreto di stati possibili. I bucket stessi vengono considerati come valori ordinati e discreti. È possibile discretizzare sia colonne numeriche che colonne stringa.

Esistono vari metodi per discretizzare i dati, ognuno dei quali calcola automaticamente il numero di bucket da generare, utilizzando l'equazione contenuta nell'esempio di codice seguente:

Number of Buckets = sqrt(n)

In tale esempio di codice, n è il numero di valori distinti dei dati contenuti nella colonna. Se si desidera evitare che il numero di bucket venga calcolato automaticamente da Analysis Services, è possibile utilizzare la proprietà DiscretizationBuckets per specificare manualmente tale numero.

Nella tabella seguente vengono descritti i metodi che è possibile utilizzare per la discretizzazione dei dati in Analysis Services.

Metodo di discretizzazione Descrizione

AUTOMATIC

Analysis Services determina il metodo di discretizzazione da utilizzare.

CLUSTERS

L'algoritmo suddivide i dati in gruppi eseguendo il campionamento dei dati di training, l'inizializzazione su un numero di punti casuali e quindi diverse iterazioni dell'algoritmo Microsoft Clustering tramite il metodo di clustering EM (Expectation Maximization). Il metodo CLUSTERS è utile in quanto è valido per qualsiasi curva di distribuzione, ma richiede tempi di elaborazione più lunghi rispetto agli altri metodi di discretizzazione.

È possibile utilizzare tale metodo solo per le colonne numeriche.

EQUAL_AREAS

L'algoritmo suddivide i dati in gruppi che contengono lo stesso numero di valori. Questo metodo è particolarmente appropriato per le curve di distribuzione normali, ma non consente di ottenere risultati attendibili se la distribuzione include un numero elevato di valori che appartengono a un gruppo ristretto all'interno dei dati continui. Se ad esempio metà degli articoli dell'ordine specificati in un diagramma del case presenta un valore di costo pari a zero, metà dei dati corrisponderà a un singolo punto della curva. In tale distribuzione, questo metodo suddivide i dati in modo da stabilire una discretizzazione uguale in più aree, generando una rappresentazione non corretta dei dati.

Per discretizzare le stringhe, è possibile utilizzare il metodo EQUAL_AREAS.

Per discretizzare i dati, i metodi CLUSTERS e THRESHOLDS utilizzano un campione casuale di 1000 record. Se si desidera evitare che l'algoritmo esegua il campionamento dei dati, utilizzare il metodo EQUAL_AREAS.

Vedere anche

Concetti

Tipi di contenuto del data mining
Algoritmi di data mining
Strutture di data mining (Analysis Services)
Tipi di dati (data mining)

Altre risorse

Tipi di contenuto (DMX)
Colonne della struttura di data mining

Guida in linea e informazioni

Assistenza su SQL Server 2005