Métodos de discretización
Algunos de los algoritmos que se utilizan para crear modelos de minería de datos en Microsoft SQL Server 2005 Analysis Services (SSAS) requieren tipos de contenido específicos para poder funcionar correctamente. Por ejemplo, algunos algoritmos como el algoritmo Bayes naive de Microsoft no pueden utilizar columnas continuas como entrada y no pueden predecir valores continuos. Además, algunas columnas pueden contener tal cantidad de valores que el algoritmo no puede identificar con facilidad patrones de interés en los datos a partir de los cuales crear un modelo.
En estos casos, puede discretizar los datos en las columnas de modo que pueda utilizar los algoritmos para producir un modelo de minería de datos. La discretización es el proceso de incluir valores de un conjunto de datos continuo en depósitos para que haya un número discreto de estados posibles. Los depósitos se tratan como si fueran valores ordenados y discretos. Puede discretizar tanto columnas numéricas como de cadena.
Pueden utilizarse varios métodos para discretizar datos. Cada método calcula automáticamente el número de depósitos que va a generar utilizando la ecuación del siguiente ejemplo de código:
Number of Buckets = sqrt(n)
En este ejemplo de código, n es el número de los distintos valores de datos de la columna. Si no desea que Analysis Services calcule el número de depósitos, puede utilizar la propiedad DiscretizationBuckets para especificar manualmente el número de depósitos.
La siguiente tabla describe los métodos que puede utilizar para discretizar datos en Analysis Services.
Método de discretización | Descripción |
---|---|
AUTOMATIC |
Analysis Services determina el método de discretización que se va a utilizar. |
CLUSTERS |
El algoritmo divide los datos en grupos mediante el muestreo de los datos de entrenamiento, inicializa en un número de puntos aleatorios y, a continuación, ejecuta varias iteraciones del algoritmo de clústeres de Microsoft utilizando el método de clúster EM (Expectation Maximization). El método CLUSTERS resulta útil porque funciona en cualquier curva de distribución. Sin embargo, requiere más tiempo de procesamiento que otros métodos de discretización. Este método sólo puede utilizarse con columnas numéricas. |
EQUAL_AREAS |
El algoritmo divide los datos en grupos que contienen el mismo número de valores. Este método es la mejor opción para las curvas de distribución normales, pero no se obtendrán resultados óptimos si la distribución incluye grandes cantidades de valores en un grupo pequeño de los datos continuos. Por ejemplo, si la mitad de los pedidos especificados en el diagrama del escenario tienen un valor de cero en Cost, la mitad de los datos se encontrarán en un solo punto de la curva. En esta distribución, este método divide los datos en un intento de establecer una discretización igual en varias áreas. Esto produce una representación inexacta de los datos. |
Puede utilizar el método EQUAL_AREAS para discretizar cadenas.
Los métodos CLUSTERS y THRESHOLDS utilizan una muestra aleatoria de 1000 registros para discretizar los datos. Utilice el método EQUAL_AREAS si no desea que el algoritmo realice un muestreo de datos.
Vea también
Conceptos
Tipos de contenido (minería de datos)
Algoritmos de minería de datos
Estructuras de minería de datos (Analysis Services)
Tipos de datos (minería de datos)
Otros recursos
Tipos de contenido (DMX)
Columnas de la estructura de minería de datos