Selección de características en minería de datos
Cuando se genera un modelo de minería de datos en Microsoft SQL Server 2005 Analysis Services (SSAS), con frecuencia el conjunto de datos contiene más información de la necesaria para generar el modelo, aunque es difícil decidir qué es necesario hasta después de la generación. Por ejemplo, un conjunto de datos puede contener 500 columnas que describen las características de los clientes, pero tal vez únicamente 50 de esas columnas se usan para generar un modelo en particular. A pesar de que las columnas adicionales no afectan a la salida del modelo, sí incrementan el tiempo necesario para procesarlo y el espacio necesario para almacenarlo. Para resolver este problema, algunos algoritmos de Microsoft implementan la selección de características. La selección de características elige automáticamente los atributos de un conjunto de datos que, con mayor probabilidad, se utilizarán en el modelo. Los siguientes algoritmo admiten la selección de características:
- Bayes naive
- Árboles de decisión
- Clústeres
- Red neuronal
La selección de características trabaja con los atributos de entrada y de predicción, o con el número de estados de una columna, dependiendo del algoritmo. Puede controlar la activación de la selección de características mediante los parámetros de algoritmo MAXIMUM_INPUT_ATTRIBUTES, MAXIMUM_OUTPUT_ATTRIBUTES y MAXIMUM_STATES. Si un modelo contiene más columnas que el número especificado en el parámetro MAXIMUM_INPUT_ATTRIBUTES, el algoritmo pasa por alto cualquier columna que determina como no interesante. De forma similar, si un modelo contiene más columnas de predicción que el número especificado en el parámetro MAXIMUM_OUTPUT_ATTRIBUTES, el algoritmo pasa por alto cualquier columna que determina como no interesante. Si un modelo contiene más escenarios de los especificados en el parámetro MAXIMUM_STATES, los estados con menor popularidad se agrupan y se tratan como estados que faltan. Si alguno de estos parámetros se establece en 0, la selección de características se deshabilita. Esto afecta al tiempo de procesamiento y al rendimiento.
Sólo se incluyen en el proceso de generación del modelo y se pueden utilizar en la predicción los atributos de entrada y los estados que selecciona el algoritmo. Las columnas de predicción que omite la selección de características se utilizan para la predicción, pero las predicciones sólo se basan en las estadísticas globales que existen en el modelo.
Vea también
Conceptos
Algoritmos de minería de datos
Algoritmo de clústeres de Microsoft
Algoritmo de árboles de decisión de Microsoft
Algoritmo Bayes naive de Microsoft
Algoritmo de red neuronal de Microsoft (SSAS)