Validar modelos de minería de datos (Analysis Services - Minería de datos)
La validación es el proceso de evaluar cuál sería el rendimiento de sus modelos de minería de datos con datos reales. Es importante que valide sus modelos de minería entendiendo su calidad y sus características antes de implementarlos en un entorno de producción.
Existen varios enfoques a la hora de evaluar la calidad y las características de un modelo de minería de datos. El primero incluye el uso de varias medidas de validez estadística para determinar si existen problemas en los datos o en el modelo. Segundo, podría separar los datos en conjuntos de entrenamiento y prueba con el fin de probar la precisión de predicciones. Finalmente, podría pedirles a los expertos comerciales que revisaran los resultados del modelo de minería de datos para determinar si los patrones detectados tienen sentido en un escenario empresarial concreto. Todos estos métodos son útiles para la metodología de minería de datos y se utilizan de forma iterativa a la hora de crear, probar y refinar modelos para responder a un problema concreto.
Esta sección introduce algunos conceptos básicos relacionados con la calidad del modelo y presenta las estrategias para la validación de modelo que se proporcionan en Microsoft SQL Server 2008 Analysis Services. Para obtener información general acerca de cómo la validación del modelo se adapta a procesos grandes de minería de datos, vea Proyectos de minería de datos (Analysis Services - Minería de datos).
Criterios para medir los modelos de minería de datos
La mayoría de los métodos para validar un modelo de minería de datos no responden las preguntas comerciales directamente, pero proporcionan métricas que se pueden utilizar para orientar un negocio o una decisión de desarrollo. No hay ninguna regla completa que pueda indicarle si un modelo es suficientemente bueno, o si cuenta con suficientes datos.
Las medidas de minería de datos generalmente pertenecen a las categorías de precisión, confiabilidad y utilidad.
Precisión, confiabilidad y utilidad
La precisión es una medida que indica hasta qué punto el modelo pone en correlación un resultado con los atributos de los datos que se han proporcionado. Existen varias medidas de precisión, pero todas ellas dependen de los datos que se utilicen. En realidad, podrían faltar valores o éstos ser aproximados, o incluso diferentes procesos podrían cambiar los datos. En particular, en la fase de exploración y desarrollo, podría decidir aceptar una cierta cantidad de errores en los datos, sobre todo si éstos son suficientemente uniformes en sus características. Por ejemplo, un modelo que predice las ventas para un almacén determinado en base a las ventas pasadas puede estar muy correlacionado y ser muy preciso, incluso si ese almacén ha utilizado un método de contabilidad equivocado continuamente. Por tanto, es necesario equilibrar las mediciones de precisión mediante las valoraciones de confiabilidad.
La confiabilidad evalúa la manera en la que se comporta un modelo de minería de datos en conjuntos de datos diferentes. Un modelo de minería de datos es confiable si genera el mismo tipo de predicciones o encuentra los mismos tipos generales de patrones independientemente de los datos de prueba que se proporcionen. Por ejemplo, el modelo que ha generado para el almacén que utilizó un método de contabilidad equivocado no podría extrapolarse correctamente a otros almacenes, y por tanto, no sería confiable.
La utilidad incluye diferentes métricas que le indican si el modelo proporciona información útil. Por ejemplo, un modelo de minería de datos que pone en correlación la ubicación del almacén con las ventas podría ser preciso y fiable, pero podría no ser útil, ya que no se podría generalizar ese resultado si se agregaran más almacenes en la misma ubicación. Es más, no responde a la pregunta comercial fundamental de porqué ciertas ubicaciones tienen más ventas que otras. También podría descubrir que un modelo que, de hecho parece correcto, no tiene sentido porque está basado en correlaciones cruzadas de los datos.
Microsoft Data Mining Framework
CRISP-DM es una metodología bien conocida que describe los pasos para definir, desarrollar e implementar un proyecto de minería de datos. Sin embargo, CRISP-DM es un marco conceptual que no proporciona orientación concreta acerca de cómo definir el alcance y la programación de un proyecto. Para satisfacer las necesidades determinadas de usuarios empresariales interesados en la minería de datos pero que no conocen por dónde iniciar la planificación ni conocen las necesidades en cuanto a programadores que, pudiendo tener experiencia en el desarrollo de aplicaciones con .NET, sean inexpertos en cuanto a la minería de datos, Microsoft ha desarrollado un método para implementar un proyecto de minería de datos que incluya un completo sistema de evaluación.
Para obtener más información, vea la página de Recursos de Minería de datos de Microsoft.
Enfoques a la validación del modelo de minería con Analysis Services de SQL Server
SQL Server 2008 admite varios enfoques relativos a la validación de soluciones de minería de datos que admitan todas las fases de la metodología de desarrollo de la minería de datos.
Realizar particiones de los datos en conjuntos de aprendizaje y de prueba
Particionar los datos en conjuntos de entrenamiento y prueba es una técnica común para preparar los datos para su evaluación. Se puede reservar para la prueba una parte del conjunto de datos de entrenamiento, utilizando el resto de los datos para el entrenamiento. Una vez completado el modelo, éste se utilizará para realizar las predicciones en función del conjunto de prueba. Dado que los datos del conjunto de entrenamiento se seleccionan de forma aleatoria a partir de los mismos datos utilizados para el entrenamiento, es poco probable que las métricas de precisión que se derivan de la prueba se vean afectadas por discrepancias en los datos, y por tanto, reflejarán mejor las características del modelo.
Para obtener más información, vea Crear particiones de los datos en conjuntos de entrenamiento y de pruebas (Analysis Services - Minería de datos).
Validación cruzada de modelos de minería de datos
La validación cruzada le permite particionar un conjunto de datos en muchas secciones transversales de menor tamaño y crear varios modelos en dichas secciones para probar la validez del conjunto de datos completo. A continuación, Analysis Services genera medidas de precisión detalladas para cada partición. Utilizando esta información, puede mejorar la calidad de un modelo individual o identificar modelos que sean mejores para un conjunto determinado de datos.
Para obtener más información, vea Validación cruzada (Analysis Services - Minería de datos).
Precisión del modelo de minería de elaboración de gráficos
Microsoft SQL Server Analysis Services proporciona una serie de herramientas que le ayudarán a mejorar la precisión de la predicción, probar el modelo con datos nuevos o ya existentes, así como comparar múltiples modelos en gráficos e informes.
Un gráfico de elevación es un método para visualizar la mejora que obtendrá de utilizar un modelo de minería de datos, si lo compara con una estimación aleatoria. También puede crear gráficos de beneficios que permiten asociar ganancias o costes financieros con el uso de un cierto modelo de minería, así como gráficos de dispersión para modelos de regresión. Una matriz de clasificación es un método para ordenar las estimaciones buenas y malas en una tabla, de forma que pueda analizar rápida y fácilmente con qué precisión predice el modelo el valor de destino.
Para obtener más información, vea Herramientas de gráficos de precisión de modelos (Analysis Services - Minería de datos).
También puede filtrar los modelos de diferentes formas para entrenar y probar combinaciones diferentes de los mismos datos de origen. Para obtener más información, vea Medir la precisión del modelo de minería de datos (Analysis Services - Minería de datos).
Examinar y consultar los contenidos y los casos del modelo
Analysis Services proporciona un conjunto de visores de minería de datos para examinar y explorar el modelo. También puede crear consultas de contenidos que le ayudarán a comprender mejor el modelo y a encontrar problemas inesperados, tanto en su enfoque como en los datos. Al crear una consulta de contenidos utilizando las Extensiones de minería de datos (DMX), puede obtener información estadística sobre los patrones detectados por el modelo de minería, así como recuperar los casos que admiten patrones concretos encontrados por el modelo. Igualmente, puede obtener detalles sobre la estructura de minería de datos subyacente, con el fin de encontrar o presentar información detallada que no estaba incluida en el modelo, así como llevar a cabo acciones de acuerdo a los patrones descubiertos en los datos.
Para obtener más información sobre cómo consultar el contenido del modelo, vea Consultar modelos de minería de datos (Analysis Services - Minería de datos).
Para obtener más información acerca de cómo explorar el contenido del modelo, vea Ver un modelo de minería de datos.
Para obtener más información sobre cómo interpretar el contenido del modelo para un algoritmo en particular, vea Algoritmos de minería de datos (Analysis Services: Minería de datos).