Estructuras de minería de datos (Analysis Services - Minería de datos)
La estructura de minería de datos define los datos a partir de los cuales se generan los modelos de minería de datos: especifica la vista de datos de origen, el número y el tipo de columnas, y una partición opcional en conjuntos de entrenamiento y de pruebas. Una misma estructura de minería de datos puede admitir varios modelos de minería de datos que comparten el mismo dominio. En el diagrama siguiente, se muestra la relación de la estructura de minería de datos con el origen de datos y con los modelos de minería de datos que la componen.
La estructura de minería de datos del diagrama está basada en un origen de datos que contiene varias tablas o vistas, combinadas en el campo CustomerID. Una tabla contiene información sobre los clientes, como la región geográfica, la edad, los ingresos y el sexo, mientras que la tabla anidada relacionada contiene varias filas de información adicional sobre cada cliente, como los productos que ha adquirido. En el diagrama, se muestra que se pueden generar varios modelos de minería de datos a partir de una misma estructura de minería de datos, y que los modelos pueden usar columnas de la estructura diferentes.
Modelo 1: Usa CustomerID, Income, Age, Region y filtra los datos de Region.
Modelo 2: Usa CustomerID, Income, Age, Region y filtra los datos de Age.
Modelo 3: Usa CustomerID, Age, Gender y la tabla anidada, sin filtros.
Dado que los modelos usan columnas diferentes para la entrada, y dado que dos de los modelos, además, restringen sus datos mediante la aplicación de un filtro, los modelos pueden tener resultados muy diferentes aunque estén basados en los mismos datos. Observe que la columna CustomerID es obligatoria en todos los modelos porque es la única columna disponible que se puede usar como clave de caso.
En esta sección se explica la arquitectura básica de las estructuras de minería de datos. Para obtener más información sobre cómo crear, administrar, modificar o ver estructuras de minería de datos, vea Administrar estructuras y modelos de minería de datos.
Definir estructuras de minería de datos
La configuración de una estructura de minería de datos consta de los pasos siguientes:
Definir un origen de datos.
Seleccionar las columnas de estructura y definir una clave.
Crear particiones de los datos de origen en un conjunto de entrenamiento y un conjunto de pruebas opcional.
Procesar la estructura.
Orígenes de datos para estructuras de minería de datos
Cuando se define una estructura de minería de datos, se utilizan columnas que están disponibles en una vista del origen de datos existente. Una vista del origen de datos permite combinar varios orígenes de datos y utilizarlos como un origen único en la estructura o el modelo de minería de datos que se ha creado. Los orígenes de datos originales no son visibles para las aplicaciones cliente.
Para obtener más información acerca de las vistas del origen de datos, vea Vistas de origen de datos (Analysis Services - Datos multidimensionales).
Si genera varios modelos de minería a partir de la misma estructura de minería de datos, los modelos pueden utilizar columnas diferentes de la estructura de muy diversas maneras. Por ejemplo, puede crear una estructura única y, a continuación, generar modelos independientes de árbol de decisiones o de agrupación en clústeres a partir de ella, donde cada uno de ellos pueda utilizar columnas diferentes y predecir atributos distintos.
La estructura de minería de datos solo almacena los enlaces al origen de datos. También puede crear una estructura de minería de datos sin enlazarla a un origen de datos concreto; para ello, debe usar la instrucción DMX CREATE MINING STRUCTURE (DMX).
Columnas de la estructura de minería de datos
Las unidades de creación de la estructura de minería de datos son las columnas de la estructura de minería de datos, que describen los datos que contiene el origen de datos. Estas columnas contienen información como el tipo de datos, el tipo de contenido y el modo en que se distribuyen los datos. La estructura de minería de datos no contiene información sobre el modo en que las columnas se utilizan para un modelo de minería de datos concreto, ni sobre el tipo de algoritmo que se utiliza para generarlo; esta información se define en el propio modelo de minería de datos.
Una estructura de minería de datos también puede contener tablas anidadas. Una tabla anidada representa una relación de uno a varios entre la entidad de un caso y sus atributos relacionados. Por ejemplo, si la información que describe al cliente se encuentra en una tabla y las compras del cliente en otra, puede utilizar tablas anidadas para combinar la información en un único caso. El identificador del cliente es la entidad y las compras son los atributos relacionados. Para obtener más información acerca del modo de utilizar las tablas anidadas, vea Tablas anidadas (Analysis Services - Minería de datos).
Para crear un modelo de minería de datos en Business Intelligence Development Studio, primero debe crear una estructura de minería de datos. El Asistente para minería de datos le guiará en el proceso de crear una estructura de minería de datos, elegir los datos y agregar un modelo de minería de datos.
Si crea un modelo de minería de datos con el lenguaje Extensiones de Minería de Datos (DMX), puede especificar el modelo y las columnas existentes en él; DMX creará automáticamente la estructura de minería de datos necesaria. Para obtener más información, vea CREATE MINING MODEL (DMX).
Para obtener más información, vea Columnas de la estructura de minería de datos.
Datos de aprendizaje y de pruebas
Cuando se definen los datos para la estructura de minería de datos, también es posible especificar que algunos de los datos se utilicen para aprendizaje y otros para pruebas. Por consiguiente, ya no es necesario crear particiones de los datos antes de crear una estructura de minería de datos. Puede especificar que un cierto porcentaje de los datos se reserven para pruebas y que el resto se utilice para aprendizaje, o puede especificar un cierto número de casos para que se utilicen como conjunto de datos de pruebas. La información de la partición se almacena en memoria caché con la estructura de minería de datos; por consiguiente, el mismo conjunto de pruebas puede utilizarse con todos los modelos que están basados en esa estructura.
Para obtener más información, vea Crear particiones de los datos en conjuntos de entrenamiento y de pruebas (Analysis Services - Minería de datos).
Habilitar la obtención de detalles
Puede agregar columnas a la estructura de minería de datos aunque no piense utilizarlas en un modelo de minería de datos concreto. Si no se especifica un uso para la columna, ésta no se tiene en cuenta para tareas de análisis y de predicción. Sin embargo, aún puede utilizarse en las consultas si se habilita la obtención de detalles en el modelo de minería de datos. Por ejemplo, si tiene los permisos adecuados, puede obtener detalles de un resultado determinado de un modelo de minería de datos para recuperar información detallada sobre los casos del nodo e, incluso, tener acceso a las columnas de la estructura que no se utilizaron en el modelo.
Para obtener más información, vea Usar la obtención de detalles en los modelos y estructuras de minería (Analysis Services - Minería de datos).
Procesar estructuras de minería de datos
Una estructura de minería de datos no es más que un contenedor de metadatos hasta que se procesa. Al procesar una estructura de minería de datos, Analysis Services crea una caché que almacena estadísticas sobre los datos, información sobre cómo se discretizan los atributos continuos e información que usarán los modelos posteriormente. Por sí mismo, el modelo de minería de datos no almacena datos; hace referencia a la información de la caché. Por tanto, al procesar un modelo de minería de datos, la caché de la estructura debe estar disponible. Si no está disponible, se debe volver a procesar la estructura antes de que se genere el modelo.
Si no desea almacenar los datos en la caché, puede cambiar la propiedad CacheMode de la estructura de minería de datos a ClearAfterProcessing. Esto destruirá la caché una vez procesados los modelos. Al establecer la propiedad CacheMode en ClearAfterProcessing, se deshabilita la obtención de detalles del modelo de minería de datos.
Si los datos en caché están disponibles, no será necesario volver a procesar la estructura de minería de datos cada vez que agregue a ella un nuevo modelo de minería de datos; puede procesar el modelo únicamente. Para obtener más información, vea Procesar objetos de minería de datos.
Ver estructuras de minería de datos
No se pueden utilizar los visores para examinar los datos de una estructura de minería de datos. Sin embargo, en Business Intelligence Development Studio, es posible utilizar la ficha Estructura de minería de datos del Diseñador de minería de datos para ver las columnas de estructura y sus definiciones. Para obtener más información, vea Diseñador de minería de datos.
Si desea revisar los datos de la estructura de minería de datos, puede crear consultas mediante el lenguaje Extensiones de minería de datos (DMX). Por ejemplo, la instrucción SELECT * FROM <structure>.CASES devuelve todos los datos de la estructura de minería de datos. Para recuperar esta información, la estructura de minería de datos se debe haber procesado y los resultados de dicho procesamiento deben estar almacenados en la caché.
La instrucción SELECT * FROM <model>.CASES devuelve las mismas columnas, pero solo para los casos de ese modelo concreto. Para obtener más información, vea SELECT FROM <estructura>.CASES y SELECT FROM <model>.CASES (DMX).
Utilizar modelos de minería de datos con estructuras de minería de datos
Un modelo de minería de datos aplica un algoritmo de modelo de minería de datos a los datos que representa una estructura de minería de datos. Un modelo de minería de datos es un objeto que pertenece a una determinada estructura de minería de datos; el modelo hereda todos los valores de las propiedades que están definidas en la estructura de minería de datos. El modelo puede utilizar todas las columnas de la estructura de minería de datos o un subconjunto de las mismas. Es posible agregar varias copias de una columna de estructura a una estructura. También se pueden agregar varias copias de una columna de estructura a un modelo y, a continuación, asignar nombres diferentes, o alias, a cada columna de estructura del modelo. Para obtener más información sobre el uso de alias en las columnas de estructura, vea Cómo crear un alias para una columna de modelo y Establecer propiedades en un modelo de minería de datos.
Para obtener más información sobre la arquitectura de los modelos de minería de datos, vea Modelos de minería de datos (Analysis Services - Minería de datos).