Compartir a través de


Tipos de contenido (minería de datos)

Se aplica a: SQL Server 2019 y versiones anteriores de Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

La minería de datos estaba en desuso en SQL Server 2017 Analysis Services y ahora se ha interrumpido en SQL Server 2022 Analysis Services. La documentación no se actualiza para las características en desuso e interrumpidas. Para más información, consulte Compatibilidad con versiones anteriores de Analysis Services.

En Microsoft SQL Server SQL Server Analysis Services, puede definir el tipo de datos físico para una columna de una estructura de minería de datos y un tipo de contenido lógico para la columna cuando se usa en un modelo,

El tipo de datos determina el modo en que los algoritmos procesan los datos de esas columnas cuando se crean modelos de minería. La definición del tipo de datos de una columna proporciona al algoritmo información sobre el tipo de datos de las columnas y el modo de procesar los datos. Cada tipo de datos de SQL Server Analysis Services admite uno o varios tipos de contenido para la minería de datos.

El tipo de contenido describe el comportamiento del contenido incluido en la columna. Por ejemplo, si el contenido de una columna se repite en un intervalo concreto, como los días de la semana, puede especificar el tipo de contenido de esa columna como cíclico.

Algunos algoritmos requieren tipos de datos y de contenido específicos para que funcionen correctamente. Por ejemplo, el algoritmo Bayes naive de Microsoft no puede utilizar columnas continuas como entrada ni predecir valores continuos. Algunos tipos de contenido, como Key Sequence, solo son utilizados por un algoritmo concreto. Para obtener una lista de los algoritmos y los tipos de contenido que admite cada uno de ellos, consulte Algoritmos de minería de datos (Analysis Services - Minería de datos).

En la lista siguiente se describen los tipos de contenido que se usan en la minería de datos y se identifican los tipos de datos que admiten cada tipo.

Discrete

El tipo de contenidodiscreto indica que la columna contiene un número finito de valores no continuos. Por ejemplo, una columna de género es una columna de atributos discreta muy habitual, en la que los datos representan un número específico de categorías.

Los valores de una columna de atributos discreta no pueden implicar la ordenación, aun cuando los valores sean numéricos. Además, aunque los valores utilizados para la columna discreta sean numéricos, no se pueden calcular valores fraccionarios. Los códigos telefónicos de cada zona son un buen ejemplo de datos numéricos discretos.

El tipo de contenido Discrete es compatible con todos los tipos de datos de minería de datos.

Continuo

Continuo indica que la columna contiene valores que representan datos numéricos en una escala que permite valores intermedios. A diferencia de una columna discreta, que representa datos numerables y finitos, una columna continua representa medidas escalables; además, es posible que los datos contengan un número infinito de valores fraccionarios. Una columna de temperaturas es un ejemplo de una columna de atributos continua.

Cuando una columna contiene datos numéricos y se sabe cómo deben distribuirse los datos, se podrían obtener análisis más exactos especificando la distribución prevista de los valores. La distribución de columnas se especifica en el nivel de la estructura de minería. Por lo tanto, la configuración se aplica a todos los modelos basados en la estructura. Para obtener más información, vea Distribuciones de columnas (minería de datos).

El tipo de contenido Continuous es compatible con los siguientes tipos de datos: Date, Doubley Long.

Discretized

Ladiscretización es el proceso mediante el cual los valores de un conjunto de datos continuo se incluyen en depósitos para que haya un número limitado de valores posibles. Solo se pueden discretizar los datos numéricos.

Por tanto, el tipo de contenido discretized indica que la columna contiene valores que representan grupos o depósitos de valores que se derivan de una columna continua. Los depósitos se tratan como si fueran valores ordenados y discretos.

Se pueden discretizar los datos manualmente, para asegurarse de que se obtienen los depósitos deseados, o se pueden utilizar los métodos de discretización proporcionados en SQL Server Analysis Services. Algunos algoritmos realizan la discretización automáticamente. Para más información, vea Cambiar la discretización de una columna en un modelo de minería de datos.

El tipo de contenido Discretized es compatible con los siguientes tipos de datos: Date, Double, Longy Text.

Clave

El tipo de contenido clave indica que la columna identifica una fila de forma inequívoca. Normalmente, en una tabla de casos, la columna de clave es un identificador numérico o de texto. Establezca el tipo de contenido en key para indicar que la columna no debe utilizarse para el análisis, sino para realizar el seguimiento de los registros.

Las tablas anidadas también tienen claves, pero el uso de la clave de tabla anidada es ligeramente diferente. En una tabla anidada debe establecer el tipo de contenido en key si la columna es el atributo que desea analizar. Los valores de la clave de tabla anidada deben ser únicos para cada caso, pero puede haber duplicados en todo el conjunto de casos.

Por ejemplo, si está analizando los productos que compran los clientes, debe establecer el tipo de contenido en Key para la columna CustomerID de la tabla de casos, y también debe establecer el tipo de contenido en Key para la columna PurchasedProducts de la tabla anidada.

Nota:

Las tablas anidadas solo están disponibles si utiliza los datos de un origen de datos externo definido como una vista del origen de datos (Analysis Services).

Este tipo de contenido es compatible con los siguientes tipos de datos: Date, Double, Longy Text.

Key Sequence

El tipo de contenido secuencia de claves solamente se puede utiliza en modelos de agrupación en clústeres de secuencia. Cuando se establece el tipo de contenido en key sequence, se indica que la columna contiene valores que representan una secuencia de eventos. Los valores están ordenados y no tienen que estar separados por una distancia equivalente.

Este tipo de contenido es compatible con los siguientes tipos de datos: Double, Long, Texty Date.

Key Time

El tipo de contenido clave temporal solamente se puede utilizar en modelos de serie temporal. Cuando se establece el tipo de contenido en key time, se indica que los valores están ordenados y que representan una escala de tiempo.

Este tipo de contenido es compatible con los siguientes tipos de datos: Double, Longy Date.

Tabla

El tipo de contenido tabla indica que la columna contiene otra tabla de datos, con una o más columnas y una o más filas. Para cualquier fila concreta de la tabla de casos, esta columna puede contener varios valores, todos ellos relacionados con el registro del caso primario. Por ejemplo, si la tabla de casos principal contiene una lista de clientes, podría tener varias columnas con tablas anidadas, como una columna ProductosComprados , donde la tabla anidada muestre una lista de los productos que este cliente ha comprado en el pasado, y una columna Aficiones que muestre las aficiones del cliente.

El tipo de datos de esta columna siempre es Table.

Cíclico

El tipo de contenido cíclico indica que la columna contiene valores que representan un conjunto ordenado cíclico. Por ejemplo, los días numerados de la semana es un conjunto ordenado cíclico, ya que el día número uno sigue al día número siete.

Las columnas cíclicas se consideran ordenadas y discretas en términos de tipo de contenido.

Todos los tipos de datos de minería de datos de SQL Server Analysis Services admiten este tipo de contenido. Sin embargo, la mayoría de los algoritmos tratan los valores cíclicos como valores discretos y no realizan ningún procesamiento especial.

Ordered (Realizado)

El tipo de contenido ordenado indica también que la columna contiene valores que definen una secuencia u orden. Sin embargo, en este tipo de contenido los valores utilizados para la ordenación no implican ninguna relación de distancia o magnitud entre los valores del conjunto. Por ejemplo, si una columna de atributos ordenados contiene información acerca de una lista de niveles de especialización que vayan del uno al cinco, no existe información implícita entre los niveles de especialización; un nivel cinco de especialización no es necesariamente cinco veces mejor que un nivel uno de especialización.

Las columnas de atributos ordenados se consideran discretas en términos de tipo de contenido.

Todos los tipos de datos de minería de datos de SQL Server Analysis Services admiten este tipo de contenido. Sin embargo, la mayoría de los algoritmos tratan los valores ordenados como valores discretos y no realizan ningún procesamiento especial.

Classified

Además de los tipos de contenido anteriores cuyo uso es común en todos los modelos, para algunos tipos de datos puede utilizar columnas clasificadas para definir tipos de contenido. Para obtener más información sobre las columnas clasificadas, vea Columnas clasificadas (minería de datos).

Consulte también

Tipos de contenido (DMX)
Tipos de datos (minería de datos)
Tipos de datos (DMX)
Cambiar las propiedades de una estructura de minería de datos
Columnas de la estructura de minería de datos