Compartir a través de


Proyectos relacionados en las soluciones de minería de datos

Se aplica a: SQL Server 2019 y versiones anteriores de Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

La minería de datos estaba en desuso en SQL Server 2017 Analysis Services y ahora se ha interrumpido en SQL Server 2022 Analysis Services. La documentación no se actualiza para las características en desuso e interrumpidas. Para más información, consulte Compatibilidad con versiones anteriores de Analysis Services.

Lo mínimo que se requiere para una solución de minería de datos es el proyecto de minería de datos, que define los orígenes de datos, las vistas del origen de datos, las estructuras y los modelos de minería de datos. Sin embargo, cuando los modelos de minería de datos se utilizan en la toma de decisiones diaria, es importante que la minería de datos se integre con otra parte de una solución de predicción de análisis, que puede incluir estos procesos y componentes:

  • Preparación y selección de datos y variables. Incluye la limpieza de datos, la administración metadatos y la integración de orígenes de datos, y la conversión, combinación y carga de datos en un almacenamiento de datos.

  • Informes de análisis, presentación de predicciones y auditoría y seguimiento de las actividades de minería de datos.

  • Uso de modelos multidimensionales o modelos tabulares para explorar los hallazgos.

  • Perfeccionamiento de la solución de minería de datos para proporcionar nuevos datos o cambios en la infraestructura de soporte motivados por un análisis actual.

En este tema se describen las otras características de SQL Server 2017 que a menudo forman parte de una solución de análisis predictivo, ya sea para admitir los procesos de preparación de datos y minería de datos, o para admitir a los usuarios proporcionando herramientas para el análisis y la acción.

Servicio de integración

Reporting Services

Data Quality Services

Búsqueda de texto completo

Indización semántica

SQL Server Integration Services

Integration Services proporciona componentes y características necesarios para las fases de preparación y entrenamiento de datos de un proyecto de minería de datos. Aunque puede realizar muchas tareas de limpieza o preparación de datos mediante otras herramientas, como scripts, Integration Services tiene numerosas ventajas para la minería de datos:

  • Representa las tareas como parte de un flujo de trabajo, que puede repetirse, automatizarse, bifurcarse y ampliarse.

  • Proporciona amplias funciones de auditoría auditar y varias formas de capturar los errores y registrar los eventos.

    Además de capturar el linaje de los datos, puede supervisar los cambios en los datos a través de la canalización de transformación de datos.

    También puede integrar los flujos de trabajo SSIS con las características que admiten la funcionalidad Captura de datos modificados en SQL Server.

  • La minería de datos se puede incorporar en el flujo de trabajo de Integration Services para separar de forma inteligente los datos entrantes en varias tablas. Por ejemplo, puede utilizar una consulta de predicción para dividir los nuevos clientes en grupos distintos para los destinatarios de una campaña de correo.

En las listas siguientes se proporcionan vínculos a los componentes de Integration Services que se usan con más frecuencia para la minería de datos.

Componentes de flujo de control

Componentes de Data Flow

SQL Server Reporting Services

Aunque Reporting Services normalmente no se considera un componente crítico de las soluciones de minería de datos, proporciona las siguientes características que son útiles para la presentación de soluciones de minería de datos.

  • Integración de datos de varios orígenes en informes complejos. Creación de consultas con el contenido de modelos para los analistas e informes que muestran predicciones y tendencias de los usuarios finales.

  • La capacidad de crear un informe que permita a los usuarios realizar consultas directamente en un modelo de minería de datos existente.

  • Integración con SQL Server Analysis Services, para admitir la obtención de detalles y la exploración de dimensiones de minería de datos y cubos de minería de datos creados a partir de modelos OLAP.

  • parametrización y características de formato que están disponibles en Reporting Services.

Para obtener más información sobre cómo usar Reporting Services con consultas DMX como origen de datos, vea los siguientes vínculos:

Recuperar datos de un modelo de minería de datos (DMX) (SSRS)

Interfaz de usuario del Diseñador de consultas DMX de Analysis Services

Tipo de conexión de Analysis Services para DMX (SSRS)

Sin embargo, no es necesario utilizar DMX como origen de datos. Los componentes de Integration Services para la minería de datos también admiten guardar los resultados de una consulta de predicción en una base de datos relacional. Si tiene un flujo de trabajo establecido para actualizar modelos mediante Integration Services, conservar predicciones y otros resultados de consulta de minería de datos para SQL Server permitirle usar Power View para informes, así como otras herramientas que no interactúan con DMX.

Para obtener más información sobre cómo usar Reporting Services como nivel de presentación para los orígenes de datos, vea Integrating Reporting Services into Applications.

Data Quality Services

Data Quality Services (DQS) es nuevo en SQL Server 2017. Dado que los problemas de datos pueden hacer imposible la minería de datos, se espera que los mineros de datos que realizan análisis repetidos o que trabajan en grandes organizaciones con orígenes de datos complejos encuentren que un proyecto de datos bien planeado mediante DQS es una solución más confiable para admitir la minería de datos que la limpieza ad hoc de datos mediante Transact-SQL u otros scripts.

Las siguientes características de DQS deben considerarse para la preparación y la integridad de los datos en una solución de minería de datos.

Un proceso de limpieza de datos asistido por PC que analice los datos de origen y proponga cambios.
DQS puede comparar los datos de un origen con los datos de referencia basados en nube que son mantenidos y garantizados por los proveedores de calidad de los datos.

DQS también puede analizar los datos de origen sin formato y crear una base de conocimiento a partir de los datos de usuario. Los datos procesados se clasifican y muestran después al usuario para seguir procesándose. El proceso de limpieza es interactivo, lo que significa que el administrador de datos puede aprobar, rechazar o modificar los datos propuestos por el proceso de limpieza de datos asistido por PC.

El resultado del proceso es una base de conocimiento que puede mejorar continuamente o bien reutilizar en varias fases de mejora de los datos.

Para más información, consulte Data Cleansing.

Un proceso de correspondencia asistido por PC que analice los datos de origen y proponga cambios.
Para evitar la duplicación de los datos, puede realizar una limpieza adicional del origen de datos, para identificar coincidencias exactas o aproximadas. Estos componentes permiten especificar las reglas de correspondencia y los umbrales en los que aplicarlas.

Al buscar correspondencias en los datos, puede quitar los duplicados, que pueden constituir un problema para la minería de datos. La no duplicación de los datos no es automática; el administrador de datos o el profesional de TI debe comprobar tanto el conocimiento de la base de conocimiento como los cambios que se realizan en los datos.

Después de crear el proyecto de DQS inicial, puede automatizar muchas de las tareas mediante componentes de Integration Services.

Para más información, consulte Data Matching.

Al realizar las actividades de correspondencia y limpieza en un proyecto de calidad de los datos, puede obtener estadísticas e información en tiempo real de los datos que DQS procesó. Los perfiles de datos le ayudan a evaluar en qué medida la correspondencia o la limpieza de los datos ayudaron a mejorar su calidad y a conocer los cambios realizados. Para obtener información acerca de las notificaciones y de los perfiles de datos, vea Data Profiling and Notifications in DQS.

Una base de conocimiento que representa tres tipos de conocimiento: el conocimiento previo, el generado por el servidor de DQS y el generado por el usuario.
Una vez que haya creado una base de conocimiento, puede utilizarla continuamente para limpiar y comprobar otros datos.

Puede importar los datos nuevos en los datos de la base de conocimiento de varios orígenes, ya sean los datos limpios conocidos de proveedores de referencia o los datos sin formato que coinciden con los datos existentes en la base de conocimiento.

Para obtener información detallada acerca de la actividad de limpieza en un proyecto de calidad de datos, vea Limpieza de datos (DQS).

También puede aplicar el conocimiento de la base de conocimiento a otros orígenes, a fin de realizar la limpieza de los datos dentro de otros procesos. Tal limpieza de datos puede ayudar a identificar los errores provocados por los usuarios al introducirlos, daños durante la transmisión o el almacenamiento, o definiciones de diccionarios de datos no coincidentes.

Para obtener más información, consulte DQS Knowledge Bases and Domains.

Búsqueda de texto completo

La búsqueda de texto completo de SQL Server permite a las aplicaciones y a los usuarios ejecutar consultas de texto completo en datos basados en caracteres en las tablas de SQL Server. Cuando se habilita la búsqueda de texto completo, puede realizar búsquedas en los datos de texto que son mejoradas mediante reglas específicas del idioma acerca de las diversas formas de una palabra o frase. También puede configurar las condiciones de búsqueda, como la distancia entre varios términos, y utilizar funciones para restringir los resultados devueltos por orden de probabilidad.

Puesto que las consultas de texto completo son una característica que proporciona el motor de SQL Server, puede crear consultas con parámetros, generar conjuntos de datos personalizados o vectores de términos mediante características de búsqueda de texto completo en un origen de datos de texto y utilizar estos orígenes de minería de datos.

Para más información sobre cómo interactúan las consultas de texto completo con el índice de texto completo, vea Consultar con búsqueda de texto completo.

Una ventaja del uso de las características de búsqueda de texto completo de SQL Server es que puede aprovechar la inteligencia lingüística que se encuentra en los separadores de palabras y los lematizadores proporcionados en todos los idiomas de SQL Server. Mediante el uso de los separadores de palabras y los lematizadores proporcionados, puede asegurarse de que las palabras se separan mediante los caracteres apropiados para cada idioma y de que los sinónimos basados en signos diacríticos o variaciones ortográficas (como los formatos de número, en japonés) no se pasan por alto.

Además de la inteligencia lingüística que rige los límites de las palabras, los lematizadores de cada idioma pueden reducir las variantes de una palabra un único término, según el conocimiento de las reglas de la conjugación y la variación ortográfica en ese idioma. Las reglas para el análisis lingüístico difieren para cada idioma y se desarrollan en función de una amplia investigación en el corpus de uso real.

Para obtener más información, vea Configurar y administrar separadores de palabras y lematizadores para la búsqueda.

La versión de una palabra que se almacena después de una indización de texto completo es un símbolo en formato comprimido. Las consultas posteriores al índice de texto completo generan formas no flexionadas de una palabra determinada según las reglas de ese idioma, para asegurarse de que se realizan todas las coincidencias probables. Por ejemplo, aunque el token almacenado podría ser "run", el motor de consultas también busca los términos "running", "ran" y "runner", porque se derivan regularmente variaciones morfológicas de la palabra raíz "run".

También puede crear y generar un diccionario de sinónimos de usuario para almacenar los sinónimos y habilitar mejores resultados de la búsqueda, o la clasificación de los términos. Al desarrollar un diccionario de sinónimos personalizado para los datos de texto completo, puede ampliar de forma eficaz el ámbito de las consultas de texto completo en esos datos. Para obtener más información, vea Configurar y administrar archivos de sinónimos para búsquedas de texto completo.

Algunos requisitos para utilizar la búsqueda de texto completo son los siguientes:

  • El administrador de la base de datos debe crear un índice de texto completo en la tabla.

  • Solo se permite un índice de texto completo por cada tabla.

  • Cada columna que se indiza debe tener una clave única.

  • La indización de texto completo solo se admite para las columnas con estos tipos de datos: char, varchar, nchar, nvarchar, text, ntext, image, xml, varbinary y varbinary(max). Si la columna es varbinary, varbinary (max), image o XML, debe especificar la extensión de archivo del documento indizable (.doc, .pdf, .xls, etc.), en una columna de tipo independiente.

Indización semántica

La búsqueda semántica se basa en las características de búsqueda de texto completo existentes en SQL Server, pero utiliza estadísticas y funciones adicionales para escenarios como la extracción automática de palabras clave y la detección de documentos relacionados. Por ejemplo, puede usar la búsqueda semántica para generar una taxonomía base para una organización u ordenar un corpus de documentos. O bien, podría utilizar la combinación de los términos extraídos y las clasificaciones de similitud de los documentos en los modelos de árbol de decisión o de un clúster.

Después de habilitar la búsqueda semántica correctamente e indizar sus columnas de datos, puede utilizar las funciones que se proporcionan de modo nativo con la indización semántica para lo siguiente:

  • Devolver las frases con una sola palabra clave con su clasificación.

  • Devolver los documentos que contengan una frase clave especificada.

  • Ejecutar clasificaciones de similitud y los términos que contribuyan a las mismas.

Para obtener más información, vea Buscar frases clave en documentos con la búsqueda semántica y Buscar documentos similares y relacionados con la búsqueda semántica.

Para más información sobre los objetos de base de datos compatibles con la indexación semántica, vea Habilitar la búsqueda semántica en tablas y columnas.

Entre los requisitos para utilizar la búsqueda semántica se encuentran los siguientes:

  • La búsqueda de texto completo también está habilitada.

  • La instalación de los componentes de la búsqueda semántica también crea una base de datos de sistema especial, que no se puede cambiar, modificar ni reemplazar.

  • Los documentos que indice mediante el servicio se deben almacenar en SQL Server, en alguno de los objetos de base de datos admitidos en la indización de texto completo, incluidas las tablas y las vistas indizadas.

  • No todos los idiomas de texto completo admiten la indización semántica. Para obtener una lista de los lenguajes admitidos, consulte sys.fulltext_semantic_languages (Transact-SQL).