Compartilhar via


Projetos relacionados a soluções de mineração de dados

Aplica-se a: SQL Server 2019 e anteriores do Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

A mineração de dados foi preterida no SQL Server 2017 Analysis Services e agora foi descontinuada no SQL Server 2022 Analysis Services. A documentação não foi atualizada para recursos preteridos e descontinuados. Para saber mais, confira Compatibilidade com versões anteriores do Analysis Services.

O mínimo que é necessário para uma solução de mineração de dados é o projeto de mineração de dados que define fontes de dados, exibições da fonte de dados, estruturas de mineração e modelos de mineração. Porém, quando os modelos de mineração de dados são usados no processo diário de tomadas de decisão, é importante que a mineração de dados esteja integrada com outra parte de uma solução de análises preditiva, que pode incluir estes processos e componentes:

  • Preparação e seleção de dados e variáveis. Inclui limpeza de dados, gerenciamento de metadados e integração de várias fontes de dados e a conversão, fusão e carregamento de dados em um data warehouse.

  • Relatório de análise, apresentação de previsões, e auditoria/acompanhamento de atividades de mineração de dados.

  • Usando modelos multidimensionais ou modelos de tabela para explorar resultados.

  • Refinamento da solução de mineração de dados para dar suporte a novos dados ou alterações na infraestrutura de suporte dirigida pela análise atual.

Este tópico descreve os outros recursos do SQL Server 2017 que geralmente fazem parte de uma solução de análise preditiva, seja para dar suporte aos processos de preparação de dados e mineração de dados, ou para dar suporte aos usuários fornecendo ferramentas para análise e ação.

Serviços de Integração

Reporting Services

Data Quality Services

Pesquisa de texto completo

Indexação semântica

SQL Server Integration Services

O Integration Services fornece componentes e recursos necessários para as fases de preparação e treinamento de dados de um projeto de mineração de dados. Embora você possa executar muitas tarefas de limpeza ou preparação de dados usando outras ferramentas, como scripts, o Integration Services tem inúmeras vantagens para mineração de dados:

  • Representa tarefas como parte de um fluxo de trabalho que pode ser repetido, automatizado, ramificado e estendido.

  • Fornece amplo suporte para auditoria e vários modos de capturar erros e registrar eventos em log.

    Além de capturar a linhagem de dados, você pode monitorar as alterações aos dados ao longo do pipeline de transformação de dados.

    Você também pode integrar seus fluxos de trabalho de SSIS com os recursos que dão suporte à funcionalidade Change Data Capture no SQL Server.

  • A mineração de dados pode ser incorporada no fluxo de trabalho do Integration Services para separar de forma inteligente os dados de entrada em várias tabelas. Por exemplo, você pode usar uma consulta de previsão para dividir novos clientes em grupos diferentes para atingir em uma campanha de envio.

As listas a seguir fornecem links para os componentes do Integration Services que são mais amplamente usados no suporte à mineração de dados.

Componentes de fluxo de controle

Componentes de fluxo de dados

SQL Server Reporting Services

Embora Reporting Services normalmente não seja visto como um componente crítico das soluções de mineração de dados, ele fornece os seguintes recursos que são úteis para a apresentação de soluções de mineração de dados.

  • Integração de dados de várias origens em relatórios complexos. Crie consultas em relação ao conteúdo do modelo para analistas, e relatórios que mostram previsões e tendências para usuários finais.

  • A capacidade de criar um relatório que permite que os usuários consultem diretamente um modelo de mineração existente.

  • Integração com SQL Server Analysis Services, para dar suporte ao detalhamento e à exploração de dimensões de mineração de dados e cubos de mineração de dados criados a partir de modelos OLAP.

  • recursos de parametrização e formatação disponíveis no Reporting Services.

Para obter informações sobre como usar o Reporting Services com consultas DMX como fonte de dados, consulte esses links:

Recuperar dados de um modelo de mineração de dados (DMX) (SSRS)

Interface de usuário do Designer de Consulta DMX do Analysis Services

Tipo de conexão Analysis Services para DMX (SSRS)

Porém, não é necessário usar DMX como a fonte de dados. Os componentes do Integration Services para mineração de dados também dão suporte para salvar os resultados de uma consulta de previsão em um banco de dados relacional. Se você tiver um fluxo de trabalho estabelecido para atualizar modelos usando o Integration Services, persistindo previsões e outros resultados de consulta de mineração de dados para SQL Server permitir que você use o Power View para relatórios, bem como outras ferramentas que não são interface com o DMX.

Para obter mais informações sobre como usar o Reporting Services como a camada de apresentação para fontes de dados, consulte Integrating Reporting Services into Applications.

Data Quality Services

O DQS (Data Quality Services) é novo no SQL Server 2017. Como os problemas de dados podem tornar a mineração de dados impossível, os mineradores de dados que executam análises repetidas ou que trabalham em grandes organizações com fontes de dados complexas devem descobrir que um projeto de dados bem planejado usando o DQS é uma solução mais confiável para dar suporte à mineração de dados do que a limpeza ad hoc de dados usando o Transact-SQL ou outros scripts.

Os recursos de DQS a seguir devem ser considerados para preparação de dados e integridade de dados em uma solução de mineração de dados.

O processo de limpeza de dados assistido por computador que analisa dados de origem e propõe alterações.
O DQS pode comparar dados de origem com dados de referência baseados em nuvem mantidos e garantidos por provedores de qualidade de dados.

O DQS também pode analisar dados de origem brutos e criar uma base de conhecimento usando os dados de usuário. Os dados processados são categorizados e então exibidos para o usuário para processamento posterior. O processo de limpeza é interativo, ou seja, o administrador de dados pode aprovar, rejeitar ou modificar os dados propostos pelo processo de limpeza de dados assistido por computador.

O resultado do processo é uma base de conhecimento que você pode melhorar continuamente ou reutilizar em várias fases do aprimoramento de dados.

Para obter mais informações, consulte Data Cleansing.

O processo de correspondência assistido por computador que analisa dados de origem e propõe alterações.
Para impedir a duplicação de dados, você pode realizar limpeza adicional da fonte de dados, para identificar correspondências exatas e aproximadas. Estes componentes permitem especificar as regras compatíveis e os limites aos quais aplicá-los.

Ao localizar correspondência de dados, você pode remover duplicatas que podem ser um problema para a mineração de dados. A eliminação de duplicação de dados não é automática; o administrador de dados ou profissional de TI deve verificar o conhecimento na base de conhecimento e as alterações a serem feitas nos dados.

Depois de criar o projeto DQS inicial, você pode automatizar muitas das tarefas usando componentes do Integration Services.

Para obter mais informações, consulte Data Matching.

Ao executar atividades de limpeza e correspondência em um projeto de qualidade de dados, você pode obter estatísticas em tempo real e informações sobre os dados que estão sendo processados por DQS. A criação de perfil de dados ajuda a avaliar até que ponto a limpeza ou a correspondência de dados ajudaram a melhorar a qualidade dos dados, e entender as alterações que foram feitas. Para obter mais informações sobre criação de perfil de dados e notificações, consulte Data Profiling and Notifications in DQS.

Uma base de conhecimento que representa três tipos de conhecimento: conhecimento pronto para uso, conhecimento gerado pelo servidor DQS e conhecimento gerado pelo usuário.
Depois de criar a base de conhecimento, você pode usá-la iterativamente para limpar e verificar outros dados.

Você pode importar novos dados nos dados da base de conhecimento de várias origens, sejam dados limpos conhecidos de provedores de referência ou dados brutos que são correspondentes a dados existentes na base de conhecimento.

Para obter informações detalhadas sobre a atividade de limpeza em um projeto de qualidade de dados, consulte Limpeza de Dados (DQS).

Você também pode aplicar o conhecimento na base de conhecimento a outras origens, para realizar limpeza de dados dentro de outros processos. Essa limpeza de dados pode ajudar a identificar erros de entrada de usuário, corrupção durante a transmissão ou armazenamento ou definições incompatíveis de dicionários de dados.

Para obter mais informações, consulte DQS Knowledge Bases and Domains.

Pesquisa de Texto Completo

A Pesquisa de Texto Completo no SQL Server permite que aplicativos e usuários executem consultas de texto completo em dados baseados em caracteres nas tabelas do SQL Server. Quando a pesquisa de texto completo está habilitada, você pode realizar pesquisas em dados de texto que são aprimorados por regras específicas de idioma sobre as várias formas de uma palavra ou frase. Você também pode configurar os critérios da pesquisa, como a distância entre vários termos e usar funções para restringir os resultados que são retornados em ordem de probabilidade.

Como as consultas de texto completo são um recurso fornecido pelo mecanismo de SQL Server, você pode criar consultas parametrizadas, gerar conjuntos de dados personalizados ou vetores de termos usando recursos de pesquisa de texto completo em uma fonte de dados de texto, e usar estas fontes em mineração de dados.

Para obter mais informações sobre como as consultas de texto completo interagem com o índice de texto completo, consulte Consulta com pesquisa de texto completo.

Uma vantagem de usar os recursos de pesquisa de texto completo do SQL Server é que você pode aproveitar a inteligência linguística que está contida nos separadores de palavras e nos lematizadores enviados para todos os idiomas do SQL Server. Usando os separadores de palavras e lematizadores fornecidos, você pode garantir que as palavras sejam separadas usando os caracteres apropriados para cada idioma, e que não sejam negligenciados os sinônimos baseados em diacríticos ou variações ortográficas (como os vários formatos de números em japonês).

Além da inteligência linguística que governa os limites de palavras, os lematizadores para cada idioma podem reduzir variantes de uma palavra para um único termo, baseado no conhecimento das regras para conjugação e variação ortográfica naquele idioma. As regras para análise linguística diferem para cada idioma e são desenvolvidas com base em pesquisa extensa em corpus da vida real.

Para obter mais informações, veja Configurar e gerenciar separadores de palavras e lematizadores para pesquisa.

A versão de uma palavra que está armazenada depois que a indexação de texto completo seja um token em uma forma compactada. As consultas subsequentes para o índice de texto completo geram várias formas flexivas de uma palavra específica baseada nas regras desse idioma, para assegurar que todas as correspondências prováveis sejam feitas. Por exemplo, embora o token armazenado possa ser "executar", o mecanismo de consulta também procura os termos "em execução", "executado" e "executor", porque são variações morfológicas derivadas regularmente da palavra raiz "run".

Você também pode criar e compilar um dicionário de sinônimos de usuário para armazenar sinônimos e habilitar melhores resultados de pesquisa ou categorização de termos. Ao desenvolver um dicionário de sinônimos personalizado para seus dados de texto completo, você pode efetivamente ampliar o escopo de consultas de texto completo baseadas nesses dados. Para obter mais informações, veja Configurar e gerenciar arquivos de dicionário de sinônimos para pesquisa de texto completo.

Os requisitos para usar pesquisa de texto completo incluem o seguinte:

  • O administrador de banco de dados deve criar um índice de texto completo na tabela.

  • Só é permitido um índice de texto completo por tabela.

  • Cada coluna que você indexa deve ter uma chave exclusiva.

  • A indexação de texto completo tem suporte somente para colunas com esses tipos de dados: char, varchar, nchar, nvarchar, text, ntext, image, xml, varbinary e varbinary(max). Se a coluna for varbinary, varbinary(max), image ou xml, você deve especificar a extensão de arquivo do documento indexável (.doc, .pdf, .xls, e assim sucessivamente), em uma coluna de tipo separada.

Indexação semântica

A pesquisa semântica é criada com os recursos de pesquisa de texto completo existentes no SQL Server, mas usa recursos e estatísticas adicionais para habilitar cenários como extração de palavra-chave automática e descoberta de documentos relacionados. Por exemplo, você pode usar pesquisa semântica para criar uma taxonomia de base para uma organização ou classificar um corpus de documentos. Ou você pode usar a combinação de termos extraídos e pontuações de similaridade de documentos em modelos de clustering ou de árvore de decisão.

Depois de habilitar a pesquisa semântica com êxito e de ter indexado suas colunas de dados, você pode usar as funções que são fornecidas nativamente com indexação semântica para fazer o seguinte:

  • Retornar frases chave de palavra única com a sua contagem.

  • Retornar documentos que contêm uma frase chave especificada.

  • Retornar pontuações de similaridade e os termos que contribuem para a contagem.

Para obter mais informações, veja Localizar frases-chave em documentos com a pesquisa semântica e Localizar documentos semelhantes e relacionados com a pesquisa semântica.

Para obter mais informações sobre os objetos de banco de dados que dão suporte à indexação semântica, consulte Habilitar a pesquisa semântica em tabelas e colunas.

Os requisitos para usar pesquisa semântica incluem o seguinte:

  • A pesquisa de texto completo também deve ser habilitada.

  • A instalação dos componentes de pesquisa semântica também cria um banco de dados do sistema especial que não pode ser renomeado, alterado ou substituído.

  • Os documentos que você indexa usando o serviço devem ser armazenados no SQL Server, em qualquer um dos objetos de banco de dados com suporte para indexação de texto completo, inclusive tabelas e exibições indexadas.

  • Nem todos os idiomas de texto completo dão suporte à indexação semântica. Para obter uma lista de idiomas com suporte, consulte sys.fulltext_semantic_languages (Transact-SQL).