Projetos relacionados a soluções de mineração de dados

Artigo
07/30/2013

O mínimo que é necessário para uma solução de mineração de dados é o projeto de mineração de dados que define fontes de dados, exibições da fonte de dados, estruturas de mineração e modelos de mineração. Porém, quando os modelos de mineração de dados são usados no processo diário de tomadas de decisão, é importante que a mineração de dados esteja integrada com outra parte de uma solução de análises preditiva, que pode incluir estes processos e componentes:

Preparação e seleção de dados e variáveis. Inclui limpeza de dados, gerenciamento de metadados e integração de várias fontes de dados e a conversão, fusão e carregamento de dados em um data warehouse.
Relatório de análise, apresentação de previsões, e auditoria/acompanhamento de atividades de mineração de dados.
Usando modelos multidimensionais ou modelos de tabela para explorar resultados.
Refinamento da solução de mineração de dados para dar suporte a novos dados ou alterações na infraestrutura de suporte dirigida pela análise atual.

Este tópico descreve os outros recursos do SQL Server 2012 que geralmente fazem parte de uma solução de análises preditiva, para dar suporte aos processos de preparação de dados e mineração de dados, ou para dar suporte aos usuários fornecendo ferramentas para análise e ação.

Integration Services

Reporting Services

Data Quality Services

Pesquisa de texto completo

Indexação semântica

SQL Server Integration Services

O Integration Services fornece componentes e recursos que são necessários para a preparação de dados e o treinamento de fases de um projeto de mineração de dados. Embora você possa executar muitas limpezas de dados ou tarefas de preparação usando outras ferramentas, como scripts, o Integration Services tem numerosas vantagens para a mineração de dados:

Representa tarefas como parte de um fluxo de trabalho que pode ser repetido, automatizado, ramificado e estendido.
Fornece amplo suporte para auditoria e vários modos de capturar erros e registrar eventos em log.

Além de capturar a linhagem de dados, você pode monitorar as alterações aos dados ao longo do pipeline de transformação de dados.

Você também pode integrar seus fluxos de trabalho de SSIS com os recursos que dão suporte à funcionalidade Change Data Capture no SQL Server.
A mineração de dados pode ser incorporada no fluxo de trabalho do Integration Services, para separar dados de entrada inteligentemente em várias tabelas. Por exemplo, você pode usar uma consulta de previsão para dividir novos clientes em grupos diferentes para atingir em uma campanha de envio.

As listas a seguir fornecem links para os componentes do Integration Services que são usados amplamente no suporte à mineração de dados.

Componentes de fluxo de controle

Componentes de fluxo de dados

Voltar ao início

SQL Server Reporting Services

Embora o Reporting Services não seja visto normalmente como um componente crítico de soluções de mineração de dados, ele fornece os recursos a seguir que são úteis para a apresentação de soluções de mineração de dados.

Integração de dados de várias origens em relatórios complexos. Crie consultas em relação ao conteúdo do modelo para analistas, e relatórios que mostram previsões e tendências para usuários finais.
A capacidade de criar um relatório que permite que os usuários consultem diretamente um modelo de mineração existente.
Integração com o Analysis Services, para dar suporte ao detalhamento e à exploração de dimensões de mineração de dados, e cubos de mineração de dados criados de modelos OLAP.
parametrização e formatação de recursos que estão disponíveis no Reporting Services.

Para obter informações sobre como usar o Reporting Services com consultas DMX como fonte de dados, consulte esses links:

Recuperar dados de um modelo de mineração de dados (DMX) (SSRS)

Interface de usuário do Designer de Consulta DMX do Analysis Services

Tipo de conexão Analysis Services para DMX (SSRS)

Porém, não é necessário usar DMX como a fonte de dados. Os componentes do Integration Services para mineração de dados também dão suporte a gravar os resultados de uma consulta de previsão em um banco de dados relacional. Se você tiver um fluxo de trabalho estabelecido para atualizar modelos usando o Integration Services, persistir previsões e outros resultados da consulta de mineração de dados para o SQL Server permitirá que você use o Power View para relatório, assim como outras ferramentas que não fazem interface com DMX.

Para obter mais informações sobre como usar o Reporting Services como a camada de apresentação para fontes de dados, consulte Integrando o Reporting Services em aplicativos.

Voltar ao início

Data Quality Services

O DQS (Data Quality Services) é novidade no SQL Server 2012. Como os problemas de dados podem tornar a mineração de dados impossível, os mineradores de dados que executam análises repetidas ou que trabalham em organizações grandes com fontes de dados complexas devem ser capazes de descobrir que um projeto de dados bem planejado usando DQS é uma solução mais confiável para dar suporte à mineração de dados do que limpar dados ad hoc usando Transact-SQL ou outros scripts.

Os recursos de DQS a seguir devem ser considerados para preparação de dados e integridade de dados em uma solução de mineração de dados.

O processo de limpeza de dados assistido por computador que analisa dados de origem e propõe alterações.
O DQS pode comparar dados de origem com dados de referência baseados em nuvem mantidos e garantidos por provedores de qualidade de dados.

O DQS também pode analisar dados de origem brutos e criar uma base de conhecimento usando os dados de usuário. Os dados processados são categorizados e então exibidos para o usuário para processamento posterior. O processo de limpeza é interativo, ou seja, o administrador de dados pode aprovar, rejeitar ou modificar os dados propostos pelo processo de limpeza de dados assistido por computador.

O resultado do processo é uma base de conhecimento que você pode melhorar continuamente ou reutilizar em várias fases do aprimoramento de dados.

Para obter mais informações, consulte Limpeza de Dados.
O processo de correspondência assistido por computador que analisa dados de origem e propõe alterações.
Para impedir a duplicação de dados, você pode realizar limpeza adicional da fonte de dados, para identificar correspondências exatas e aproximadas. Estes componentes permitem especificar as regras compatíveis e os limites aos quais aplicá-los.

Ao localizar correspondência de dados, você pode remover duplicatas que podem ser um problema para a mineração de dados. A eliminação de duplicação de dados não é automática; o administrador de dados ou profissional de TI deve verificar o conhecimento na base de conhecimento e as alterações a serem feitas nos dados.

Depois de criar o projeto de DQS inicial, você pode automatizar muitas das tarefas usando os componentes do Integration Services.

Para obter mais informações, consulte Correspondência de dados.

Ao executar atividades de limpeza e correspondência em um projeto de qualidade de dados, você pode obter estatísticas em tempo real e informações sobre os dados que estão sendo processados por DQS. A criação de perfil de dados ajuda a avaliar até que ponto a limpeza ou a correspondência de dados ajudaram a melhorar a qualidade dos dados, e entender as alterações que foram feitas. Para obter mais informações sobre criação de perfil de dados e notificações, consulte Perfil de dados e notificações no DQS.
Uma base de conhecimento que representa três tipos de conhecimento: conhecimento pronto para uso, conhecimento gerado pelo servidor DQS e conhecimento gerado pelo usuário.
Depois de criar a base de conhecimento, você pode usá-la iterativamente para limpar e verificar outros dados.

Você pode importar novos dados nos dados da base de conhecimento de várias origens, sejam dados limpos conhecidos de provedores de referência ou dados brutos que são correspondentes a dados existentes na base de conhecimento.

Para obter informações detalhadas sobre a atividade de limpeza em um projeto de qualidade de dados, consulte Limpeza de Dados (DQS).

Você também pode aplicar o conhecimento na base de conhecimento a outras origens, para realizar limpeza de dados dentro de outros processos. Essa limpeza de dados pode ajudar a identificar erros de entrada de usuário, corrupção durante a transmissão ou armazenamento ou definições incompatíveis de dicionários de dados.

Para obter mais informações, consulte Bases de Dados de Conhecimento DQS e domínios.

Voltar ao início

Pesquisa de texto completo

A Pesquisa de Texto Completo no SQL Server permite que aplicativos e usuários executem consultas de texto completo em dados baseados em caracteres nas tabelas do SQL Server. Quando a pesquisa de texto completo está habilitada, você pode realizar pesquisas em dados de texto que são aprimorados por regras específicas de idioma sobre as várias formas de uma palavra ou frase. Você também pode configurar os critérios da pesquisa, como a distância entre vários termos e usar funções para restringir os resultados que são retornados em ordem de probabilidade.

Como as consultas de texto completo são um recurso fornecido pelo mecanismo de SQL Server, você pode criar consultas parametrizadas, gerar conjuntos de dados personalizados ou vetores de termos usando recursos de pesquisa de texto completo em uma fonte de dados de texto, e usar estas fontes em mineração de dados.

Para obter mais informações sobre como as consultas de texto completo interagem com o índice de texto completo, consulte Consulta com pesquisa de texto completo.

Uma vantagem de usar os recursos de pesquisa de texto completo do SQL Server é que você pode aproveitar a inteligência linguística que está contida nos separadores de palavras e nos lematizadores enviados para todos os idiomas do SQL Server. Usando os separadores de palavras e lematizadores fornecidos, você pode garantir que as palavras sejam separadas usando os caracteres apropriados para cada idioma, e que não sejam negligenciados os sinônimos baseados em diacríticos ou variações ortográficas (como os vários formatos de números em japonês).

Além da inteligência linguística que governa os limites de palavras, os lematizadores para cada idioma podem reduzir variantes de uma palavra para um único termo, baseado no conhecimento das regras para conjugação e variação ortográfica naquele idioma. As regras para análise linguística diferem para cada idioma e são desenvolvidas com base em pesquisa extensa em corpus da vida real.

Para obter mais informações, consulte Configurar e gerenciar separadores de palavras e lematizadores de pesquisa.

A versão de uma palavra que está armazenada depois que a indexação de texto completo seja um token em uma forma compactada. As consultas subsequentes para o índice de texto completo geram várias formas flexivas de uma palavra específica baseada nas regras desse idioma, para assegurar que todas as correspondências prováveis sejam feitas. Por exemplo, embora o token que está armazenado possa ser "run", o mecanismo de consulta também procura os termos "running", "ran" e "runner", porque eles são variações morfológicas derivadas regularmente da palavra raiz "run".

Você também pode criar e compilar um dicionário de sinônimos de usuário para armazenar sinônimos e habilitar melhores resultados de pesquisa ou categorização de termos. Ao desenvolver um dicionário de sinônimos personalizado para seus dados de texto completo, você pode efetivamente ampliar o escopo de consultas de texto completo baseadas nesses dados. Para obter mais informações, consulte Configurar e gerenciar arquivos de dicionário de sinônimos para Pesquisa de texto completo.

Os requisitos para usar pesquisa de texto completo incluem o seguinte:

O administrador de banco de dados deve criar um índice de texto completo na tabela.
Só é permitido um índice de texto completo por tabela.
Cada coluna que você indexa deve ter uma chave exclusiva.
A indexação de texto completo tem suporte somente para colunas com esses tipos de dados: char, varchar, nchar, nvarchar, text, ntext, image, xml, varbinary e varbinary(max). Se a coluna for varbinary, varbinary(max), image ou xml, você deve especificar a extensão de arquivo do documento indexável (.doc, .pdf, .xls, e assim sucessivamente), em uma coluna de tipo separada.

Voltar ao início

Indexação semântica

A pesquisa semântica é criada com os recursos de pesquisa de texto completo existentes no SQL Server, mas usa recursos e estatísticas adicionais para habilitar cenários como extração de palavra-chave automática e descoberta de documentos relacionados. Por exemplo, você pode usar pesquisa semântica para criar uma taxonomia de base para uma organização ou classificar um corpus de documentos. Ou você pode usar a combinação de termos extraídos e pontuações de similaridade de documentos em modelos de clustering ou de árvore de decisão.

Depois de habilitar a pesquisa semântica com êxito e de ter indexado suas colunas de dados, você pode usar as funções que são fornecidas nativamente com indexação semântica para fazer o seguinte:

Retornar frases chave de palavra única com a sua contagem.
Retornar documentos que contêm uma frase chave especificada.
Retornar pontuações de similaridade e os termos que contribuem para a contagem.

Para obter mais informações, consulte Localizar frases chave em documentos com pesquisa semântica e Localizar documentos semelhantes e relacionados com a pesquisa semântica.

Para obter mais informações sobre os objetos de banco de dados que dão suporte à indexação semântica, consulte Habilitar a pesquisa semântica em tabelas e colunas.

Os requisitos para usar pesquisa semântica incluem o seguinte:

A pesquisa de texto completo também deve ser habilitada.
A instalação dos componentes de pesquisa semântica também cria um banco de dados do sistema especial que não pode ser renomeado, alterado ou substituído.
Os documentos que você indexa usando o serviço devem ser armazenados no SQL Server, em qualquer um dos objetos de banco de dados com suporte para indexação de texto completo, inclusive tabelas e exibições indexadas.
Nem todos os idiomas de texto completo dão suporte à indexação semântica. Para obter uma lista dos idiomas com suporte, consulte sys.fulltext_semantic_languages (Transact-SQL).

Voltar ao início

Consulte também

Conceitos

Soluções em modelo multidimensional (SSAS)

Soluções de modelo tabular (SSAS tabular)

Partilhar via

Projetos relacionados a soluções de mineração de dados

SQL Server Integration Services

SQL Server Reporting Services

Data Quality Services

Pesquisa de texto completo

Indexação semântica

Consulte também

Conceitos

Recursos adicionais