Projetos de mineração de dados
Um projeto de mineração de dados faz parte de uma solução do Analysis Services. Durante o processo de design, os objetos que você cria neste projeto estão disponíveis para teste e consulta como parte de um banco de dados de espaço de trabalho. Quando você quiser que os usuários possam consultar ou procurar os objetos no projeto, deverá implantar o projeto em uma instância do Analysis Services executado em modo multidimensional.
Este tópico fornece as informações básicas necessárias para entender e criar projetos de mineração de dados.
Criando projetos de mineração de dados
Objetos em projetos de mineração de dados
Fontes de dados
Exibições da fonte de dados
Estruturas de mineração
Modelos de mineração
Usando um projeto concluído de mineração de dados
Exibir e explorar modelos
Testar e validar modelos
Criar previsões
Acesso programático a projetos de mineração de dados
Criando projetos de mineração de dados
No SSDT (SQL Server Data Tools), você cria projetos de mineração de dados usando o modelo Projeto OLAP e de Mineração de Dados. Você também pode criar projetos de mineração de dados programaticamente, usando o AMO. É possível gerar o script dos objetos de mineração de dados individuais com a linguagem ASSL (Analysis Services Scripting Language). Para obter mais informações, consulte Acesso a dados de modelo multidimensional (Analysis Services – Dados Multidimensionais).
Se você criar um projeto de mineração de dados dentro de uma solução existente, por padrão os objetos de mineração de dados serão implantados em um banco de dados do Analysis Services com o mesmo nome do arquivo de solução. Você pode alterar este nome e o servidor de destino usando a caixa de diálogo Propriedades do Projeto. Para obter mais informações, consulte Configurar propriedades do projeto do Analysis Services (SSDT).
Cuidado |
---|
Para criar e implantar seu projeto com êxito, você deverá ter acesso a uma instância do Analysis Services que esteja sendo executada no modo OLAP/Mineração de dados. Você não pode desenvolver ou implantar soluções de mineração de dados em uma instância do Analysis Services que dá suporte a modelos de tabela, nem pode usar dados diretamente de uma pasta de trabalho PowerPivot ou de um modelo de tabela que usa o repositório de dados na memória. Para determinar se a instância do Analysis Services que você tem dá suporte à mineração de dados, consulte Determina o Modo de Servidor de uma instância do Analysis Services.. |
Dentro de cada projeto de mineração de dados que você cria, você seguirá estas etapas:
Escolha uma fonte de dados, como um cubo, banco de dados ou arquivos de texto ou do Excel, que contém os dados brutos que você usará para criar modelos.
Defina um subconjunto dos dados na fonte de dados para usar para análise, e salve-o como uma exibição da fonte de dados.
Defina uma estrutura de mineração para dar suporte à modelagem.
Adicione modelos de mineração à estrutura de mineração, escolhendo um algoritmo e especificando como ele tratará os dados.
Treine os modelos populando-os com os dados selecionados ou um subconjunto filtrado dos dados.
Explore, teste e recrie modelos.
Quando o projeto estiver concluído, você poderá implantá-lo para os usuários navegarem ou consultarem, ou poderá fornecer acesso programático aos modelos de mineração em um aplicativo, para dar suporte a previsões e análises.
Voltar ao início
Objetos em projetos de mineração de dados
Todos os projetos de mineração de dados contêm os quatro tipos de objetos a seguir. Você pode ter vários objetos de todos os tipos.
Fontes de dados
Exibições da fonte de dados
Estruturas de mineração
Modelos de mineração
Por exemplo, um único projeto de mineração de dados pode conter uma referência a várias fontes de dados, com cada fonte de dados dando suporte a várias exibições das fontes de dados. Em troca, cada exibição da fonte de dados pode dar suporte a várias estruturas de mineração, cada uma com muitos modelos de mineração relacionados.
Além disso, seu projeto pode incluir algoritmos de plug-in, assemblies personalizados ou procedimentos armazenados personalizados; porém, estes objetos não são descritos aqui. Para obter mais informações, consulte Guia do desenvolvedor (Analysis Services).
Voltar ao início
Fontes de Dados
A fonte de dados define a cadeia de conexão e as informações de autenticação que o servidor do Analysis Services usará para se conectar com a fonte de dados. A fonte de dados pode conter várias tabelas ou exibições; pode ser simples como uma única pasta de trabalho do Excel ou arquivo de texto, ou complexa como um banco de dados OLAP (processamento analítico online) ou banco de dados relacional grande.
Um único projeto de mineração de dados pode fazer referência a diversas fontes de dados. Embora um modelo de mineração possa usar somente uma fonte de dados de cada vez, o projeto pode ter vários desenhos de modelos em diferentes fontes de dados.
O Analysis Services dá suporte a dados de muitos provedores externos, e a Mineração de Dados do SQL Server pode usar dados relacionais e de cubo como uma fonte de dados. Porém, se você desenvolver ambos os tipos de projetos — modelos baseados em fontes relacionais e modelos baseados em cubos OLAP — poderá querer desenvolvê-los e gerenciá-los em projetos separados.
Geralmente, os modelos que são baseados em um cubo OLAP devem ser desenvolvidos dentro da solução de design OLAP. Uma razão é que os modelos baseados em um cubo devem processá-lo para atualizar os dados. Geralmente, você só deverá usar dados de cubo quando esse for o meio principal de armazenamento de dados e acesso, ou quando precisar das agregações, dimensões e atributos criados pelo projeto multidimensional.
Se seu projeto somente usar dados relacionais, você deverá criar os modelos relacionais dentro de um projeto separado, de forma que não reprocesse outros objetos desnecessariamente. Em muitos casos, o banco de dados de preparo ou data warehouse usado para dar suporte à criação de cubo já contém as exibições que são necessárias para executar a mineração de dados, e você pode usar essas exibições para mineração de dados em vez de usar as agregações e as dimensões no cubo.
Você não pode usar na memória ou dados PowerPivot diretamente para criar modelos de mineração de dados.
A fonte de dados somente identifica o servidor ou provedor e o tipo geral de dados. Se você precisar alterar a formatação de dados e as agregações, use o objeto de exibição da fonte de dados.
Para controlar o modo como os dados da fonte de dados são tratados, você poderá adicionar colunas derivadas ou cálculo, modificar agregações ou renomear colunas nos dados na exibição da fonte de dados. (Você também pode trabalhar com dados downstream, modificando as colunas da estrutura de mineração, ou usando sinalizadores de modelagem e filtros no nível da coluna do modelo de mineração.)
Se a limpeza de dados for necessária, ou os dados no data warehouse tiverem que ser modificados para criar variáveis adicionais, alterar os tipos de dados ou criar agregação alternativa, você poderá precisar criar tipos de projetos adicionais para dar suporte à mineração de dados. Para obter mais informações sobre esses projetos relacionados, consulte Projetos relacionados a soluções de mineração de dados.
Voltar ao início
Exibições da Fonte de Dados
Depois de definir essa conexão a uma fonte de dados, você cria uma exibição que identifica os dados específicos que são relevantes para seu modelo.
A exibição da fonte de dados também permite que você personalize a forma como os dados na fonte de dados são fornecidos para o modelo de mineração. É possível modificar a estrutura dos dados para torná-la mais relevante para o seu projeto ou selecionar apenas determinados tipos de dados.
Por exemplo, usando a Exibição da Fonte de Dados, você pode:
Criar colunas derivadas, como dateparts, subcadeia de caracteres etc.
Agregar valores usando instruções Transact-SQL, como GROUP BY
Restringir dados temporariamente ou dados de exemplo
Para obter mais informações sobre como você pode modificar dados dentro de uma exibição da fonte de dados, consulte Exibições de fontes de dados em modelos multidimensionais.
Cuidado |
---|
Se quiser filtrar dados, poderá fazê-lo na exibição da fonte de dados, mas também poderá criar filtros nos dados no nível do modelo de mineração. Como a definição de filtro está armazenada com o modelo de mineração, usar filtros de modelo facilita a determinação dos dados que foram usados para treinar o modelo. Além disso, você pode criar diversos modelos relacionados, com critérios de filtro diferentes. Para obter mais informações, consulte Filtros para modelos de mineração (Analysis Services - Mineração de dados). |
Observe que a exibição da fonte de dados que você cria pode conter dados adicionais que não são usados diretamente para análise. Por exemplo, é possível adicionar à sua exibição da fonte de dados os dados que são usados para teste, previsões ou detalhamento. Para obter mais informações sobre esses usos, consulte Teste e validação (mineração de dados) e Detalhamento.
Voltar ao início
Estruturas de mineração
Quando tiver criado sua fonte de dados e a exibição da fonte de dados, você deverá selecionar as colunas de dados que são mais relevantes a seu problema dos negócios, definindo as estruturas de mineração dentro do projeto. Uma estrutura de mineração diz ao projeto quais colunas da exibição da fonte de dados devem ser de fato usadas para modelagem, treino e teste.
Para adicionar uma nova estrutura de mineração, inicie o Assistente de Mineração de Dados. O assistente automaticamente define a estrutura de mineração, acompanha você pelo processo de escolher os dados e, como opção, permite adicionar um modelo de mineração inicial à estrutura. Dentro da estrutura de mineração, você escolhe tabelas e colunas da exibição da fonte de dados ou de um cubo OLAP, e define relacionamentos entre tabelas, se os seus dados incluírem tabelas aninhadas.
Sua escolha de dados será muito diferente no Assistente de Mineração de Dados, dependendo se você usar fontes de dados relacionais ou OLAP (processamento analítico online).
Quando você escolhe dados de uma fonte de dados relacional, configurar uma estrutura de mineração é fácil: você escolhe colunas dos dados na exibição da fonte de dados e define personalizações adicionais como aliases, ou define como os valores na coluna devem ser agrupados ou guardados. Para obter mais informações, consulte Criar uma estrutura de mineração relacional.
Quando você usa dados de um cubo OLAP, a estrutura de mineração deve estar no mesmo banco de dados que a solução OLAP. Para criar uma estrutura de mineração, selecione atributos das dimensões e medidas relacionadas em sua solução OLAP. Os valores numéricos são geralmente encontrados em medidas e as variáveis categóricas em dimensões. Para obter mais informações, consulte Criar uma estrutura de mineração OLAP.
Também é possível definir estruturas de mineração usando DMX. Para obter mais informações, consulte Instruções de definição de dados DMX (Data Mining Extensions).
Após ter criado a estrutura de mineração inicial, é possível copiar, modificar e criar um alias das colunas da estrutura.
Cada estrutura de mineração pode conter diversos modelos de mineração. No entanto, depois de concluir, você poderá abrir novamente a estrutura de mineração e usar Designer de Mineração de Dados para adicionar mais modelos de mineração à estrutura.
Você também tem a opção de separar seus dados em um conjunto de dados de treinamento, usado para criar modelos, e um conjunto de dados de controle para usar em teste ou validação de seus modelos de mineração.
Cuidado |
---|
Alguns tipos de modelo, como modelos de série temporais, não dão suporte à criação de conjuntos de dados de controle, porque eles exigem uma série contínua de dados para treinamento. Para obter mais informações, consulte Conjuntos de dados de teste e treinamento. |
Voltar ao início
Modelos de mineração
O modelo de mineração define o algoritmo ou o método de análise que você usará nos dados. Para cada estrutura de mineração, é possível adicionar um ou mais modelos de mineração.
Dependendo de suas necessidades, você pode combinar muitos modelos em um único projeto ou criar projetos separados para cada tipo de modelo ou tarefa analítica.
Depois de ter criado uma estrutura e um modelo, você processa cada modelo ao executar os dados em uma exibição de fonte de dados através do algoritmo, o que gera um modelo matemático de dados. Esse processo também é conhecido como treinamento de modelo. Para obter mais informações, consulte Requisitos e considerações de processamento (mineração de dados).
Depois que o modelo foi processado, você pode explorá-lo visualmente e criar consultas de previsão usando esse modelo de mineração. Se os dados do processo de treinamento tiverem sido armazenados em cache, você poderá usar consultas de detalhamento para retornar informações detalhadas sobre os casos usados no modelo.
Quando você quiser usar um modelo para produção (por exemplo, para fazer previsões, ou para ser explorado por usuários gerais), você poderá implantar o modelo para um servidor diferente. Se você precisar reprocessar o modelo no futuro, também terá que exportar a definição da estrutura de mineração subjacente (e, necessariamente, a definição da fonte de dados e exibição da fonte de dados) ao mesmo tempo.
Quando você implantar um modelo, também terá que assegurar que as opções de processamento corretas sejam definidas na estrutura e no modelo, e que os usuários em potencial tenham as permissões necessárias para executar consultas, exibir modelos ou detalhar para estruturar os dados do modelo. Para obter mais informações, consulte Visão geral de segurança (mineração de dados).
Voltar ao início
Usando um projeto concluído de mineração de dados
Esta seção resume as maneiras como você pode usar o projeto de mineração de dados concluído. Você pode criar gráficos de exatidão, explorar e validar os dados, e tornar os padrões de mineração de dados disponíveis para os usuários.
Cuidado |
---|
Os gráficos, as consultas e as visualizações que você usa com os modelos de mineração de dados não são salvos como parte do projeto de mineração de dados e não podem ser implantados. Se você precisar persistir estes objetos, deverá salvar o conteúdo que é apresentado ou criar um script disto conforme descrito para cada objeto. |
Voltar ao início
Exibir e explorar modelos
Depois de criar um modelo, você pode usar ferramentas visuais e consultas para explorar os padrões no modelo e saber mais sobre os padrões e estatísticas subjacentes. Na guia Visualizador do Modelo de Mineração do Designer de Mineração de Dados, o Analysis Services fornece visualizadores para cada tipo de modelo de mineração, que podem ser usados para explorar os modelos de mineração.
Estas visualizações são temporárias e são fechadas sem salvar quando você encerra a sessão com o Analysis Services. Portanto, se você precisar exportar estas visualizações para outro aplicativo para apresentação ou análise adicional, use os comandos Copiar fornecidos em cada guia ou painel da interface do visualizador.
Os Suplementos de Mineração de dados para o Excel também fornecem um modelo de Visio que você pode usar para representar seus modelos em um diagrama de Visio, e anotar e modificar o diagrama usando as ferramentas do Visio. Para obter mais informações, consulte Suplementos de Mineração de Dados para Excel.
Voltar ao início
Testar e validar modelos
Depois de criar um modelo, será possível investigar os resultados e tomar decisões sobre quais modelos apresentam o melhor desempenho.
O Analysis Services fornece diversos gráficos que você pode usar para fornecer ferramentas que podem ser usadas para comparar diretamente modelos de mineração e escolher o mais preciso ou útil. Estas ferramentas incluem um gráfico de comparação de precisão, gráfico de ganho e uma matriz de classificação. Você pode gerar estes gráficos usando o Gráfico de Precisão de Mineração do Designer de Mineração de Dados.
Você também pode usar um relatório de validação cruzada para realizar subamostragens interativas dos dados para determinar se o modelo é mais adequado para um conjunto de dados específico. As estatísticas fornecidas pelo relatório podem ser usadas para comparar objetivamente modelos e avaliar a qualidade dos seus dados de treinamento.
Observe que estes relatórios e gráficos não são armazenados com o projeto ou no banco de dados do ssASnoversion. Portanto, se você precisar preservar ou duplicar os resultados, salve-os ou gere um script com os objetos usando DMX ou AMO. Também é possível usar os procedimentos armazenados para validação cruzada.
Para obter mais informações, consulte Teste e validação (mineração de dados).
Voltar ao início
Criar previsões
O Analysis Services fornece uma linguagem de consulta chamada DMX (Data Mining Extensions) que é a base para a criação de previsões e de fácil criação de scripts. Para ajudá-lo a criar consultas de previsão DMX, o SQL Server fornece um construtor de consultas, disponível no SQL Server Management Studio. Também há muitos modelos DMX para o editor de consultas no SQL Server Management Studio. Se você for iniciante em consultas de previsão, recomendamos usar o construtor de consultas que é fornecido no Designer de Mineração de Dados e no SQL Server Management Studio. Para obter mais informações, consulte Ferramentas de mineração de dados.
As previsões que você cria no SSDT (SQL Server Data Tools) ou no SQL Server Management Studio não são persistidas. Portanto, se suas consultas forem complexas, ou se você precisa reproduzir os resultados, recomendamos salvar suas consultas de previsão em arquivos de consulta DMX, criar script deles ou inserir as consultas como parte de um pacote do Integration Services.
Voltar ao início
Acesso programático a objetos de mineração de dados
O Analysis Services fornece várias ferramentas que podem ser usadas para trabalhar programaticamente com projetos de mineração de dados e os objetos neles. A linguagem DMX fornece instruções que você pode usar para criar fontes de dados e exibições da fonte de dados, e para criar, treinar e usar a estrutura e os modelos de mineração de dados. Para obter mais informações, consulte Referência DMX (Data Mining Extensions).
É possível executar essas tarefas usando ASSL (Analysis Services Scripting Language), ou AMO (Objetos de Gerenciamento de Análise). Para obter mais informações, consulte Desenvolvendo com XMLA no Analysis Services.
Voltar ao início
Tarefas relacionadas
Os tópicos a seguir descrevem o uso do Assistente de Mineração de Dados para criar um projeto de mineração de dados e os objetos associados.
Tarefas |
Tópicos |
---|---|
Descreve como trabalhar com colunas de estrutura de mineração |
|
Fornece mais informações sobre como adicionar novos modelos de mineração e processar uma estrutura e modelos |
Adicionar modelos de mineração a uma estrutura (Analysis Services - Mineração de dados) |
Fornece links para recursos que ajudam a personalizar os algoritmos que criam modelos de mineração |
|
Fornece links para informações sobre cada um dos visualizadores de modelo de mineração |
|
Saiba criar um gráfico de comparação de precisão, gráfico de ganho ou matriz de classificação ou testar uma estrutura de mineração |
|
Saiba sobre como processar opções e permissões |
|
Fornece mais informações sobre Analysis Services |
Consulte também
Conceitos
Designer de Mineração de Dados
Criando modelos multidimensionais usando o SSDT (SQL Server Data Tools)