Criando uma estrutura de modelo de mineração de clustering de sequências (Tutorial de mineração de dados intermediário)

Artigo
05/07/2013

A primeira etapa da criação de um modelo de mineração de clustering de sequências é usar o Assistente de Mineração de Dados para criar uma nova estrutura de mineração e um modelo de mineração baseado no algoritmo Clustering de Sequências da Microsoft.

Você usará a mesma exibição da fonte de dados utilizada para a análise da cesta de compras, mas adicionará uma coluna com o identificador sequence. Neste cenário, a sequência significa a ordem em que o cliente adicionou itens à cesta de compras.

Você também adicionará algumas colunas usadas em um dos modelos para agrupar clientes por dados demográficos.

Para criar uma estrutura e um modelo de de clustering de sequências

No Gerenciador de Soluções doSSDT (SQL Server Data Tools), clique com o botão direito do mouse em Estruturas de Mineração e selecione Nova Estrutura de Mineração.
Na página Bem-vindo ao Assistente de Mineração de Dados, clique em Avançar.
Na página Selecionar Método de Definição, verifique se No banco de dados ou no data warehouse relacional existente está selecionado e clique em Avançar.
Na página Criar a Estrutura de Mineração de Dados, verifique se a opção Criar estrutura de mineração com um modelo de mineração está selecionada. Em seguida, clique na lista suspensa da opção Qual técnica de mineração de dados você quer usar?, e selecione Clustering de Sequência da Microsoft. Clique em Avançar.

A página Selecionar Exibição da Fonte de Dados é exibida. Em Exibições da fonte de dados disponíveis, selecione Pedidos.

Orders é a mesma exibição da fonte de dados utilizada para a análise do cenário de cesta de compras. Caso você ainda não tenha criado essa exibição da fonte de dados, consulte Adicionando uma exibição da fonte de dados com tabelas aninhadas (Tutorial de mineração de dados intermediário).
Clique em Avançar.

Na página Especificar Tipos de Tabelas, marque a caixa de seleção Caso próxima à tabela vAssocSeqOrders e a caixa de seleção Aninhado próximo à tabela vAssocSeqLineItems. Clique em Avançar.

Observação
Se ocorrer um erro quando você marca as caixas de seleção Caso ou Aninhado, talvez seja porque a junção na exibição da fonte de dados não esteja correta. A tabela aninhada, vAssocSeqLineItems, deve estar conectada à tabela de casos, vAssocSeqOrderspor uma junção muitos para um. Você pode editar a relação clicando com o botão direito do mouse na linha de junção e invertendo a direção da junção. Para obter mais informações, consulte Caixa de diálogo Criar/Editar Relação (Analysis Services - Dados Multidimensionais).

Se ocorrer um erro quando você marca as caixas de seleção Caso ou Aninhado, talvez seja porque a junção na exibição da fonte de dados não esteja correta. A tabela aninhada, vAssocSeqLineItems, deve estar conectada à tabela de casos, vAssocSeqOrderspor uma junção muitos para um. Você pode editar a relação clicando com o botão direito do mouse na linha de junção e invertendo a direção da junção. Para obter mais informações, consulte Caixa de diálogo Criar/Editar Relação (Analysis Services - Dados Multidimensionais).

Na página Especificar os Dados de Treinamento, escolha as colunas a serem usadas no modelo ao marcar uma caixa de seleção como a seguir:
- **IncomeGroup **marque a caixa de seleção Entrada.
  
  Essa coluna contém informações interessantes sobre os clientes que poderão ser usadas para clustering. Você a usará no primeiro modelo e vai ignorá-la no segundo.
- **OrderNumber **marque a caixa de seleção Chave.
  
  Esse campo será usado como o identificador da tabela de casos, ou Key. Em geral, você nunca deve usar o campo de chave da tabela de casos como uma entrada, já que a chave contém valores exclusivos que não são úteis para clustering.
- **Região **marque a caixa de seleção Entrada.
  
  Essa coluna contém informações interessantes sobre os clientes que poderão ser usadas para clustering. Você a usará no primeiro modelo e vai ignorá-la no segundo.
- **LineNumber **marque as caixas de seleção Chave e Entrada
  
  O campo LineNumber será usado como o identificador da tabela aninhada, ou Sequence Key. A chave para uma tabela aninhada sempre deve ser usada como entrada.
- **Modelo **marque as caixas de seleção Entrada e Previsível.
Verifique se as seleções estão corretas e clique em Avançar.

Na página Especificar Conteúdo e Tipo de Dados das Colunas, verifique se a grade contém as colunas, tipos de conteúdo e tipos de dados mostrados na tabela a seguir e clique em Avançar.

Tabelas/Colunas	Tipo de Conteúdo	Tipo de Dados
IncomeGroup	Distintos	Texto
OrderNumber	Chave	Texto
Região	Distintos	Texto
vAssocSeqLineItems
Número da Linha	Key Sequence	Longo
Modelo	Distintos	Texto

Na página Criar Conjunto de Testes, altere Percentual de dados de teste para 20 e clique em Avançar.
Na página Concluindo o Assistente, em Nome de estrutura de mineração, digite Clustering de Sequências com Região.
Em Nome do modelo de mineração, digite Clustering de Sequências com Região.
Marque a caixa Permitir detalhamento e então clique em Concluir.

Próxima tarefa na lição

Processando o modelo de clustering de sequências

Consulte também

Conceitos

Designer de Mineração de Dados

Algoritmo MSC

Partilhar via

Criando uma estrutura de modelo de mineração de clustering de sequências (Tutorial de mineração de dados intermediário)

Para criar uma estrutura e um modelo de de clustering de sequências

Próxima tarefa na lição

Consulte também

Conceitos

Recursos adicionais