Criando uma estrutura de modelo de mineração de clustering de sequências (Tutorial de mineração de dados intermediário)
A primeira etapa da criação de um modelo de mineração de clustering de sequências é usar o Assistente de Mineração de Dados para criar uma nova estrutura de mineração e um modelo de mineração baseado no algoritmo Clustering de Sequências da Microsoft.
Você usará a mesma exibição da fonte de dados utilizada para a análise da cesta de compras, mas adicionará uma coluna com o identificador sequence. Neste cenário, a sequência significa a ordem em que o cliente adicionou itens à cesta de compras.
Você também adicionará algumas colunas usadas em um dos modelos para agrupar clientes por dados demográficos.
Para criar uma estrutura e um modelo de de clustering de sequências
No Gerenciador de Soluções doSSDT (SQL Server Data Tools), clique com o botão direito do mouse em Estruturas de Mineração e selecione Nova Estrutura de Mineração.
Na página Bem-vindo ao Assistente de Mineração de Dados, clique em Avançar.
Na página Selecionar Método de Definição, verifique se No banco de dados ou no data warehouse relacional existente está selecionado e clique em Avançar.
Na página Criar a Estrutura de Mineração de Dados, verifique se a opção Criar estrutura de mineração com um modelo de mineração está selecionada. Em seguida, clique na lista suspensa da opção Qual técnica de mineração de dados você quer usar?, e selecione Clustering de Sequência da Microsoft. Clique em Avançar.
A página Selecionar Exibição da Fonte de Dados é exibida. Em Exibições da fonte de dados disponíveis, selecione Pedidos.
Orders é a mesma exibição da fonte de dados utilizada para a análise do cenário de cesta de compras. Caso você ainda não tenha criado essa exibição da fonte de dados, consulte Adicionando uma exibição da fonte de dados com tabelas aninhadas (Tutorial de mineração de dados intermediário).
Clique em Avançar.
Na página Especificar Tipos de Tabelas, marque a caixa de seleção Caso próxima à tabela vAssocSeqOrders e a caixa de seleção Aninhado próximo à tabela vAssocSeqLineItems. Clique em Avançar.
Observação Se ocorrer um erro quando você marca as caixas de seleção Caso ou Aninhado, talvez seja porque a junção na exibição da fonte de dados não esteja correta. A tabela aninhada, vAssocSeqLineItems, deve estar conectada à tabela de casos, vAssocSeqOrderspor uma junção muitos para um. Você pode editar a relação clicando com o botão direito do mouse na linha de junção e invertendo a direção da junção. Para obter mais informações, consulte Caixa de diálogo Criar/Editar Relação (Analysis Services - Dados Multidimensionais).
Na página Especificar os Dados de Treinamento, escolha as colunas a serem usadas no modelo ao marcar uma caixa de seleção como a seguir:
**IncomeGroup **marque a caixa de seleção Entrada.
Essa coluna contém informações interessantes sobre os clientes que poderão ser usadas para clustering. Você a usará no primeiro modelo e vai ignorá-la no segundo.
**OrderNumber **marque a caixa de seleção Chave.
Esse campo será usado como o identificador da tabela de casos, ou Key. Em geral, você nunca deve usar o campo de chave da tabela de casos como uma entrada, já que a chave contém valores exclusivos que não são úteis para clustering.
**Região **marque a caixa de seleção Entrada.
Essa coluna contém informações interessantes sobre os clientes que poderão ser usadas para clustering. Você a usará no primeiro modelo e vai ignorá-la no segundo.
**LineNumber **marque as caixas de seleção Chave e Entrada
O campo LineNumber será usado como o identificador da tabela aninhada, ou Sequence Key. A chave para uma tabela aninhada sempre deve ser usada como entrada.
**Modelo **marque as caixas de seleção Entrada e Previsível.
Verifique se as seleções estão corretas e clique em Avançar.
Na página Especificar Conteúdo e Tipo de Dados das Colunas, verifique se a grade contém as colunas, tipos de conteúdo e tipos de dados mostrados na tabela a seguir e clique em Avançar.
Tabelas/Colunas
Tipo de Conteúdo
Tipo de Dados
IncomeGroup
Distintos
Texto
OrderNumber
Chave
Texto
Região
Distintos
Texto
vAssocSeqLineItems
Número da Linha
Key Sequence
Longo
Modelo
Distintos
Texto
Na página Criar Conjunto de Testes, altere Percentual de dados de teste para 20 e clique em Avançar.
Na página Concluindo o Assistente, em Nome de estrutura de mineração, digite Clustering de Sequências com Região.
Em Nome do modelo de mineração, digite Clustering de Sequências com Região.
Marque a caixa Permitir detalhamento e então clique em Concluir.
Próxima tarefa na lição
Processando o modelo de clustering de sequências