Microsoft Sequence Clustering Algorithm

Artigo
06/13/2017

O algoritmo Clustering de Sequência da Microsoft é um algoritmo de análise de sequência fornecido pela Microsoft SQL Server Analysis Services. Você pode usar esse algoritmo para explorar dados que contêm eventos que podem ser vinculados seguindo caminhos ou sequências. O algoritmo localiza as sequências mais comuns por agrupamento, ou clustering, das sequências que são idênticas. A seguir veja alguns exemplos de dados que contêm sequências que podem ser usadas para mineração de dados, para fornecer ideias sobre problemas comuns ou cenários comerciais:

Clique nos caminhos que são criados quando os usuários navegam em um site.
Logs que listam eventos que precedem um incidente, como falha de disco rígido ou deadlocks de servidor.
Os registros de transação que descrevem a ordem em que um cliente adiciona itens a um carrinho de compras em uma loja online.
Registros que seguem interações de cliente (ou paciente) com o passar do tempo, para prever cancelamentos de serviço ou outros resultados insatisfatórios.

Esse algoritmo é semelhante de várias maneiras ao algoritmo Microsoft Clustering. No entanto, em vez de encontrar clusters de casos que contêm atributos semelhantes, o algoritmo Clustering de Sequência da Microsoft localiza clusters de casos que contêm caminhos semelhantes em uma sequência.

Exemplo

O site do Adventure Works Cycles coleta informações sobre quais páginas os usuários do site visitam e sobre a ordem em que as páginas são visitadas. Como a empresa oferece a funcionalidade de encomendas online, os clientes devem fazer logon no site. Dessa maneira, a empresa obtém informações de clique relativas a cada perfil de cliente. Usando o algoritmo Clustering de Sequência da Microsoft nesses dados, a empresa pode encontrar grupos, ou clusters, de clientes que têm padrões ou sequências de cliques semelhantes. A empresa então poderá usar esses clusters para analisar como os usuários navegam pelo site, identificar quais páginas estão mais intrinsecamente relacionadas à venda de um determinado produto e prever que páginas terão maiores probabilidades de acesso nas próximas visitas.

Como o algoritmo funciona

O algoritmo Clustering de Sequência da Microsoft é um algoritmo híbrido que combina técnicas de clustering com a análise de cadeia markov para identificar clusters e suas sequências. Uma das marcas do algoritmo Clustering de Sequência da Microsoft é que ele usa dados de sequência. Esses dados normalmente representam uma série de eventos ou transições entre estados em um conjunto de dados, como uma série de compras de produtos ou cliques de um usuário específico. O algoritmo examina todas as probabilidades de transição e avalia as diferenças, ou distâncias, entre todas as sequências possíveis no conjunto de dados para determinar quais são as melhores sequências a usar como entradas para clustering. Depois que o algoritmo cria a lista de sequências candidatas, ele usa as informações das sequências como entrada para o método EM de clustering.

Para obter uma descrição detalhada da implementação, consulte Referência técnica do Algoritmo MSC.

Dados necessários para modelos de cluster de sequência

Quando você prepara dados para uso no treinamento de um modelo de clustering de sequência, é preciso conhecer os requisitos de um determinado algoritmo, inclusive a quantidade de dados necessários e como eles são usados.

Os requisitos de um modelo de clustering de sequência são os seguintes:

Uma única coluna chave Um modelo de clustering de sequência requer uma chave que identifique registros.
Uma coluna de sequência Para dados de sequência, o modelo deve ter uma tabela aninhada que contém uma coluna de ID de sequência. A ID de sequência pode ser qualquer tipo de dados classificável. Por exemplo, você pode usar um identificador de página da Web, um número inteiro ou uma cadeia de caracteres de texto, desde que a coluna identifique os eventos em uma sequência. Só é permitido um identificador de sequência para cada sequência, e cada modelo pode ter apenas um tipo de sequência.
Atributos não sequenciais opcionais O algoritmo dá suporte à adição de outros atributos não relacionados a sequenciamento. Esses atributos podem incluir colunas aninhadas.

Por exemplo, no exemplo citado anteriormente do site adventure works cycles, uma sequência clustering modelo pode incluir informações de pedido como a tabela de casos, dados demográficos sobre o cliente específico para cada pedido como atributos não sequência e uma tabela aninhada contendo a sequência na qual o cliente navegou pelo site ou colocou itens em um carrinho de compras como as informações de sequência.

Para obter informações mais detalhadas sobre os tipos de conteúdo e de dados com suporte pelos modelos de sequence clustering, consulte a seção Requisitos de Referência técnica do algoritmo MSC.

Exibindo um modelo de cluster de sequências

O modelo de mineração criado por esse algoritmo contém descrições das sequências mais comuns nos dados. Para explorar o modelo, você pode usar o Visualizador de Cluster de Sequência da Microsoft. Quando você exibe uma sequência clustering modelo, o Analysis Services mostra clusters que contêm várias transições. Também é possível exibir as estatísticas pertinentes. Para obter mais informações, consulte Procurar um modelo usando o Visualizador de Cluster de Sequência da Microsoft.

Para obter mais detalhes, você pode navegar pelo modelo no Visualizador de Árvore de Conteúdo Genérica da Microsoft. O conteúdo armazenado do modelo inclui a distribuição de todos os valores de cada nó, a probabilidade de cada cluster e detalhes sobre as transições. Para obter mais informações, consulte Conteúdo do modelo de mineração para modelos de clustering de sequência (Analysis Services – Mineração de dados).

Criando previsões

Após o treinamento do modelo, os resultados são armazenados como um conjunto de padrões. Você pode usar as descrições das sequências mais comuns nos dados para prever a próxima etapa provável de uma nova sequência. Todavia, como o algoritmo inclui outras colunas, você pode usar o modelo resultante para identificar as relações entre os dados sequenciados e as entradas não sequenciais. Por exemplo, se você acrescentar dados demográficos ao modelo, poderá fazer previsões sobre grupos de clientes específicos. As consultas de previsão podem ser personalizadas para retornar um número variável de previsões ou para retornar estatísticas descritivas.

Para obter informações sobre como criar consultas com base em um modelo de mineração de dados, consulte Consultas de mineração de dados. Para obter exemplos de como usar consultas com um modelo de sequence clustering, consulte Exemplos de consulta de modelo de sequence clustering.

Comentários

Não dá suporte ao uso de PMML para criar modelos de mineração.
Dá suporte ao detalhamento.
Dá suporte ao uso de modelos de mineração OLAP e à criação de dimensões de mineração de dados.

Consulte Também

Algoritmos de mineração de dados (Analysis Services – Mineração de Dados)
Referência técnica do algoritmo MSC
Sequence Clustering Model Query Examples
Procurar um modelo usando o Visualizador de Cluster de Sequência da Microsoft

Partilhar via