Microsoft Sequence Clustering Algorithm

Artigo
12/23/2023

Aplica-se a: SQL Server 2019 e anteriores do Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

A mineração de dados foi preterida no SQL Server 2017 Analysis Services e agora foi descontinuada no SQL Server 2022 Analysis Services. A documentação não foi atualizada para recursos preteridos e descontinuados. Para saber mais, confira Compatibilidade com versões anteriores do Analysis Services.

O algoritmo Clustering de Sequência da Microsoft é um algoritmo exclusivo que combina a análise de sequência com clustering. Você pode usá-lo para explorar dados que contêm eventos que podem ser vinculados em uma sequência. O algoritmo localiza as sequências mais comuns e executa clustering para localizar sequências semelhantes. Os exemplos a seguir ilustram os tipos de sequências das quais você pode capturar dados de aprendizado de máquina para fornecer informações sobre problemas comuns ou cenários comerciais:

Fluxos ou caminhos de cliques gerados quando os usuários navegam em um site
Logs que listam eventos que precedem um incidente, como falha de disco rígido ou deadlock de servidor
Os registros de transação que descrevem a ordem em que um cliente adiciona itens a um carrinho de compras online
Registros que seguem interações de cliente (ou paciente) com o passar do tempo, para prever cancelamentos de serviço ou outros resultados insatisfatórios

Esse algoritmo é semelhante de várias maneiras ao algoritmo Microsoft Clustering. No entanto, em vez de localizar clusters de casos que contêm atributos semelhantes, o algoritmo Microsoft Sequence Clustering localiza clusters de casos que contêm caminhos semelhantes em uma sequência.

Exemplo

O site do Adventure Works Cycles coleta informações sobre quais páginas os usuários do site visitam e sobre a ordem em que as páginas são visitadas. Como a empresa oferece a funcionalidade de encomendas online, os clientes devem fazer logon no site. Dessa maneira, a empresa obtém informações de clique relativas a cada perfil de cliente. Usando o algoritmo Clustering de Sequência da Microsoft nesses dados, a empresa pode encontrar grupos ou clusters de clientes que têm padrões ou sequências de cliques semelhantes. A empresa então poderá usar esses clusters para analisar como os usuários navegam pelo site, identificar quais páginas estão mais intrinsecamente relacionadas à venda de um determinado produto e prever que páginas terão maiores probabilidades de acesso nas próximas visitas.

Como o algoritmo funciona

O algoritmo Microsoft Sequence Clustering é um algoritmo híbrido que combina técnicas de clustering com a análise da cadeia Markov para identificar clusters e suas sequências. Uma das marcas do algoritmo Microsoft Sequence Clustering é que ele usa dados de sequência. Esses dados normalmente representam uma série de eventos ou transições entre estados em um conjunto de dados, como uma série de compras de produtos ou cliques de um usuário específico. O algoritmo examina todas as probabilidades de transição e avalia as diferenças, ou distâncias, entre todas as sequências possíveis no conjunto de dados para determinar quais são as melhores sequências a usar como entradas para clustering. Depois que o algoritmo cria a lista de sequências candidatas, ele usa as informações das sequências como entrada para clustering usando EM (Maximização de expectativa).

Para obter uma descrição detalhada da implementação, consulte Referência técnica do Algoritmo MSC.

Dados necessários para modelos de cluster de sequência

Quando você prepara dados para uso no treinamento de um modelo de clustering de sequência, é preciso conhecer os requisitos de um determinado algoritmo, inclusive a quantidade de dados necessários e como eles são usados.

Os requisitos de um modelo de clustering de sequência são os seguintes:

Uma única coluna chave Um modelo de clustering de sequência requer uma chave que identifique registros.
Uma coluna de sequência Para dados de sequência, o modelo deve ter uma tabela aninhada que contém uma coluna de ID de sequência. A ID de sequência pode ser qualquer tipo de dados classificável. Por exemplo, você pode usar um identificador de página da Web, um número inteiro ou uma cadeia de caracteres de texto, desde que a coluna identifique os eventos em uma sequência. Só é permitido um identificador de sequência para cada sequência, e cada modelo pode ter apenas um tipo de sequência.
Atributos não sequenciais opcionais O algoritmo dá suporte à adição de outros atributos não relacionados a sequenciamento. Esses atributos podem incluir colunas aninhadas.

Por exemplo, no exemplo citado anteriormente do site do Adventure Works Cycles, uma sequência clustering modelo pode incluir informações de pedido como a tabela de casos, dados demográficos sobre o cliente específico para cada pedido como atributos não sequenciais e uma tabela aninhada que contém a sequência na qual o cliente navegou pelo site ou colocou itens em um carrinho de compras como as informações de sequência.

Para obter informações mais detalhadas sobre os tipos de conteúdo e de dados com suporte pelos modelos de sequence clustering, consulte a seção Requisitos de Referência técnica do algoritmo MSC.

Exibindo um modelo de cluster de sequências

O modelo de mineração criado por esse algoritmo contém descrições das sequências mais comuns nos dados. Para explorar o modelo, você pode usar o Visualizador de Cluster de Sequência da Microsoft. Quando você exibe uma sequência clustering modelo, SQL Server Analysis Services mostra clusters que contêm várias transições. Também é possível exibir as estatísticas pertinentes. Para obter mais informações, consulte Procurar um modelo usando o Visualizador de Cluster de Sequência da Microsoft.

Para obter mais detalhes, você pode navegar pelo modelo no Visualizador de Árvore de Conteúdo Genérica da Microsoft. O conteúdo armazenado do modelo inclui a distribuição de todos os valores de cada nó, a probabilidade de cada cluster e detalhes sobre as transições. Para obter mais informações, consulte Conteúdo do modelo de mineração para modelos de clustering de sequência (Analysis Services – Mineração de dados).

Criando previsões

Após o treinamento do modelo, os resultados são armazenados como um conjunto de padrões. Você pode usar as descrições das sequências mais comuns nos dados para prever a próxima etapa provável de uma nova sequência. Todavia, como o algoritmo inclui outras colunas, você pode usar o modelo resultante para identificar as relações entre os dados sequenciados e as entradas não sequenciais. Por exemplo, se você acrescentar dados demográficos ao modelo, poderá fazer previsões sobre grupos de clientes específicos. As consultas de previsão podem ser personalizadas para retornar um número variável de previsões ou para retornar estatísticas descritivas.

Para obter informações sobre como criar consultas com base em um modelo de mineração de dados, consulte Consultas de mineração de dados. Para obter exemplos de como usar consultas com um modelo de sequence clustering, consulte Exemplos de consulta de modelo de sequence clustering.

Comentários

Não dá suporte ao uso de PMML para criar modelos de mineração.
Dá suporte ao detalhamento.
Dá suporte ao uso de modelos de mineração OLAP e à criação de dimensões de mineração de dados.

Consulte Também

Algoritmos de mineração de dados (Analysis Services – Mineração de Dados)
Referência técnica do algoritmo MSC
Sequence Clustering Model Query Examples
Procurar um modelo usando o Visualizador de Cluster de Sequência da Microsoft

Partilhar via

Microsoft Sequence Clustering Algorithm

Exemplo

Como o algoritmo funciona

Dados necessários para modelos de cluster de sequência

Exibindo um modelo de cluster de sequências

Criando previsões

Comentários

Consulte Também

Comentários

Recursos adicionais