Compartilhar via


Algoritmo Naïve Bayes da Microsoft

O algoritmo Naïve Bayes da Microsoft é um algoritmo de classificação fornecido pela Microsoft SQL Server Analysis Services para uso em modelagem de previsão. O nome Naive Bayes foi atribuído pelo fato de o algoritmo usar o teorema de Bayes, mas não considerar dependências que possam existir. Portanto, suas suposições são consideradas ingênuas.

Esse algoritmo é computacionalmente menos intenso de que outros algoritmos da Microsoft e, portanto, é útil para gerar modelos de mineração rapidamente para descobrir as relações entre as colunas de entrada e as colunas previsíveis. Você pode usar esse algoritmo para realizar explorações de dados iniciais, e em seguida, aplicar os resultados para criar modelos de mineração adicionais com outros algoritmos que são computacionalmente mais intensos e mais precisos.

Exemplo

Como estratégia promocional contínua, o departamento de marketing da empresa Adventure Works Cycle decidiu atingir clientes em potencial, enviando folhetos pelo correio. Para reduzir despesas, eles querem enviar folhetos apenas aos clientes que provavelmente irão responder. A empresa armazena as informações sobre dados demográficos e resposta a uma correspondência anterior em um banco de dados. Eles querem usar esses dados para ver como os dados demográficos, tais como idade e local, podem ajudar a prever a resposta a uma promoção, comparando clientes em potencial com clientes que têm características similares e que já compraram da empresa no passado. Especificamente, eles querem ver a diferença entre os clientes que compraram uma bicicleta e aqueles que não compraram.

Usando o algoritmo Naive Bayes da Microsoft, o departamento de marketing pode prever rapidamente o resultado do perfil de um cliente específico e, portanto, determinar os clientes que mais provavelmente irão responder aos folhetos. Usando o Visualizador do Naive Bayes da Microsoft no Business Intelligence Development Studio, eles podem especificamente investigar visualmente as colunas de entrada que contribuem para respostas positivas aos folhetos.

Como o algoritmo funciona

O algoritmo Naive Bayes da Microsoft calcula a probabilidade do estado de cada coluna de entrada, uma vez proporcionado cada possível estado da coluna previsível. Você pode usar o Visualizador do Naive Bayes da Microsoft no Business Intelligence Development Studio para ver uma representação visual de como o algoritmo distribui estados, conforme mostrado no gráfico a seguir.

Distribuição de naive bayes de estados

O Visualizador Naive Bayes da Microsoft lista cada coluna de entrada no conjunto de dados e mostra como os estados de cada coluna são distribuídos, uma vez proporcionado cada estado da coluna previsível. Você pode usar essa exibição para identificar as colunas de entrada que são importantes para diferenciar estados da coluna previsível. Por exemplo, na coluna Distância do Trabalho mostrada aqui, se um cliente se desloca até duas milhas para trabalhar, a probabilidade de ele comprar uma bicicleta é 0,387 e a de ele não comprar é 0,287. Nesse exemplo, o algoritmo usa as informações numéricas, derivadas das características do cliente tais como a distância do trabalho, para prever se o cliente comprará a bicicleta. Para obter mais informações sobre o uso do Visualizador Naive Bayes da Microsoft, consulte Exibindo um modelo de mineração com o Visualizador do Microsoft Naive Bayes.

Dados necessários para modelos Naive Bayes

Ao preparar dados para usar no treinamento de um modelo Naive Bayes, você deve compreender os requisitos do algoritmo, incluindo a quantidade de dados necessária, e a forma que os dados são usados.

Os requisitos para um modelo Naive Bayes são os seguintes:

  • Uma única coluna de chave Cada modelo deve conter uma coluna de texto ou numérica que identifique unicamente cada registro. Chaves compostas não são permitidas.

  • Colunas de entrada Em um modelo Naive Bayes, todas as colunas devem ser discretas ou diferenciadas. Para obter mais informações sobre a diferenciação de colunas, consulte Métodos de discretização (mineração de dados). Além disso, é importante assegurar que os atributos de entrada sejam independentes uns dos outros.

  • Pelo menos uma coluna previsível O atributo previsível deve conter valores discretos ou diferenciados. Os valores da coluna previsível devem ser tratados como entradas (e, frequentemente, são) para localizar relações entre as colunas.

Exibindo o modelo

Para explorar o modelo, você pode usar o Visualizador Naive Bayes da Microsoft. O visualizador mostra a você como os atributos de entrada se relacionam com o atributo previsível. Ele também fornece um perfil detalhado para cada clusters, uma lista dos atributos que distinguem cada um dos clusters e as características de todo o conjunto de dados de treinamento. Para obter mais informações, consulte Exibindo um modelo de mineração com o Visualizador do Microsoft Naive Bayes.

Se você quiser obter mais detalhes, poderá procurar o modelo no Visualizador de árvore de conteúdo genérica da Microsoft (Designer de Mineração de Dados). Para obter mais detalhes sobre o tipo de informações armazenadas no modelo, consulte Conteúdo do modelo de mineração para modelos Naive Bayes (Analysis Services – Mineração de Dados).

Fazendo previsões

Depois que o modelo tiver sido treinado, os resultados serão armazenados como um conjunto de padrões que você poderá explorar ou usar para realizar previsões.

Você pode criar consultas para retornar previsões sobre como novos dados se relacionam com o atributo previsível ou pode recuperar estatísticas que descrevem as correlações encontradas pelo modelo.

Para obter informações sobre como criar consultas com base em um modelo de mineração de dados, consulte Consultando modelos de mineração de dados (Analysis Services - Mineração de dados). Para obter exemplos de como usar consultas com um modelo Naive Bayes, consulte Consultando um modelo Naive Bayes (Analysis Services – Mineração de Dados).

Comentários

  • Suporta o uso de PMML (Predictive Model Markup Language) para criar modelos de mineração.

  • Suporta detalhamento.

  • Não suporta a criação de dimensões de mineração de dados.

  • Suporta o uso de modelos de mineração OLAP.