Algoritmo Naïve Bayes da Microsoft

Artigo
06/13/2017

O algoritmo Microsoft Naive Bayes é um algoritmo de classificação baseado nos teoremas de Bayes e fornecido pela Microsoft SQL Server Analysis Services para uso na modelagem preditiva. O nome naïve no nome Naïve Bayes foi atribuído pelo fato de o algoritmo usar técnicas Bayesianas, mas não considerar dependências que possam existir. Portanto, suas suposições são consideradas ingênuas.

Esse algoritmo é menos computacionalmente intenso do que outros algoritmos da Microsoft e, portanto, é útil para gerar rapidamente modelos de mineração para descobrir relações entre colunas de entrada e colunas previsíveis. Você pode usar esse algoritmo para realizar exploração de dados iniciais, e em seguida, aplicar os resultados para criar modelos de mineração adicionais com outros algoritmos que são computacionalmente mais intensos e mais precisos.

Exemplo

Como estratégia promocional contínua, o departamento de marketing da empresa Adventure Works Cycle decidiu atingir clientes em potencial, enviando folhetos pelo correio. Para reduzir despesas, eles querem enviar folhetos apenas aos clientes que provavelmente irão responder. A empresa armazena as informações sobre dados demográficos e resposta a uma correspondência anterior em um banco de dados. Eles querem usar esses dados para ver como os dados demográficos, tais como idade e local, podem ajudar a prever a resposta a uma promoção, comparando clientes em potencial com clientes que têm características similares e que já compraram da empresa no passado. Especificamente, eles querem ver a diferença entre os clientes que compraram uma bicicleta e aqueles que não compraram.

Usando o algoritmo Microsoft Naive Bayes, o departamento de marketing pode prever rapidamente um resultado para um perfil de cliente específico e, portanto, pode determinar quais clientes são mais propensos a responder aos folhetos. Usando o Visualizador do Microsoft Naive Bayes no SQL Server Data Tools (SSDT), eles também podem investigar visualmente especificamente quais colunas de entrada contribuem para respostas positivas a panfletos.

Como o algoritmo funciona

O algoritmo Microsoft Naive Bayes calcula a probabilidade de cada estado de cada coluna de entrada, considerando cada estado possível da coluna previsível.

Para entender como isso funciona, use o Visualizador do Microsoft Naive Bayes no SQL Server Data Tools (SSDT) (conforme mostrado no gráfico a seguir) para explorar visualmente como o algoritmo distribui estados.

Distribuição de bayes naive dos estados

Aqui, o Visualizador do Microsoft Naive Bayes lista cada coluna de entrada no conjunto de dados e mostra como os estados de cada coluna são distribuídos, considerando cada estado da coluna previsível.

Você poderia usar essa exibição do modelo para identificar as colunas de entrada que são importantes para diferenciar estados da coluna previsível.

Por exemplo, na linha para Distância do Trabalho mostrada aqui, a distribuição de valores de entrada é visivelmente diferente para compradores versus não compradores. O que isso diz é que a entrada, Distância do Trabalho = 0-1 milhas, é um indicador potencial.

O visualizador também fornece valores para as distribuições, para que você possa ver isso para os clientes que se deslocam até duas milhas para trabalhar, a probabilidade de ele comprar uma bicicleta é 0,387 e a de ele não comprar é 0,287. Nesse exemplo, o algoritmo usa as informações numéricas, derivadas das características do cliente (tais como a distância do trabalho), para prever se o cliente comprará a bicicleta.

Para obter mais informações sobre como usar o Visualizador do Microsoft Naive Bayes, consulte Procurar um modelo usando o Visualizador do Microsoft Naive Bayes.

Dados necessários para modelos Naive Bayes

Ao preparar dados para usar no treinamento de um modelo Naive Bayes, você deve compreender os requisitos do algoritmo, incluindo a quantidade de dados necessária, e a forma que os dados são usados.

Os requisitos para um modelo Naive Bayes são os seguintes:

Uma única coluna de chave Cada modelo deve conter uma coluna de texto ou numérica que identifique unicamente cada registro. Chaves compostas não são permitidas.
Colunas de entrada Em um modelo Naive Bayes, todas as colunas devem ser colunas discretas ou discretas. Para obter informações sobre a discretização de colunas, consulte Métodos de discretização (mineração de dados).

Além disso, também é importante assegurar que os atributos de entrada sejam independentes uns dos outros. Isto é particularmente importante quando você usa o modelo para previsão.

A razão é que, se você usar duas colunas de dados que já estão intimamente relacionadas, o efeito seria multiplicar a influência dessas colunas, que podem obscurecer outros fatores que influenciam o resultado.

De maneira recíproca, a capacidade de o algoritmo identificar correlações entre variáveis é útil quando você está explorando um modelo ou conjunto de dados, para identificar relações entre entradas.
Pelo menos uma coluna previsível O atributo previsível deve conter valores discretos ou diferenciados.

Os valores da coluna previsível podem ser tratados como entradas. Esta prática pode ser útil quando você está explorando um novo conjunto de dados, para localizar relações entre as colunas.

Exibindo o modelo

Para explorar o modelo, você pode usar o Visualizador Naive Bayes da Microsoft. O visualizador mostra a você como os atributos de entrada se relacionam com o atributo previsível. Ele também fornece um perfil detalhado para cada clusters, uma lista dos atributos que distinguem cada um dos clusters e as características de todo o conjunto de dados de treinamento. Para obter mais informações, consulte Procurar um modelo usando o Visualizador Naïve Bayes da Microsoft.

Se quiser saber mais detalhes, navegue pelo modelo no Visualizador de Árvore de Conteúdo Genérico da Microsoft (Mineração de Dados). Para obter mais informações sobre o tipo de informações armazenadas no modelo, consulte Conteúdo do modelo de mineração para modelos naive bayes (Analysis Services – Mineração de dados).

Fazendo previsões

Depois que o modelo tiver sido treinado, os resultados serão armazenados como um conjunto de padrões, que você poderá explorar ou usar para realizar previsões.

Você pode criar consultas para retornar previsões sobre como novos dados se relacionam com o atributo previsível ou pode recuperar estatísticas que descrevem as correlações encontradas pelo modelo.

Para obter informações sobre como criar consultas com base em um modelo de mineração de dados, consulte Consultas de mineração de dados. Para obter exemplos de como usar consultas com um modelo Naive Bayes, consulte Exemplos de consulta de modelo Naïve Bayes.

Comentários

Suporta o uso de PMML (Predictive Model Markup Language) para criar modelos de mineração.
Dá suporte ao detalhamento.
Não suporta a criação de dimensões de mineração de dados.
Suporta o uso de modelos de mineração OLAP.

Consulte Também

Algoritmos de mineração de dados (Analysis Services – Mineração de dados)Seleção de recursos (mineração de dados)Exemplos de consulta de modelo naive Bayes Conteúdo do modelo de mineração para modelos Naive Bayes (Analysis Services – Mineração de dados)Referência técnica do algoritmo Microsoft Naive Bayes

Partilhar via