Escolhendo um modelo
Algoritmo de mineração: O algoritmo de mineração de dados é o mecanismo que cria padrões a partir de dados. Esse algoritmo define o modo como os dados são contados, como as relações são derivadas e como os padrões são armazenados. A seleção de um algoritmo depende parcialmente do tipo de dados que você deseja analisar. Por exemplo, alguns algoritmos só podem funcionar com números contínuos, enquanto que outros funcionam melhor com um número limitado de valores distintos.
Modelo de mineração: O resultado da análise de dados por um algoritmo é salvo em um modelo de mineração. Um modelo de mineração é uma coleção de regras, estatísticas e padrões. O conteúdo do modelo de mineração depende do algoritmo que você usou para processar os dados, mas pode incluir o seguinte:
Regras Se-então que descrevem como são agrupados produtos em uma transação.
Uma árvore de decisão que rastreia os caminhos que levam a um resultado, com probabilidades para a ocorrência de cada caminho.
Um modelo matemático com equações para o modelo como um todo ou para segmentos do modelo.
Coleções de itens semelhantes ( chamados de clusters ou segmentos) que são definidas pelas características que compartilham e por uma pontuação de similaridade.
Nós em uma rede, conectados por bordas. Os nós representam itens ou grupos de itens. As bordas são pontuadas de acordo com a intensidade das relações entre os nós.
Usando o modelo: Depois de criar um modelo, você pode usar os visualizadores fornecidos para explorá-lo ou criar uma consulta no modelo. As consultas podem ser usadas para:
Prever valores futuros.
Gerar um conjunto de produtos relacionados ou recomendados.
Retornar regras, padrões ou fórmulas no modelo.
Obter metadados do modelo.
Fornecer a probabilidade e dar suporte a pontuações para todas ou algumas previsões.
Tipos de algoritmos de Machine Learning
Como tipos diferentes de algoritmos usam os dados de maneiras diferentes, você deve selecionar o algoritmo apropriado para suas metas e para os dados que deseja analisar ao criar um modelo.
Os Suplementos de Mineração de Dados para Excel incluem os tipos abrangentes de algoritmos a seguir:
Algoritmos de classificação.
Preveem uma ou mais variáveis discretas, com base nos outros atributos do conjunto de dados.
Algoritmos de regressão
Preveem uma ou mais variáveis contínuas, como lucro ou perda, com base nos outros atributos do conjunto de dados.
Algoritmos de segmentação
Dividem dados em grupos ou clusters de itens que têm propriedades semelhantes.
Algoritmos de associação
Encontram correlações entre atributos diferentes em um conjunto de dados. Esse tipo de algoritmo é mais comumente usado para criar regras de associação. As regras de associação podem ser usadas em uma análise da cesta de compras.
Algoritmos de análise de sequência
Resumem sequências frequentes ou episódios em dados, como os caminhos que os usuários seguem quando navegam em um site.
Os algoritmos usados pelos suplementos de mineração de dados SQL Server para o Office são baseados nos algoritmos fornecidos pelo Analysis Services. Você também pode usar algoritmos de terceiros que estejam em conformidade com a especificação OLE DB for Data Mining, se a instância do Analysis Services à qual você está conectado tiver sido configurada para permitir algoritmos de terceiros.
Requisitos
Cada algoritmo difere no tipo de dados com os quais pode trabalhar.
Um modelo de regressão linear somente pode modelar valores numéricos. As suas variáveis de entrada e os resultados de destino devem ser tipos numéricos contínuos. Use um modelo de estimativa ou de árvore de decisão se quiser misturar variáveis discretas e contínuas.
Um modelo Naïve Bayes exige que todos os números sejam compartimentados. Se você usar um dos assistentes baseados neste algoritmo, a compartimentalização será executada automaticamente para você.
Um modelo de árvore de decisão pode conter variáveis discretas e contínuas. No entanto, os números serão compartimentados automaticamente conforme o necessário para divisões na árvore.
As redes neurais e os modelos de regressão logística automaticamente compartimentam números usados como resultados ou variáveis de entrada. Se você quiser agrupar os números de acordo com outros critérios, deverá usar a ferramenta Rotular Novamente para criar os agrupamentos antes da modelagem. Por exemplo, talvez você queira agrupar valores em uma coluna Idade por deciles (10-20, 21-30 e assim por diante), em vez dos agrupamentos estatisticamente significativos encontrados pelo modelo (um exemplo pode ser 35,6-41,8 anos).
Um modelo de associação exige que os dados sejam agrupados em transações, cada uma fazendo referência a vários itens ou linhas. Se você estiver usando o assistente Assistente de Associação (Cliente de Mineração de Dados para Excel) ou a ferramenta Análise de Cesta de Compras (Análise de TabelaSols para Excel), os dados deverão ser dispostos conforme mostrado na guia Associar da pasta de trabalho de exemplo.
Se você quiser usar tabelas aninhadas em uma fonte de dados externa, deverá usar as opções de modelagem Modelagem Avançada (Suplementos de Mineração de Dados para Excel) para criar uma estrutura de mineração e um modelo de mineração salvo no servidor. O Excel não dá suporte a tabelas aninhadas.
Seleção de recursos
Dependendo do conjunto de dados, o algoritmo pode aplicar a seleção de recursos, eliminar colunas que não são úteis e determinar quais colunas de dados são estatisticamente significativas em relação ao resultado.
Cada algoritmo usa métodos ligeiramente diferentes da seleção de recursos (como entropia ou várias pontuações de informações) para determinar quais tendências são importantes e quais diferenças podem ser descartadas.
Nos suplementos de mineração de dados para Excel, a seleção de recursos é aplicada automaticamente, usando o método de pontuação adequado para cada algoritmo. Se você quiser afetar os resultados da seleção de recursos, use os assistentes na faixa de opções Mineração de Dados e clique em Avançado para definir parâmetros usando a caixa de diálogo Parâmetros de Algoritmo .
Para obter uma lista dos métodos de seleção de recursos usados por cada algoritmo, consulte o tópico sobre Seleção de Recursos (Mineração de Dados) nos Manuais Online do SQL Server.
Lista de algoritmos com suporte
Os seguintes algoritmos são fornecidos por padrão.
Nome do algoritmo | Descrição | Usado em |
---|---|---|
Regras de Associação da Microsoft | Cria regras que descrevem quais itens provavelmente aparecem juntos em uma transação. | Assistente para Associação (Cliente de Mineração de Dados para Excel) Análise da Cesta de Compras (Ferramentas de Análise de Tabela para Excel) |
Microsoft Clustering | Identifica relações em um conjunto de dados que talvez não sejam derivadas de forma lógica por meio de observação casual. Usa técnicas iterativas para agrupar registros em clusters que contenham características semelhantes. | Detectar Categorias (Ferramentas de Análise de Tabela para Excel) Assistente de Cluster (Suplementos de Mineração de Dados para Excel) |
Árvores de Decisão da Microsoft | Faz previsões com base nas relações entre colunas no conjunto de dados e modela as relações como uma série de divisões semelhantes a uma árvore aplicadas a valores específicos. Dá suporte à previsão de atributos discretos e contínuos. |
Assistente de Classificação (Suplementos de Mineração de Dados para Excel) Assistente de Estimativa (Suplementos de Mineração de Dados para Excel) |
Regressão Linear da Microsoft | Se houver uma dependência linear entre a variável de destino e as variáveis sendo examinadas, encontra a relação mais eficiente entre o destino e suas entradas. Dá suporte à previsão de atributos contínuos. |
Esse algoritmo está disponível no Analysis Services. Nos Suplementos de Mineração de Dados para Office, você pode criar um modelo que use esse algoritmo criando uma estrutura e adicionando um modelo manualmente. Para obter mais informações, consulte Modelagem avançada (Suplementos de Mineração de Dados para Excel). |
Regressão Logística da Microsoft | Analisa os fatores que contribuem para um resultado, em que o resultado fica restrito a dois valores, geralmente a ocorrência ou não de um evento. Dá suporte à previsão de atributos discretos e contínuos. |
Preencher com Base no Exemplo (Ferramentas de Análise de Tabela para Excel) Cenário de Metas a Atingir (Ferramentas de Análise de Tabela para Excel) Cenário E-Se (Ferramentas de Análise de Tabela para Excel) Cálculo de Previsão (Ferramentas de Análise de Tabela para Excel) |
Microsoft Naïve Bayes | Encontra a probabilidade da relação entre todas as colunas de entrada e previsíveis. Esse algoritmo é útil para gerar rapidamente modelos de mineração para descobrir relações. Dá suporte apenas a atributos discretos ou discretizados. Trata todos os atributos de entrada como independentes. |
Analisar os Influenciadores Principais (Ferramentas de Análise de Tabela para Excel) |
Rede Neural da Microsoft | Analisa dados de entrada complexos ou problemas comerciais para os quais uma quantidade significativa de dados de treinamento está disponível, mas para os quais também não é possível derivar regras facilmente usando outros algoritmos. Pode prever vários atributos. Pode ser usado para classificar atributos discretos e regressão de atributos contínuos. |
Esse algoritmo está disponível no Analysis Services. Nos Suplementos de Mineração de Dados para Office, você pode criar um modelo que use esse algoritmo criando uma estrutura e adicionando um modelo manualmente. Para obter mais informações, consulte Modelagem avançada (suplementos de mineração de dados para Excel). |
Microsoft Sequence Clustering | Identifica clusters de eventos ordenados similarmente em uma sequência. Fornece uma combinação de análise de sequência e clustering. |
Esse algoritmo está disponível apenas no Analysis Services. No entanto, nos Suplementos de Mineração de Dados para Office, você pode criar um modelo que use esse algoritmo criando uma estrutura e adicionando um modelo manualmente. Para obter mais informações, consulte Modelagem avançada (suplementos de mineração de dados para Excel). |
Microsoft Time Series | Analisa dados relacionados ao tempo usando uma árvore de decisão linear. Os padrões podem ser usados para prever valores futuros na série temporal. |
Previsão (Ferramentas de Análise de Tabela para Excel) Assistente de Previsão (Suplementos de Mineração de Dados para Excel) |
Consulte Também
O que está incluído nos Suplementos de Mineração de Dados para o Office