Partilhar via


Parâmetros do Algoritmo (Suplementos de Mineração de Dados do SQL Server)

Quando você executa mineração de dados usando as Ferramentas de Análise de Tabela para Excel, não precisa configurar o algoritmo ou os parâmetros de mineração de dados; cada ferramenta analisa os dados e seleciona automaticamente os parâmetros ideais. No entanto, se desejar modificar o modelo, ou criar um modelo de mineração do zero, o Cliente de Mineração de Dados para Excel oferece várias opções de personalização.

  • Crie um modelo de mineração de dados manualmente, clicando em Avançado e, em seguida, clicando em Adicionar Modelo à Estrutura.

  • Use qualquer um dos assistentes de modelagem no Cliente de Mineração de Dados e clique em Parâmetros para controlar o comportamento dos algoritmos de mineração de dados da Microsoft.

  • Clique em Consulta para abrir o assistente modelo de consulta e clique em Avançado para abrir o Editor de Consultas Avançado de Mineração de Dados. Nesse editor, você pode criar modelos usando modelos DMX.

Também é possível modificar o comportamento dos modelos de mineração já criados ou você pode filtrar os resultados, definindo parâmetros no visualizador de modelo de mineração.

Lista de parâmetros de algoritmo

Todos os algoritmos da Microsoft podem ser personalizados definindo parâmetros. Como as melhores configurações de parâmetro dependem da composição dos dados, uma explicação completa dos efeitos da alteração dos parâmetros está além do escopo deste tópico.

A tabela a seguir lista os parâmetros, descreve sua funcionalidade e fornece links para mais informações técnicas.

Nome do parâmetro Usado em Descrição
AUTO_DETECT_PERIODICITY Algoritmo MTS Especifica um valor numérico entre 0 e 1 usado para detectar periodicidade. Definir esse valor mais próximo a 1 favorece a descoberta de vários padrões quase periódicos e a geração automática de dicas de periodicidade. Lidar com muitas dicas de periodicidade provavelmente resultará em tempo de treinamento de modelos significativamente maior, mas também em modelos mais precisos. Se o valor for mais próximo a 0, a periodicidade será detectada somente para dados fortemente periódicos.

O padrão é 0.6.
CLUSTER_COUNT Algoritmo Microsoft Clustering

Microsoft Sequence Clustering Algorithm
Especifica o número aproximado de clusters a serem criados pelo algoritmo. Se o número aproximado de clusters não pode ser criado a partir dos dados, o algoritmo cria o máximo de clusters possível. Quando CLUSTER_COUNT é definido como 0, o algoritmo usa heurísticos para determinar melhor o número de clusters a serem criados.

O padrão é 10.
CLUSTER_SEED Algoritmo Microsoft Clustering Especifica o número de propagação usado apenas para gerar clusters aleatoriamente para o estágio inicial de criação de modelo.

O padrão é 0.
CLUSTERING_METHOD Algoritmo Microsoft Clustering Especifica o método de clustering para o algoritmo a ser usado. Os seguintes métodos de clustering estão disponíveis: EM evolutivo (1), EM não evolutivo (2), K-Means evolutivo (3) e K-Means não evolutivo (4).

O padrão é 1.
COMPLEXITY_PENALTY Algoritmo Árvores de Decisão da Microsoft

Algoritmo MTS
Controla o crescimento da árvore de decisão. Um valor baixo aumenta o número de divisões e um valor alto diminui o número de divisões. O valor padrão se baseia no número de atributos de um determinado modelo, conforme descrito na lista a seguir:

Para os atributos 1 a 9, o padrão é 0,5.

Para 10 a 99 atributos, o padrão é 0,9.

Para 100 ou mais atributos, o padrão é 0,99.

Observação: em modelos de série temporal, esse parâmetro se aplica somente a modelos criados usando o algoritmo ARTxp ou a modelos mistos.
FORCED_REGRESSOR Algoritmo Árvores de Decisão da Microsoft

Algoritmo Regressão Linear da Microsoft
Força o algoritmo a usar as colunas indicadas como regressores, independentemente da sua importância quando calculadas pelo algoritmo.

Observação: esse parâmetro só é usado para árvores de decisão que estão prevendo um atributo contínuo. Por definição, um modelo de regressão linear é um caso especial de árvores de decisão que prevê atributos comuns. No entanto, qualquer modelo de árvore de decisão pode conter um nó que representa uma fórmula de regressão linear.
FORECAST_METHOD Algoritmo MTS Indica se as previsões devem ser feitas com o uso do algoritmo ARTxp ou ARIMA ou uma combinação de ambos.

O padrão é MIXED.
HIDDEN_NODE_RATIO Microsoft Neural Network Algorithm Especifica a proporção dos neurônios ocultos com os neurônios de entrada e saída. A fórmula a seguir determina o número inicial de neurônios na camada oculta:

HIDDEN_NODE_RATIO * SQRT (Total de neurônios de entrada * Total de neurônios de saída)

O valor padrão é 4.0.
HISTORIC_MODEL_COUNT Algoritmo MTS Especifica o número de modelos de histórico que será criado.

O padrão é 1.
HISTORICAL_MODEL_GAP Algoritmo MTS Especifica o intervalo de tempo entre dois modelos de histórico consecutivos. Por exemplo, a configuração desse valor como g resulta na criação de modelos de histórico para dados truncados por frações de tempo em intervalos de g, 2*g, 3*g e assim por diante.

O padrão é 10.
HOLDOUT_PERCENTAGE Algoritmo Regressão Logística da Microsoft

Microsoft Neural Network Algorithm
Especifica a porcentagem de casos nos dados de treinamento que são usados para calcular o erro de dados de controle e que é utilizada como parte do critério de interrupção durante o treinamento do modelo de mineração.

O valor padrão é 30.

Observação: este parâmetro é diferente do valor da porcentagem de controle que se aplica a uma estrutura de mineração.
HOLDOUT_SEED Algoritmo Regressão Logística da Microsoft

Microsoft Neural Network Algorithm
Especifica um número que é usado para semear o gerador pseudoaleatório quando o algoritmo determinar os dados de controle aleatoriamente. Se esse parâmetro for definido como 0, o algoritmo gerará a semente com base no nome do modelo de mineração, para garantir que o conteúdo do modelo permaneça o mesmo durante um novo processamento.

O valor padrão é 0.

Observação: este parâmetro é diferente do valor da semente de controle que se aplica a uma estrutura de mineração.
INSTABILITY_SENSITIVITY Algoritmo MTS Controla o ponto no qual a variância de previsão excede certo limite e o algoritmo ARTxp suprime previsões. O valor padrão é 1.

Observação: esse parâmetro se aplica somente a modelos mistos ou modelos que usam o algoritmo ARTxp.
MAXIMUM_INPUT_ATTRIBUTES Algoritmo Microsoft Clustering

Algoritmo Árvores de Decisão da Microsoft

Algoritmo Regressão Linear da Microsoft

Algoritmo Microsoft Naïve Bayes

Microsoft Neural Network Algorithm

Algoritmo Regressão Logística da Microsoft
Define o número de atributos de entrada que o algoritmo pode manipular antes de invocar a seleção de recurso. Defina este valor como 0 para desativar a seleção de recursos.

O padrão é 255.
MAXIMUM_ITEMSET_COUNT Algoritmo Associação da Microsoft Especifica o número de máximo de conjuntos de itens que será produzido. Se nenhum número for especificado, o algoritmo gerará todos os conjuntos de itens possíveis.

O padrão é 200000.
MAXIMUM_ITEMSET_SIZE Algoritmo Associação da Microsoft Especifica o número máximo de itens permitidos em um conjunto de itens. Definir esse valor como 0 especifica que não há limite para o tamanho do conjunto de itens.

O padrão é 3.
MAXIMUM_OUTPUT_ATTRIBUTES Algoritmo Árvores de Decisão da Microsoft

Algoritmo Regressão Linear da Microsoft

Algoritmo Regressão Logística da Microsoft

Algoritmo Microsoft Naïve Bayes

Microsoft Neural Network Algorithm
Define o número de atributos de saída que o algoritmo pode manipular antes de invocar a seleção de recurso. Defina este valor como 0 para desativar a seleção de recursos.

O padrão é 255.
MAXIMUM_SEQUENCE_STATES Microsoft Sequence Clustering Algorithm Especifica o número de máximo de estados que uma sequência pode ter. A definição desse valor com um número maior que 100 pode fazer com que o algoritmo crie um modelo que não fornece informações significativas.

O padrão é 64.
MAXIMUM_SERIES_VALUE Algoritmo MTS Especifica o valor máximo para usar em previsões. Esse parâmetro é usado, juntamente com MINIMUM_SERIES_VALUE, para restringir as previsões a algum intervalo esperado. Por exemplo, você pode especificar que a quantidade de vendas prevista para qualquer dia nunca deve exceder o número de produtos no inventário.
MAXIMUM_STATES Algoritmo Microsoft Clustering

Microsoft Neural Network Algorithm

Microsoft Sequence Clustering Algorithm
Especifica o número máximo de estados de atributo para os quais o algoritmo dá suporte. Se o número de estados que um atributo tem for maior que o número máximo de estados, o algoritmo usará os estados mais populares do atributo e ignorará os estados restantes.

O padrão é 100.
MAXIMUM_SUPPORT Algoritmo Associação da Microsoft Especifica o número máximo de casos em que um conjunto de itens pode ter suporte. Se esse valor for menor que 1, o valor representará uma porcentagem do total de casos. Se esse valor for maior do que 1, ele representará o número absoluto de casos que podem conter o conjunto de itens.

O padrão é 1.
MINIMUM_IMPORTANCE Algoritmo Associação da Microsoft Especifica o limite de importância para regras de associação. As regras com menos importância do que esse valor são filtradas.
MINIMUM_ITEMSET_SIZE Algoritmo Associação da Microsoft Especifica o número mínimo de itens permitidos em um conjunto de itens.

O padrão é 1.
MINIMUM_DEPENDENCY_PROBABILITY Algoritmo Microsoft Naïve Bayes Especifica a probabilidade mínima de dependência entre os atributos de entrada e de saída. Esse valor é usado para limitar o tamanho do conteúdo gerado pelo algoritmo. Essa propriedade pode ser definida de 0 a 1. Valores maiores reduzem o número de atributos no conteúdo do modelo.

O padrão é 0,5.
MINIMUM_PROBABILITY Algoritmo Associação da Microsoft Especifica a probabilidade mínima de uma regra ser verdadeira. Por exemplo, configurar este valor como 0,5 especifica que nenhuma regra com menos de 50% de probabilidade será gerada.

O padrão é 0,4.
MINIMUM_SERIES_VALUE Algoritmo MTS Especifica a restrição inferior para qualquer previsão de série temporal. Os valores previstos nunca serão menores do que essa restrição.
MINIMUM_SUPPORT Algoritmo Associação da Microsoft Especifica o número mínimo de casos que devem conter o conjunto de itens antes de o algoritmo gerar uma regra. Se você definir esse valor como menos que 1, o número mínimo de casos será especificado como uma porcentagem do total de casos. Se você definir esse valor como um número inteiro maior que 1, o número mínimo de casos será especificado como o número absoluto de casos que devem conter o conjunto de itens. O algoritmo pode aumentar automaticamente o valor desse parâmetro se houver limite de memória.

O padrão é 0,03.
MINIMUM_SUPPORT Algoritmo Microsoft Clustering Especifica o número mínimo de casos em cada cluster.

O padrão é 1.
MINIMUM_SUPPORT Algoritmo Árvores de Decisão da Microsoft Determina o número mínimo de casos folha necessário para gerar uma divisão na árvore de decisão.

O padrão é 10.
MINIMUM_SUPPORT Microsoft Sequence Clustering Algorithm Especifica o número mínimo de casos em cada cluster.

O padrão é 10.
MINIMUM_SUPPORT Algoritmo MTS Especifica o número mínimo de intervalos de tempo necessário para gerar uma divisão em cada árvore de série temporal.

O padrão é 10.
MISSING_VALUE_SUBSTITUTION Algoritmo MTS Especifica o método que será usado para preencher os intervalos nos dados históricos. Por padrão, intervalos irregulares ou bordas imperfeitas não são permitidos nos dados. Os métodos a seguir podem ser usados para preencher intervalos ou bordas irregulares: use o valor anterior, o valor médio ou uma constante numérica específica.
MODELLING_CARDINALITY Algoritmo Microsoft Clustering Especifica o número de modelos de exemplo construídos durante o processo de clustering.

O padrão é 10.
PERIODICITY_HINT Algoritmo MTS Fornece uma dica para o algoritmo sobre a periodicidade dos dados. Por exemplo, se as vendas variam de acordo com o ano e a unidade de medida da série são meses, a periodicidade é 12. O parâmetro assume o formato de {n [, n]}, em que n é qualquer número positivo. O n nos colchetes [] é opcional e pode ser repetido sempre que necessário.

O padrão é {1}.
PREDICTION_SMOOTHING Algoritmo MTS Controla a combinação dos algoritmos de série temporal ARTxp e ARIMA. O valor especificado somente é válido quando o parâmetro FORECAST_METHOD é definido como MIXED. Os valores devem ficar entre 0 e 1. Se o valor for 0, o modelo usará apenas ARTXP. Se o valor for 1, o modelo usará apenas ARIMA. Um valor perto de 0 é ponderado com mais peso para ARTXP. Um valor perto de 1 é ponderado com mais peso para ARIMA.
SAMPLE_SIZE Algoritmo Microsoft Clustering Especifica o número de casos que o algoritmo usará em cada passagem se o parâmetro CLUSTERING_METHOD for definido como um dos métodos de cluster evolutivo. A definição do parâmetro SAMPLE_SIZE como 0 fará com que todo o conjunto de dados seja clusterizado em uma única passagem. Isso pode causar problemas de memória e de desempenho.

O padrão é 50000.
SAMPLE_SIZE Algoritmo Regressão Logística da Microsoft

Microsoft Neural Network Algorithm
Especifica o número de casos a ser usado para treinar o modelo. O provedor de algoritmo usa esse número ou a porcentagem do total de casos não incluídos na porcentagem de controle conforme especificado pelo parâmetro HOLDOUT_PERCENTAGE, o que tiver menor valor.

Em outras palavras, se HOLDOUT_PERCENTAGE for definido como 30, o algoritmo usará o valor desse parâmetro ou um valor igual a 70 por cento do número total de casos, o que for menor.

O padrão é 10000.
SCORE_METHOD Algoritmo Árvores de Decisão da Microsoft Determina o método usado para calcular a pontuação da divisão. As seguintes opções estão disponíveis: (1) Entropia, (2) Bayesiano com K2 a Priori ou (3) Bayesian Dirichlet Equivalente (BDE) a Priori.

O padrão é 3.
SPLIT_METHOD Algoritmo Árvores de Decisão da Microsoft Determina o método usado para dividir o nó. As seguintes opções estão disponíveis: Binário (1), Completo (2) ou Ambos (3).

O padrão é 3.
STOPPING_TOLERANCE Referência técnica do algoritmo Microsoft Clustering Especifica o valor usado para determinar quando a convergência é alcançada e o algoritmo terminou de criar o modelo. A convergência é alcançada quando a alteração geral nas probabilidades do cluster é menor do que a taxa do parâmetro STOPPING_TOLERANCE dividida pelo tamanho do modelo.

O padrão é 10.

Comentários

Para obter mais detalhes sobre os algoritmos, consulte os Manuais Online do SQL Server.

Consulte Também

Algoritmos de mineração de dados (Suplementos de mineração de dados do SQL Server)