Parâmetros do Algoritmo (Suplementos de Mineração de Dados do SQL Server)

Artigo
03/06/2017

Quando você executa mineração de dados usando as Ferramentas de Análise de Tabela para Excel, não precisa configurar o algoritmo ou os parâmetros de mineração de dados; cada ferramenta analisa os dados e seleciona automaticamente os parâmetros ideais. No entanto, se desejar modificar o modelo, ou criar um modelo de mineração do zero, o Cliente de Mineração de Dados para Excel oferece várias opções de personalização.

Crie um modelo de mineração de dados manualmente, clicando em Avançado e, em seguida, clicando em Adicionar Modelo à Estrutura.
Use qualquer um dos assistentes de modelagem no Cliente de Mineração de Dados e clique em Parâmetros para controlar o comportamento dos algoritmos de mineração de dados da Microsoft.
Clique em Consulta para abrir o assistente modelo de consulta e clique em Avançado para abrir o Editor de Consultas Avançado de Mineração de Dados. Nesse editor, você pode criar modelos usando modelos DMX.

Também é possível modificar o comportamento dos modelos de mineração já criados ou você pode filtrar os resultados, definindo parâmetros no visualizador de modelo de mineração.

Lista de parâmetros de algoritmo

Todos os algoritmos da Microsoft podem ser personalizados definindo parâmetros. Como as melhores configurações de parâmetro dependem da composição dos dados, uma explicação completa dos efeitos da alteração dos parâmetros está além do escopo deste tópico.

A tabela a seguir lista os parâmetros, descreve sua funcionalidade e fornece links para mais informações técnicas.

Nome do parâmetro	Usado em	Descrição
AUTO_DETECT_PERIODICITY	Algoritmo MTS	Especifica um valor numérico entre 0 e 1 usado para detectar periodicidade. Definir esse valor mais próximo a 1 favorece a descoberta de vários padrões quase periódicos e a geração automática de dicas de periodicidade. Lidar com muitas dicas de periodicidade provavelmente resultará em tempo de treinamento de modelos significativamente maior, mas também em modelos mais precisos. Se o valor for mais próximo a 0, a periodicidade será detectada somente para dados fortemente periódicos. O padrão é 0.6.
CLUSTER_COUNT	Algoritmo Microsoft Clustering Microsoft Sequence Clustering Algorithm	Especifica o número aproximado de clusters a serem criados pelo algoritmo. Se o número aproximado de clusters não pode ser criado a partir dos dados, o algoritmo cria o máximo de clusters possível. Quando CLUSTER_COUNT é definido como 0, o algoritmo usa heurísticos para determinar melhor o número de clusters a serem criados. O padrão é 10.
CLUSTER_SEED	Algoritmo Microsoft Clustering	Especifica o número de propagação usado apenas para gerar clusters aleatoriamente para o estágio inicial de criação de modelo. O padrão é 0.
CLUSTERING_METHOD	Algoritmo Microsoft Clustering	Especifica o método de clustering para o algoritmo a ser usado. Os seguintes métodos de clustering estão disponíveis: EM evolutivo (1), EM não evolutivo (2), K-Means evolutivo (3) e K-Means não evolutivo (4). O padrão é 1.
COMPLEXITY_PENALTY	Algoritmo Árvores de Decisão da Microsoft Algoritmo MTS	Controla o crescimento da árvore de decisão. Um valor baixo aumenta o número de divisões e um valor alto diminui o número de divisões. O valor padrão se baseia no número de atributos de um determinado modelo, conforme descrito na lista a seguir: Para os atributos 1 a 9, o padrão é 0,5. Para 10 a 99 atributos, o padrão é 0,9. Para 100 ou mais atributos, o padrão é 0,99. Observação: em modelos de série temporal, esse parâmetro se aplica somente a modelos criados usando o algoritmo ARTxp ou a modelos mistos.
FORCED_REGRESSOR	Algoritmo Árvores de Decisão da Microsoft Algoritmo Regressão Linear da Microsoft	Força o algoritmo a usar as colunas indicadas como regressores, independentemente da sua importância quando calculadas pelo algoritmo. Observação: esse parâmetro só é usado para árvores de decisão que estão prevendo um atributo contínuo. Por definição, um modelo de regressão linear é um caso especial de árvores de decisão que prevê atributos comuns. No entanto, qualquer modelo de árvore de decisão pode conter um nó que representa uma fórmula de regressão linear.
FORECAST_METHOD	Algoritmo MTS	Indica se as previsões devem ser feitas com o uso do algoritmo ARTxp ou ARIMA ou uma combinação de ambos. O padrão é MIXED.
HIDDEN_NODE_RATIO	Microsoft Neural Network Algorithm	Especifica a proporção dos neurônios ocultos com os neurônios de entrada e saída. A fórmula a seguir determina o número inicial de neurônios na camada oculta: HIDDEN_NODE_RATIO * SQRT (Total de neurônios de entrada * Total de neurônios de saída) O valor padrão é 4.0.
HISTORIC_MODEL_COUNT	Algoritmo MTS	Especifica o número de modelos de histórico que será criado. O padrão é 1.
HISTORICAL_MODEL_GAP	Algoritmo MTS	Especifica o intervalo de tempo entre dois modelos de histórico consecutivos. Por exemplo, a configuração desse valor como g resulta na criação de modelos de histórico para dados truncados por frações de tempo em intervalos de g, 2g, 3g e assim por diante. O padrão é 10.
HOLDOUT_PERCENTAGE	Algoritmo Regressão Logística da Microsoft Microsoft Neural Network Algorithm	Especifica a porcentagem de casos nos dados de treinamento que são usados para calcular o erro de dados de controle e que é utilizada como parte do critério de interrupção durante o treinamento do modelo de mineração. O valor padrão é 30. Observação: este parâmetro é diferente do valor da porcentagem de controle que se aplica a uma estrutura de mineração.
HOLDOUT_SEED	Algoritmo Regressão Logística da Microsoft Microsoft Neural Network Algorithm	Especifica um número que é usado para semear o gerador pseudoaleatório quando o algoritmo determinar os dados de controle aleatoriamente. Se esse parâmetro for definido como 0, o algoritmo gerará a semente com base no nome do modelo de mineração, para garantir que o conteúdo do modelo permaneça o mesmo durante um novo processamento. O valor padrão é 0. Observação: este parâmetro é diferente do valor da semente de controle que se aplica a uma estrutura de mineração.
INSTABILITY_SENSITIVITY	Algoritmo MTS	Controla o ponto no qual a variância de previsão excede certo limite e o algoritmo ARTxp suprime previsões. O valor padrão é 1. Observação: esse parâmetro se aplica somente a modelos mistos ou modelos que usam o algoritmo ARTxp.
MAXIMUM_INPUT_ATTRIBUTES	Algoritmo Microsoft Clustering Algoritmo Árvores de Decisão da Microsoft Algoritmo Regressão Linear da Microsoft Algoritmo Microsoft Naïve Bayes Microsoft Neural Network Algorithm Algoritmo Regressão Logística da Microsoft	Define o número de atributos de entrada que o algoritmo pode manipular antes de invocar a seleção de recurso. Defina este valor como 0 para desativar a seleção de recursos. O padrão é 255.
MAXIMUM_ITEMSET_COUNT	Algoritmo Associação da Microsoft	Especifica o número de máximo de conjuntos de itens que será produzido. Se nenhum número for especificado, o algoritmo gerará todos os conjuntos de itens possíveis. O padrão é 200000.
MAXIMUM_ITEMSET_SIZE	Algoritmo Associação da Microsoft	Especifica o número máximo de itens permitidos em um conjunto de itens. Definir esse valor como 0 especifica que não há limite para o tamanho do conjunto de itens. O padrão é 3.
MAXIMUM_OUTPUT_ATTRIBUTES	Algoritmo Árvores de Decisão da Microsoft Algoritmo Regressão Linear da Microsoft Algoritmo Regressão Logística da Microsoft Algoritmo Microsoft Naïve Bayes Microsoft Neural Network Algorithm	Define o número de atributos de saída que o algoritmo pode manipular antes de invocar a seleção de recurso. Defina este valor como 0 para desativar a seleção de recursos. O padrão é 255.
MAXIMUM_SEQUENCE_STATES	Microsoft Sequence Clustering Algorithm	Especifica o número de máximo de estados que uma sequência pode ter. A definição desse valor com um número maior que 100 pode fazer com que o algoritmo crie um modelo que não fornece informações significativas. O padrão é 64.
MAXIMUM_SERIES_VALUE	Algoritmo MTS	Especifica o valor máximo para usar em previsões. Esse parâmetro é usado, juntamente com MINIMUM_SERIES_VALUE, para restringir as previsões a algum intervalo esperado. Por exemplo, você pode especificar que a quantidade de vendas prevista para qualquer dia nunca deve exceder o número de produtos no inventário.
MAXIMUM_STATES	Algoritmo Microsoft Clustering Microsoft Neural Network Algorithm Microsoft Sequence Clustering Algorithm	Especifica o número máximo de estados de atributo para os quais o algoritmo dá suporte. Se o número de estados que um atributo tem for maior que o número máximo de estados, o algoritmo usará os estados mais populares do atributo e ignorará os estados restantes. O padrão é 100.
MAXIMUM_SUPPORT	Algoritmo Associação da Microsoft	Especifica o número máximo de casos em que um conjunto de itens pode ter suporte. Se esse valor for menor que 1, o valor representará uma porcentagem do total de casos. Se esse valor for maior do que 1, ele representará o número absoluto de casos que podem conter o conjunto de itens. O padrão é 1.
MINIMUM_IMPORTANCE	Algoritmo Associação da Microsoft	Especifica o limite de importância para regras de associação. As regras com menos importância do que esse valor são filtradas.
MINIMUM_ITEMSET_SIZE	Algoritmo Associação da Microsoft	Especifica o número mínimo de itens permitidos em um conjunto de itens. O padrão é 1.
MINIMUM_DEPENDENCY_PROBABILITY	Algoritmo Microsoft Naïve Bayes	Especifica a probabilidade mínima de dependência entre os atributos de entrada e de saída. Esse valor é usado para limitar o tamanho do conteúdo gerado pelo algoritmo. Essa propriedade pode ser definida de 0 a 1. Valores maiores reduzem o número de atributos no conteúdo do modelo. O padrão é 0,5.
MINIMUM_PROBABILITY	Algoritmo Associação da Microsoft	Especifica a probabilidade mínima de uma regra ser verdadeira. Por exemplo, configurar este valor como 0,5 especifica que nenhuma regra com menos de 50% de probabilidade será gerada. O padrão é 0,4.
MINIMUM_SERIES_VALUE	Algoritmo MTS	Especifica a restrição inferior para qualquer previsão de série temporal. Os valores previstos nunca serão menores do que essa restrição.
MINIMUM_SUPPORT	Algoritmo Associação da Microsoft	Especifica o número mínimo de casos que devem conter o conjunto de itens antes de o algoritmo gerar uma regra. Se você definir esse valor como menos que 1, o número mínimo de casos será especificado como uma porcentagem do total de casos. Se você definir esse valor como um número inteiro maior que 1, o número mínimo de casos será especificado como o número absoluto de casos que devem conter o conjunto de itens. O algoritmo pode aumentar automaticamente o valor desse parâmetro se houver limite de memória. O padrão é 0,03.
MINIMUM_SUPPORT	Algoritmo Microsoft Clustering	Especifica o número mínimo de casos em cada cluster. O padrão é 1.
MINIMUM_SUPPORT	Algoritmo Árvores de Decisão da Microsoft	Determina o número mínimo de casos folha necessário para gerar uma divisão na árvore de decisão. O padrão é 10.
MINIMUM_SUPPORT	Microsoft Sequence Clustering Algorithm	Especifica o número mínimo de casos em cada cluster. O padrão é 10.
MINIMUM_SUPPORT	Algoritmo MTS	Especifica o número mínimo de intervalos de tempo necessário para gerar uma divisão em cada árvore de série temporal. O padrão é 10.
MISSING_VALUE_SUBSTITUTION	Algoritmo MTS	Especifica o método que será usado para preencher os intervalos nos dados históricos. Por padrão, intervalos irregulares ou bordas imperfeitas não são permitidos nos dados. Os métodos a seguir podem ser usados para preencher intervalos ou bordas irregulares: use o valor anterior, o valor médio ou uma constante numérica específica.
MODELLING_CARDINALITY	Algoritmo Microsoft Clustering	Especifica o número de modelos de exemplo construídos durante o processo de clustering. O padrão é 10.
PERIODICITY_HINT	Algoritmo MTS	Fornece uma dica para o algoritmo sobre a periodicidade dos dados. Por exemplo, se as vendas variam de acordo com o ano e a unidade de medida da série são meses, a periodicidade é 12. O parâmetro assume o formato de {n [, n]}, em que n é qualquer número positivo. O n nos colchetes [] é opcional e pode ser repetido sempre que necessário. O padrão é {1}.
PREDICTION_SMOOTHING	Algoritmo MTS	Controla a combinação dos algoritmos de série temporal ARTxp e ARIMA. O valor especificado somente é válido quando o parâmetro FORECAST_METHOD é definido como MIXED. Os valores devem ficar entre 0 e 1. Se o valor for 0, o modelo usará apenas ARTXP. Se o valor for 1, o modelo usará apenas ARIMA. Um valor perto de 0 é ponderado com mais peso para ARTXP. Um valor perto de 1 é ponderado com mais peso para ARIMA.
SAMPLE_SIZE	Algoritmo Microsoft Clustering	Especifica o número de casos que o algoritmo usará em cada passagem se o parâmetro CLUSTERING_METHOD for definido como um dos métodos de cluster evolutivo. A definição do parâmetro SAMPLE_SIZE como 0 fará com que todo o conjunto de dados seja clusterizado em uma única passagem. Isso pode causar problemas de memória e de desempenho. O padrão é 50000.
SAMPLE_SIZE	Algoritmo Regressão Logística da Microsoft Microsoft Neural Network Algorithm	Especifica o número de casos a ser usado para treinar o modelo. O provedor de algoritmo usa esse número ou a porcentagem do total de casos não incluídos na porcentagem de controle conforme especificado pelo parâmetro HOLDOUT_PERCENTAGE, o que tiver menor valor. Em outras palavras, se HOLDOUT_PERCENTAGE for definido como 30, o algoritmo usará o valor desse parâmetro ou um valor igual a 70 por cento do número total de casos, o que for menor. O padrão é 10000.
SCORE_METHOD	Algoritmo Árvores de Decisão da Microsoft	Determina o método usado para calcular a pontuação da divisão. As seguintes opções estão disponíveis: (1) Entropia, (2) Bayesiano com K2 a Priori ou (3) Bayesian Dirichlet Equivalente (BDE) a Priori. O padrão é 3.
SPLIT_METHOD	Algoritmo Árvores de Decisão da Microsoft	Determina o método usado para dividir o nó. As seguintes opções estão disponíveis: Binário (1), Completo (2) ou Ambos (3). O padrão é 3.
STOPPING_TOLERANCE	Referência técnica do algoritmo Microsoft Clustering	Especifica o valor usado para determinar quando a convergência é alcançada e o algoritmo terminou de criar o modelo. A convergência é alcançada quando a alteração geral nas probabilidades do cluster é menor do que a taxa do parâmetro STOPPING_TOLERANCE dividida pelo tamanho do modelo. O padrão é 10.

Comentários

Para obter mais detalhes sobre os algoritmos, consulte os Manuais Online do SQL Server.

Consulte Também

Algoritmos de mineração de dados (Suplementos de mineração de dados do SQL Server)

Partilhar via

Parâmetros do Algoritmo (Suplementos de Mineração de Dados do SQL Server)

Lista de parâmetros de algoritmo

Comentários

Consulte Também

Recursos adicionais