Parâmetros do Algoritmo (Suplementos de Mineração de Dados do SQL Server)
Quando você executa mineração de dados usando as Ferramentas de Análise de Tabela para Excel, não precisa configurar o algoritmo ou os parâmetros de mineração de dados; cada ferramenta analisa os dados e seleciona automaticamente os parâmetros ideais. No entanto, se desejar modificar o modelo, ou criar um modelo de mineração do zero, o Cliente de Mineração de Dados para Excel oferece várias opções de personalização.
Crie um modelo de mineração de dados manualmente, clicando em Avançado e, em seguida, clicando em Adicionar Modelo à Estrutura.
Use qualquer um dos assistentes de modelagem no Cliente de Mineração de Dados e clique em Parâmetros para controlar o comportamento dos algoritmos de mineração de dados da Microsoft.
Clique em Consulta para abrir o assistente modelo de consulta e clique em Avançado para abrir o Editor de Consultas Avançado de Mineração de Dados. Nesse editor, você pode criar modelos usando modelos DMX.
Também é possível modificar o comportamento dos modelos de mineração já criados ou você pode filtrar os resultados, definindo parâmetros no visualizador de modelo de mineração.
Lista de parâmetros de algoritmo
Todos os algoritmos da Microsoft podem ser personalizados definindo parâmetros. Como as melhores configurações de parâmetro dependem da composição dos dados, uma explicação completa dos efeitos da alteração dos parâmetros está além do escopo deste tópico.
A tabela a seguir lista os parâmetros, descreve sua funcionalidade e fornece links para mais informações técnicas.
Nome do parâmetro | Usado em | Descrição |
---|---|---|
AUTO_DETECT_PERIODICITY | Algoritmo MTS | Especifica um valor numérico entre 0 e 1 usado para detectar periodicidade. Definir esse valor mais próximo a 1 favorece a descoberta de vários padrões quase periódicos e a geração automática de dicas de periodicidade. Lidar com muitas dicas de periodicidade provavelmente resultará em tempo de treinamento de modelos significativamente maior, mas também em modelos mais precisos. Se o valor for mais próximo a 0, a periodicidade será detectada somente para dados fortemente periódicos. O padrão é 0.6. |
CLUSTER_COUNT | Algoritmo Microsoft Clustering Microsoft Sequence Clustering Algorithm |
Especifica o número aproximado de clusters a serem criados pelo algoritmo. Se o número aproximado de clusters não pode ser criado a partir dos dados, o algoritmo cria o máximo de clusters possível. Quando CLUSTER_COUNT é definido como 0, o algoritmo usa heurísticos para determinar melhor o número de clusters a serem criados. O padrão é 10. |
CLUSTER_SEED | Algoritmo Microsoft Clustering | Especifica o número de propagação usado apenas para gerar clusters aleatoriamente para o estágio inicial de criação de modelo. O padrão é 0. |
CLUSTERING_METHOD | Algoritmo Microsoft Clustering | Especifica o método de clustering para o algoritmo a ser usado. Os seguintes métodos de clustering estão disponíveis: EM evolutivo (1), EM não evolutivo (2), K-Means evolutivo (3) e K-Means não evolutivo (4). O padrão é 1. |
COMPLEXITY_PENALTY | Algoritmo Árvores de Decisão da Microsoft Algoritmo MTS |
Controla o crescimento da árvore de decisão. Um valor baixo aumenta o número de divisões e um valor alto diminui o número de divisões. O valor padrão se baseia no número de atributos de um determinado modelo, conforme descrito na lista a seguir: Para os atributos 1 a 9, o padrão é 0,5. Para 10 a 99 atributos, o padrão é 0,9. Para 100 ou mais atributos, o padrão é 0,99. Observação: em modelos de série temporal, esse parâmetro se aplica somente a modelos criados usando o algoritmo ARTxp ou a modelos mistos. |
FORCED_REGRESSOR | Algoritmo Árvores de Decisão da Microsoft Algoritmo Regressão Linear da Microsoft |
Força o algoritmo a usar as colunas indicadas como regressores, independentemente da sua importância quando calculadas pelo algoritmo. Observação: esse parâmetro só é usado para árvores de decisão que estão prevendo um atributo contínuo. Por definição, um modelo de regressão linear é um caso especial de árvores de decisão que prevê atributos comuns. No entanto, qualquer modelo de árvore de decisão pode conter um nó que representa uma fórmula de regressão linear. |
FORECAST_METHOD | Algoritmo MTS | Indica se as previsões devem ser feitas com o uso do algoritmo ARTxp ou ARIMA ou uma combinação de ambos. O padrão é MIXED. |
HIDDEN_NODE_RATIO | Microsoft Neural Network Algorithm | Especifica a proporção dos neurônios ocultos com os neurônios de entrada e saída. A fórmula a seguir determina o número inicial de neurônios na camada oculta: HIDDEN_NODE_RATIO * SQRT (Total de neurônios de entrada * Total de neurônios de saída) O valor padrão é 4.0. |
HISTORIC_MODEL_COUNT | Algoritmo MTS | Especifica o número de modelos de histórico que será criado. O padrão é 1. |
HISTORICAL_MODEL_GAP | Algoritmo MTS | Especifica o intervalo de tempo entre dois modelos de histórico consecutivos. Por exemplo, a configuração desse valor como g resulta na criação de modelos de histórico para dados truncados por frações de tempo em intervalos de g, 2*g, 3*g e assim por diante. O padrão é 10. |
HOLDOUT_PERCENTAGE | Algoritmo Regressão Logística da Microsoft Microsoft Neural Network Algorithm |
Especifica a porcentagem de casos nos dados de treinamento que são usados para calcular o erro de dados de controle e que é utilizada como parte do critério de interrupção durante o treinamento do modelo de mineração. O valor padrão é 30. Observação: este parâmetro é diferente do valor da porcentagem de controle que se aplica a uma estrutura de mineração. |
HOLDOUT_SEED | Algoritmo Regressão Logística da Microsoft Microsoft Neural Network Algorithm |
Especifica um número que é usado para semear o gerador pseudoaleatório quando o algoritmo determinar os dados de controle aleatoriamente. Se esse parâmetro for definido como 0, o algoritmo gerará a semente com base no nome do modelo de mineração, para garantir que o conteúdo do modelo permaneça o mesmo durante um novo processamento. O valor padrão é 0. Observação: este parâmetro é diferente do valor da semente de controle que se aplica a uma estrutura de mineração. |
INSTABILITY_SENSITIVITY | Algoritmo MTS | Controla o ponto no qual a variância de previsão excede certo limite e o algoritmo ARTxp suprime previsões. O valor padrão é 1. Observação: esse parâmetro se aplica somente a modelos mistos ou modelos que usam o algoritmo ARTxp. |
MAXIMUM_INPUT_ATTRIBUTES | Algoritmo Microsoft Clustering Algoritmo Árvores de Decisão da Microsoft Algoritmo Regressão Linear da Microsoft Algoritmo Microsoft Naïve Bayes Microsoft Neural Network Algorithm Algoritmo Regressão Logística da Microsoft |
Define o número de atributos de entrada que o algoritmo pode manipular antes de invocar a seleção de recurso. Defina este valor como 0 para desativar a seleção de recursos. O padrão é 255. |
MAXIMUM_ITEMSET_COUNT | Algoritmo Associação da Microsoft | Especifica o número de máximo de conjuntos de itens que será produzido. Se nenhum número for especificado, o algoritmo gerará todos os conjuntos de itens possíveis. O padrão é 200000. |
MAXIMUM_ITEMSET_SIZE | Algoritmo Associação da Microsoft | Especifica o número máximo de itens permitidos em um conjunto de itens. Definir esse valor como 0 especifica que não há limite para o tamanho do conjunto de itens. O padrão é 3. |
MAXIMUM_OUTPUT_ATTRIBUTES | Algoritmo Árvores de Decisão da Microsoft Algoritmo Regressão Linear da Microsoft Algoritmo Regressão Logística da Microsoft Algoritmo Microsoft Naïve Bayes Microsoft Neural Network Algorithm |
Define o número de atributos de saída que o algoritmo pode manipular antes de invocar a seleção de recurso. Defina este valor como 0 para desativar a seleção de recursos. O padrão é 255. |
MAXIMUM_SEQUENCE_STATES | Microsoft Sequence Clustering Algorithm | Especifica o número de máximo de estados que uma sequência pode ter. A definição desse valor com um número maior que 100 pode fazer com que o algoritmo crie um modelo que não fornece informações significativas. O padrão é 64. |
MAXIMUM_SERIES_VALUE | Algoritmo MTS | Especifica o valor máximo para usar em previsões. Esse parâmetro é usado, juntamente com MINIMUM_SERIES_VALUE, para restringir as previsões a algum intervalo esperado. Por exemplo, você pode especificar que a quantidade de vendas prevista para qualquer dia nunca deve exceder o número de produtos no inventário. |
MAXIMUM_STATES | Algoritmo Microsoft Clustering Microsoft Neural Network Algorithm Microsoft Sequence Clustering Algorithm |
Especifica o número máximo de estados de atributo para os quais o algoritmo dá suporte. Se o número de estados que um atributo tem for maior que o número máximo de estados, o algoritmo usará os estados mais populares do atributo e ignorará os estados restantes. O padrão é 100. |
MAXIMUM_SUPPORT | Algoritmo Associação da Microsoft | Especifica o número máximo de casos em que um conjunto de itens pode ter suporte. Se esse valor for menor que 1, o valor representará uma porcentagem do total de casos. Se esse valor for maior do que 1, ele representará o número absoluto de casos que podem conter o conjunto de itens. O padrão é 1. |
MINIMUM_IMPORTANCE | Algoritmo Associação da Microsoft | Especifica o limite de importância para regras de associação. As regras com menos importância do que esse valor são filtradas. |
MINIMUM_ITEMSET_SIZE | Algoritmo Associação da Microsoft | Especifica o número mínimo de itens permitidos em um conjunto de itens. O padrão é 1. |
MINIMUM_DEPENDENCY_PROBABILITY | Algoritmo Microsoft Naïve Bayes | Especifica a probabilidade mínima de dependência entre os atributos de entrada e de saída. Esse valor é usado para limitar o tamanho do conteúdo gerado pelo algoritmo. Essa propriedade pode ser definida de 0 a 1. Valores maiores reduzem o número de atributos no conteúdo do modelo. O padrão é 0,5. |
MINIMUM_PROBABILITY | Algoritmo Associação da Microsoft | Especifica a probabilidade mínima de uma regra ser verdadeira. Por exemplo, configurar este valor como 0,5 especifica que nenhuma regra com menos de 50% de probabilidade será gerada. O padrão é 0,4. |
MINIMUM_SERIES_VALUE | Algoritmo MTS | Especifica a restrição inferior para qualquer previsão de série temporal. Os valores previstos nunca serão menores do que essa restrição. |
MINIMUM_SUPPORT | Algoritmo Associação da Microsoft | Especifica o número mínimo de casos que devem conter o conjunto de itens antes de o algoritmo gerar uma regra. Se você definir esse valor como menos que 1, o número mínimo de casos será especificado como uma porcentagem do total de casos. Se você definir esse valor como um número inteiro maior que 1, o número mínimo de casos será especificado como o número absoluto de casos que devem conter o conjunto de itens. O algoritmo pode aumentar automaticamente o valor desse parâmetro se houver limite de memória. O padrão é 0,03. |
MINIMUM_SUPPORT | Algoritmo Microsoft Clustering | Especifica o número mínimo de casos em cada cluster. O padrão é 1. |
MINIMUM_SUPPORT | Algoritmo Árvores de Decisão da Microsoft | Determina o número mínimo de casos folha necessário para gerar uma divisão na árvore de decisão. O padrão é 10. |
MINIMUM_SUPPORT | Microsoft Sequence Clustering Algorithm | Especifica o número mínimo de casos em cada cluster. O padrão é 10. |
MINIMUM_SUPPORT | Algoritmo MTS | Especifica o número mínimo de intervalos de tempo necessário para gerar uma divisão em cada árvore de série temporal. O padrão é 10. |
MISSING_VALUE_SUBSTITUTION | Algoritmo MTS | Especifica o método que será usado para preencher os intervalos nos dados históricos. Por padrão, intervalos irregulares ou bordas imperfeitas não são permitidos nos dados. Os métodos a seguir podem ser usados para preencher intervalos ou bordas irregulares: use o valor anterior, o valor médio ou uma constante numérica específica. |
MODELLING_CARDINALITY | Algoritmo Microsoft Clustering | Especifica o número de modelos de exemplo construídos durante o processo de clustering. O padrão é 10. |
PERIODICITY_HINT | Algoritmo MTS | Fornece uma dica para o algoritmo sobre a periodicidade dos dados. Por exemplo, se as vendas variam de acordo com o ano e a unidade de medida da série são meses, a periodicidade é 12. O parâmetro assume o formato de {n [, n]}, em que n é qualquer número positivo. O n nos colchetes [] é opcional e pode ser repetido sempre que necessário. O padrão é {1}. |
PREDICTION_SMOOTHING | Algoritmo MTS | Controla a combinação dos algoritmos de série temporal ARTxp e ARIMA. O valor especificado somente é válido quando o parâmetro FORECAST_METHOD é definido como MIXED. Os valores devem ficar entre 0 e 1. Se o valor for 0, o modelo usará apenas ARTXP. Se o valor for 1, o modelo usará apenas ARIMA. Um valor perto de 0 é ponderado com mais peso para ARTXP. Um valor perto de 1 é ponderado com mais peso para ARIMA. |
SAMPLE_SIZE | Algoritmo Microsoft Clustering | Especifica o número de casos que o algoritmo usará em cada passagem se o parâmetro CLUSTERING_METHOD for definido como um dos métodos de cluster evolutivo. A definição do parâmetro SAMPLE_SIZE como 0 fará com que todo o conjunto de dados seja clusterizado em uma única passagem. Isso pode causar problemas de memória e de desempenho. O padrão é 50000. |
SAMPLE_SIZE | Algoritmo Regressão Logística da Microsoft Microsoft Neural Network Algorithm |
Especifica o número de casos a ser usado para treinar o modelo. O provedor de algoritmo usa esse número ou a porcentagem do total de casos não incluídos na porcentagem de controle conforme especificado pelo parâmetro HOLDOUT_PERCENTAGE, o que tiver menor valor. Em outras palavras, se HOLDOUT_PERCENTAGE for definido como 30, o algoritmo usará o valor desse parâmetro ou um valor igual a 70 por cento do número total de casos, o que for menor. O padrão é 10000. |
SCORE_METHOD | Algoritmo Árvores de Decisão da Microsoft | Determina o método usado para calcular a pontuação da divisão. As seguintes opções estão disponíveis: (1) Entropia, (2) Bayesiano com K2 a Priori ou (3) Bayesian Dirichlet Equivalente (BDE) a Priori. O padrão é 3. |
SPLIT_METHOD | Algoritmo Árvores de Decisão da Microsoft | Determina o método usado para dividir o nó. As seguintes opções estão disponíveis: Binário (1), Completo (2) ou Ambos (3). O padrão é 3. |
STOPPING_TOLERANCE | Referência técnica do algoritmo Microsoft Clustering | Especifica o valor usado para determinar quando a convergência é alcançada e o algoritmo terminou de criar o modelo. A convergência é alcançada quando a alteração geral nas probabilidades do cluster é menor do que a taxa do parâmetro STOPPING_TOLERANCE dividida pelo tamanho do modelo. O padrão é 10. |
Comentários
Para obter mais detalhes sobre os algoritmos, consulte os Manuais Online do SQL Server.
Consulte Também
Algoritmos de mineração de dados (Suplementos de mineração de dados do SQL Server)