Métodos de discretização (mineração de dados)
Alguns algoritmos usados para criar modelos de mineração de dados em SQL Server Analysis Services exigem tipos de conteúdo específicos para funcionar corretamente. Por exemplo, o algoritmo Microsoft Naive Bayes não pode usar colunas contínuas como entrada e não pode prever valores contínuos. Além disso, algumas colunas podem conter tantos valores que o algoritmo não pode identificar facilmente os padrões interessantes nos dados dos quais criar um modelo.
Nesses casos, é possível discretizar os dados nas colunas de modo a permitir o uso dos algoritmos para produzir um modelo de mineração. Discretização é o processo de colocar valores em buckets de modo que haja um número limitado de possíveis estados. Os próprios blocos são tratados como valores ordenados e discretos. Você pode discretizar tanto as colunas numéricos quanto as colunas de cadeia de caracteres.
Há vários métodos que você pode usar para discretizar dados. Se sua solução de mineração de dados usar dados relacionais, será possível controlar o número de buckets usados para agrupamento de dados com a definição do valor da propriedade DiscretizationBucketCount . O número padrão de recipientes é 5.
Se sua solução de mineração de dados usar dados de um cubo OLAP (Processamento Analítico Online), o algoritmo de mineração de dados calculará automaticamente o número de buckets a serem gerados usando a seguinte equação, em que n é o número de valores distintos de dados na coluna:
Number of Buckets = sqrt(n)
Se você não quiser que o Analysis Services calcule o número de buckets, poderá usar a DiscretizationBucketCount propriedade para especificar manualmente o número de buckets.
A tabela a seguir descreve os métodos que você pode usar para diferenciar dados no Analysis Services.
Método de discretização | Descrição |
---|---|
AUTOMATIC |
O Analysis Services determina qual método de discretização usar. |
CLUSTERS |
O algoritmo divide os dados em grupos por meio de amostragem dos dados de treinamento, inicializando um número aleatório de pontos e em seguida executando várias interações do algoritmo Microsoft Clustering usando o método de clustering Expectation Maximization (EM). O método CLUSTERS é útil pois trabalha em qualquer curva de distribuição. Porém, requer mais tempo de processamento que os demais métodos de discretização.Esse método pode ser usado apenas com colunas numéricas. |
EQUAL_AREAS |
O algoritmo divide os dados em grupos que contenham um número igual de valores. Esse método é usado mais na distribuição normal das curvas, mas não funciona corretamente se a distribuição incluir um grande número de valores que ocorre em um grupo estreito em dados contínuos. Por exemplo, se a metade dos itens tiver um custo zero, a metade dos dados ocorrerá em um único ponto na curva. Nessa distribuição, o método quebra os dados em uma tentativa de estabelecer uma discretização igual em várias áreas. Isso produz uma representação inexata dos dados. |
Comentários
Você pode usar o método
EQUAL_AREAS
para discretizar as cadeias de caracteres.O método
CLUSTERS
usa um exemplo aleatório de 1000 registros para discretizar os dados. Use o métodoEQUAL_AREAS
se não quiser que o algoritmo realize a amostragem dos dados.O tutorial de modelo de mineração de rede neural fornece um exemplo de como a discretização pode ser personalizada. Para obter mais informações, consulte Lição 5: Criando modelos de rede neural e regressão logística (Tutorial de mineração de dados intermediário).
Consulte Também
Tipos de conteúdo (mineração de dados)
Tipos de conteúdo (DMX)
Algoritmos de mineração de dados (Analysis Services – Mineração de Dados)
Estruturas de mineração (Analysis Services – Mineração de dados)
Tipos de dados (Mineração de Dados)
Colunas da estrutura de mineração
Distribuições de colunas (mineração de dados)