Criar Conjunto de Testes (Assistente de Mineração de Dados)
Use a página Criar Conjunto de Testes para especificar a quantidade de dados que precisa ser usada para treinamento e a quantidade que precisa ser reservada para uso como um conjunto de testes. Separando os dados em um conjunto de treinamento e outro de teste ao criar uma estrutura de mineração, você facilita a avaliação da precisão dos modelos de mineração que criar depois.
Você pode especificar a quantidade de dados de teste em porcentagem ou indicar um número para limitar o número de casos usados para teste. Se forem especificados tanto uma porcentagem como um número de casos a serem usados para teste, as duas configurações serão usadas e o conjunto de dados de teste conterá o menor número de casos. Por padrão, 30% dos dados são usados para teste, 70% para treinamento e não há um número máximo de casos de teste.
Por padrão, o Analysis Services gera uma semente numérica que é usada para iniciar o particionamento. Essa semente é baseada no nome da estrutura de mineração. Para garantir que a partição permaneça igual mesmo que o nome da estrutura de mineração seja alterada, você pode especificar um valor para a semente, definindo a propriedade HoldoutSeed da estrutura de mineração. Se você alterar a semente de validação, deverá reprocessar a estrutura.
Se você quiser alterar posteriormente a quantidade de dados de teste ou treinamento, poderá modificar as HoldoutMaxCases
propriedades e HoldoutMaxPercent
na estrutura de mineração de dados usando a janela Propriedades . Porém, depois de alterar, você deve reprocessar a estrutura de mineração e todos os modelos de mineração associados. As seguintes limitações também se aplicam:
O particionamento de uma estrutura de mineração de dados só tem suporte quando a estrutura de mineração de dados é armazenada no SQL Server 2008. Versões anteriores do SQL Server Analysis Services não dão suporte ao cache de informações de partição para estruturas de mineração.
Você não pode particionar uma estrutura de mineração se esta contiver uma coluna Key Time, que é obrigatória para modelos de mineração de série temporal.
Você não pode particionar dados se estiver tentando prever um valor armazenado em uma tabela aninhada.
Para obter mais informações: Teste e validação (mineração de dados), Criar uma estrutura de mineração relacional, tutorial Mineração de dados básica
Opções
Porcentagem de dados para teste
Clique nas setas para cima e para baixo para aumentar ou diminuir a porcentagem de dados a serem usados como um conjunto de treinamento. Se preferir, digite um valor entre 0 e 100 na caixa de texto.
Número máximo de casos no conjunto de dados de teste
Digite um número para limitar o número de casos que podem ser usados para teste.
Se for especificado um número maior que o de casos reais nos dados, todos os casos serão usados.
O padrão é NULL. Isso significa não há nenhum limite.
Confira também
Ajuda F1 do Assistente de Mineração de Dados (Analysis Services – Mineração de Dados)
Sugerir colunas relacionadas (Assistente de Mineração de Dados)
Especificar tipos de tabelas (Assistente de Mineração de Dados)
Especificar o tipo de conteúdo e de dados da coluna (Assistente de Mineração de Dados)