Partilhar via


Criar Conjunto de Testes (Assistente de Mineração de Dados)

Use a página Criar Conjunto de Testes para especificar a quantidade de dados que precisa ser usada para treinamento e a quantidade que precisa ser reservada para uso como um conjunto de testes. Separando os dados em um conjunto de treinamento e outro de teste ao criar uma estrutura de mineração, você facilita a avaliação da precisão dos modelos de mineração que criar depois.

Você pode especificar a quantidade de dados de teste em porcentagem ou indicar um número para limitar o número de casos usados para teste. Se forem especificados tanto uma porcentagem como um número de casos a serem usados para teste, as duas configurações serão usadas e o conjunto de dados de teste conterá o menor número de casos. Por padrão, 30% dos dados são usados para teste, 70% para treinamento e não há um número máximo de casos de teste.

Por padrão, o Analysis Services gera uma semente numérica usada para iniciar o particionamento. Essa semente é baseada no nome da estrutura de mineração. Para garantir que a partição permaneça igual mesmo que o nome da estrutura de mineração seja alterada, você pode especificar um valor para a semente, definindo a propriedade HoldoutSeed da estrutura de mineração. Se você alterar a semente de validação, deverá reprocessar a estrutura.

Se, mais tarde, você quiser alterar o valor dos dados de teste ou treinamento, poderá alterar as propriedades HoldoutMaxCases e HoldoutMaxPercent da estrutura de mineração de dados usando a janela Propriedades. Porém, depois de alterar, você deve reprocessar a estrutura de mineração e todos os modelos de mineração associados. As seguintes limitações também se aplicam:

  • O particionamento de uma estrutura de mineração de dados só tem suporte quando a estrutura de mineração de dados é armazenada no SQL Server 2008. Versões anteriores do SQL Server Analysis Services não oferecem suporte a cache de informações de partição para estruturas de mineração.

  • Você não pode particionar uma estrutura de mineração se esta contiver uma coluna Key Time, que é obrigatória para modelos de mineração de série temporal.

  • Você não pode particionar dados se estiver tentando prever um valor armazenado em uma tabela aninhada.

Para obter mais informações:Validando modelos de mineração de dados [Analysis Services - Mineração de Dados], Criando uma nova estrutura de mineração, Tutorial de mineração de dados básico

Opções

  • Percentual de dados para teste
    Clique nas setas para cima e para baixo para aumentar ou diminuir a porcentagem de dados a serem usados como um conjunto de treinamento. Se preferir, digite um valor entre 0 e 100 na caixa de texto.

  • Número máximo de casos no conjunto de dados de teste
    Digite um número para limitar o número de casos que podem ser usados para teste.

    Se for especificado um número maior que o de casos reais nos dados, todos os casos serão usados.

    O padrão é NULL. Isso significa não há nenhum limite.