Nuances de conjuntos de teste
Os conjuntos de testes são considerados melhores práticas para a maioria dos aspetos da aprendizagem automática, embora o campo ainda seja relativamente jovem, e assim exatamente como e quando é frequentemente debatido. Vamos analisar alguns aspetos a considerar.
Os conjuntos de testes podem ser enganadores
Embora os conjuntos de testes sejam úteis para identificar a preparação excessiva, podem fornecer-nos confiança falsa. Especificamente, os conjuntos de testes só são úteis se refletirem dados que esperamos ver no mundo real. Por exemplo, o nosso conjunto de testes é muito pequeno, pelo que não será representativo da variedade de dados que provavelmente veremos no mundo real. Os conjuntos de dados de teste também são tão bons quanto a origem. Se o nosso conjunto de dados de teste for proveniente de uma origem tendenciosa, as nossas métricas não refletirão o comportamento das coisas no mundo real.
Por exemplo, digamos que estamos a tentar encontrar a relação entre o número de salvamentos e a idade em que um cão começou a treinar. Se o nosso conjunto de testes era apenas três cães, é possível que estes cães não sejam uma boa representação da grande variedade de cães que trabalham no mundo real. Além disso, imagine que obtivemos o nosso conjunto de testes de um único criador que não sabe trabalhar com cachorrinhos. O nosso modelo pode prever que os cães mais velhos são os melhores para treinar, e o nosso conjunto de dados de teste confirmaria isso, quando na verdade outros treinadores poderiam ter um enorme sucesso com animais mais jovens.
Os conjuntos de testes não são gratuitos
Já vimos que quanto mais dados de preparação tivermos, menor será a probabilidade de o nosso modelo se sobreajustar. Da mesma forma, quanto maiores forem os conjuntos de testes, mais sentimos que podemos confiar nos nossos resultados de teste. No entanto, normalmente trabalhamos com quantidades finitas de dados e um ponto de dados não pode estar tanto na preparação como no conjunto de teste. Isto significa que, à medida que obtemos conjuntos de testes maiores, obtemos conjuntos de dados de preparação mais pequenos e vice-versa. Exatamente a quantidade de dados que deve ser sacrificada para aparecer no conjunto de dados de teste depende de circunstâncias individuais, sendo que qualquer coisa entre 10 a 50% é relativamente comum, dependendo do volume de dados disponíveis.
Preparar e testar não é a única abordagem
Vale a pena ter em conta que o treino e o teste são comuns, mas não a única abordagem amplamente utilizada. Duas das alternativas mais comuns são a abordagem de retenção e os métodos de abordagem estatística .
A abordagem de retenção
A abordagem de retenção é como train-and-test, mas em vez de dividir um conjunto de dados em dois, é dividida em três: preparação, teste (também conhecida como validação) e retenção. Os conjuntos de dados de preparação e teste são os descritos anteriormente. O conjunto de dados de retenção é uma espécie de conjunto de testes que é utilizado apenas uma vez, quando estivermos prontos para implementar o nosso modelo para utilização no mundo real. Por outras palavras, não é utilizado até terminarmos de experimentar diferentes tipos de regimes de preparação, diferentes tipos de modelos, etc.
Esta abordagem aborda o facto de, normalmente, experimentarmos diferentes modelos e regimes de preparação. Por exemplo, ajustamos um modelo, descobrimos que não funciona bem com o conjunto de dados de teste, alteramos alguns aspetos do modelo que está a ser preparado e tentamos novamente até obtermos um bom resultado. Isto significa que estamos a alterar propositadamente o nosso modelo para trabalhar para um determinado conjunto de dados, tal como a preparação normal faz com o conjunto de dados de preparação. Ao fazê-lo, podemos acabar com um modelo que é essencialmente demasiado preparado para trabalhar no nosso conjunto de dados de teste.
A ideia de um terceiro conjunto de dados é que também podemos testar isto. Esta abordagem significa dividir os dados de três formas, o que significa que começamos com ainda menos dados de preparação. Se não tivermos muitos dados para trabalhar, esta abordagem pode reduzir a nossa capacidade de obter um bom modelo.
Abordagens estatísticas
Os modelos mais simples com origem em estatísticas muitas vezes não precisam de conjuntos de dados de teste. Em vez disso, podemos calcular o grau em que o modelo está sobreajustado diretamente como significância estatística: um valor p.
Estes métodos estatísticos são poderosos, bem estabelecidos e formam a base da ciência moderna. A vantagem é que o conjunto de preparação nunca precisa de ser dividido e temos uma compreensão muito mais precisa de quão confiantes podemos estar sobre um modelo. Por exemplo, um valor p de 0,01 significa que há uma pequena hipótese de o nosso modelo ter encontrado uma relação que não existe no mundo real. Por outro lado, um valor p de 0,5 significa que, embora o nosso modelo possa ficar bem com os nossos dados de preparação, não será melhor do que lançar uma moeda no mundo real.
A desvantagem destas abordagens é que apenas são facilmente aplicadas a determinados tipos de modelo, como os modelos de regressão linear com os quais temos vindo a praticar. Para todos os modelos menos os mais simples, estes cálculos podem ser extremamente complexos para funcionar corretamente, pelo que estão fora do âmbito do curso atual. Também sofrem a mesma limitação relativamente à seleção de dados; Se os nossos dados de preparação forem tendenciosos, os nossos valores p serão enganadores.