Avaliação de um modelo de classificação
Uma grande parte do aprendizado de máquina é sobre avaliar como os modelos funcionam. Essa avaliação ocorre durante o treinamento, para ajudar a moldar o modelo, e após o treinamento, para nos ajudar a julgar se o modelo é OK para usar no mundo real. Os modelos de classificação precisam de avaliação, tal como os modelos de regressão, embora a forma como fazemos esta avaliação possa, por vezes, ser um pouco mais complexa.
Uma atualização sobre o custo
Lembre-se de que, durante o treinamento, calculamos o desempenho ruim de um modelo e chamamos isso de custo, ou perda. Por exemplo, na regressão linear, muitas vezes usamos uma métrica chamada erro quadrático médio (MSE). A MPE é calculada comparando a previsão e o rótulo real, fazendo a quadratura da diferença e tomando a média do resultado. Podemos usar MPE para se adequar ao nosso modelo e relatar como ele funciona.
Funções de custo para classificação
Os modelos de classificação são julgados por suas probabilidades de produção, como 40% de chance de uma avalanche, ou rótulos finais —no avalanche
ou avalanche
. Usar as probabilidades de saída pode ser vantajoso durante o treinamento. Pequenas mudanças no modelo são refletidas em mudanças nas probabilidades, mesmo que não sejam suficientes para mudar a decisão final. Usar os rótulos finais para uma função de custo é mais útil se quisermos estimar o desempenho no mundo real do nosso modelo. Por exemplo, no conjunto de testes. Porque para uso no mundo real, usamos os rótulos finais, não as probabilidades.
Perda de log
A perda de log é uma das funções de custo mais populares para uma classificação simples. A perda de log é aplicada às probabilidades de saída. À semelhança das MPE, pequenas quantidades de erro resultam em custos reduzidos, enquanto quantidades moderadas de erro resultam em custos elevados. Plotamos a perda de log no gráfico a seguir, para um rótulo onde a resposta correta foi 0 (falso).
O eixo x mostra as saídas possíveis do modelo – probabilidades de 0 a 1 – e o eixo y mostra o custo. Se um modelo tiver alta confiança de que a resposta correta é 0 (por exemplo, prevendo 0,1). Então, o custo é baixo porque, neste caso, a resposta correta é 0. Se o modelo está prevendo com confiança o resultado erroneamente (por exemplo, prevendo 0,9), o custo torna-se alto. Na verdade, em x=1, o custo é tão alto que cortamos o eixo x aqui para 0,999 para manter o gráfico legível.
Por que não MPE?
MSE e perda de log são métricas semelhantes. Existem algumas razões complexas pelas quais a perda logarítmica é favorecida para a regressão logística, mas algumas razões mais simples também. Por exemplo, a perda de log pune respostas erradas muito mais fortemente do que as MPE. Por exemplo, no gráfico a seguir, onde a resposta correta é 0, previsões acima de 0,8 têm um custo mais alto para perda de log do que MPE.
Ter um custo mais alto dessa forma ajuda o modelo a aprender mais rápido devido ao gradiente mais acentuado da linha. Da mesma forma, a perda de log ajuda os modelos a se tornarem mais confiantes em dar a resposta correta. Observe no gráfico anterior, que o custo MSE para valores menores que 0,2 são pequenos e o gradiente é quase plano. Essa relação torna o treinamento lento para modelos que estão perto de corrigir. A perda de log tem um gradiente mais acentuado para esses valores, o que ajuda o modelo a aprender mais rapidamente.
Limitações das funções de custo
Usar uma única função de custo para avaliação humana do modelo é sempre limitado, porque não diz que tipo de erros seu modelo está cometendo. Por exemplo, considere nosso cenário de previsão de avalanche. Um alto valor de perda de log pode significar que o modelo está repetidamente prevendo avalanches quando não há nenhuma. Ou pode significar que está repetidamente falhando em prever avalanches que acontecem.
Para entender melhor nossos modelos, pode ser mais fácil usar mais de um número para avaliar se eles funcionam bem. Abordamos este assunto maior em outros materiais de aprendizagem, embora o abordemos nos exercícios seguintes.