Matrizes de confusão
Pense nos dados como contínuos, categóricos ou ordinais (categóricos, mas com uma ordem). As matrizes de confusão são um meio de avaliar o desempenho de um modelo categórico. Para obter o contexto de como eles funcionam, primeiro vamos atualizar nosso conhecimento sobre dados contínuos. Com isso, podemos ver como as matrizes de confusão são simplesmente uma extensão dos histogramas que já conhecemos.
Distribuições de dados contínuos
Para entender os dados contínuos, a primeira etapa geralmente é ver como eles são distribuídos. Considere o seguinte histograma:
Podemos ver que o rótulo é, em média, aproximadamente zero, e a maioria dos pontos de dados está entre -1 e 1. Ele aparece como simétrico. Há uma contagem aproximadamente igual de números menores e maiores que a média. Se quiséssemos, poderíamos usar uma tabela em vez de um histograma, mas poderia ser difícil.
Distribuições de dados categóricos
Em alguns aspectos, os dados categóricos não são tão diferentes dos dados contínuos. Ainda podemos produzir histogramas para avaliar a frequência com que os valores aparecem para cada rótulo. Por exemplo, um rótulo binário (true/false) pode aparecer com uma frequência como esta:
Isso indica que há 750 amostras com o rótulo "false" e 250 com o rótulo "true".
Um rótulo para três categorias é semelhante:
Isso indica que há 200 amostras que são "pessoas", 400 que são "animais" e 100 que são "árvores".
Como os rótulos categóricos são mais simples, muitas vezes eles podem ser mostrados como tabelas simples. Os dois gráficos anteriores ficariam desta forma:
Rótulo | Falso | True |
---|---|---|
Contagem | 750 | 250 |
E:
Rótulo | Pessoa | Animal | Árvore |
---|---|---|---|
Contagem | 200 | 400 | 100 |
Examinando previsões
Podemos examinar previsões que o modelo faz da mesma forma como examinamos os rótulos precisos em nossos dados. Por exemplo, podemos ver que, no conjunto de teste, nosso modelo previu "false" 700 vezes e "true" 300 vezes.
Previsão do modelo | Contagem |
---|---|
Falso | 700 |
True | 300 |
Isso fornece informações diretas sobre as previsões que o modelo está fazendo, mas não indica quais estão corretas. Embora seja possível usar uma função de custo para entender com que frequência as respostas corretas são dadas, a função de custo não indicará quais tipos de erros estão ocorrendo. Por exemplo, o modelo pode adivinhar corretamente todos os valores "true", mas também adivinha "true" quando deveria ter adivinhado "false".
A matriz de confusão
A chave para entender o desempenho do modelo é combinar a tabela para a previsão do modelo com a tabela para rótulos de dados precisos:
O quadrado que não preenchemos é chamado de matriz de confusão.
Cada célula na matriz de confusão nos informa uma coisa sobre o desempenho do modelo. Esses são Verdadeiros negativos (TN), Falsos negativos (FN), Falsos positivos (FP) e Verdadeiros positivos (TP).
Vamos explicar cada um deles, substituindo esses acrônimos pelos valores reais. Os quadrados azuis-verdes significam que o modelo fez uma previsão correta, e os quadrados laranja significam que o modelo fez uma previsão incorreta.
Verdadeiros negativos (TN)
O valor superior esquerdo listará quantas vezes o modelo previu false e o rótulo real também foi false. Em outras palavras, isso lista quantas vezes o modelo previu false corretamente. Digamos que, neste exemplo, isso ocorreu 500 vezes:
Falsos negativos (FN)
O valor superior direito nos informa quantas vezes o modelo previu false, mas o rótulo real era true. Agora sabemos que é 200. Como posso fazer isso? O modelo previu false 700 vezes, e ele acertou 500 dessas vezes. Portanto, 200 vezes ele deve ter previsto false quando não deveria.
Falsos positivos (FP)
O valor inferior esquerdo contém falsos positivos. Isso indica quantas vezes o modelo previu true, mas o rótulo real era false. Agora sabemos que é 250, porque em 750 vezes a resposta correta era false. 500 dessas vezes aparecem na célula superior esquerda (TN):
Verdadeiros positivos (TP)
Por fim, temos os verdadeiros positivos. Esse é o número de vezes que o modelo faz a previsão correta de true. Sabemos que é 50 por dois motivos. Em primeiro lugar, o modelo previu verdadeiro 300 vezes, mas errou 250 vezes (célula inferior esquerda). Em segundo lugar, true era a resposta correta 250 vezes, mas o modelo previu false 200 vezes.
A matriz final
Normalmente, simplificamos um pouco nossa matriz de confusão desta forma:
Colorimos as células aqui para realçadas quando o modelo fez previsões corretas. Com isso, sabemos não apenas com que frequência o modelo fez determinados tipos de previsões, mas também com que frequência essas previsões estavam corretas ou incorretas.
Matrizes de confusão também podem ser construídas quando há mais rótulos. Por exemplo, em nosso exemplo person/animal/tree, podemos obter uma matriz como esta:
Quando há três categorias, métricas como Verdadeiros positivos não se aplicam mais, mas ainda podemos ver exatamente com que frequência o modelo cometeu certos tipos de erros. Por exemplo, podemos ver que o modelo previu "pessoa" 200 vezes quando o resultado correto real era "animal".