Avalie seu modelo de ML.NET com métricas
Entenda as métricas usadas para avaliar um modelo de ML.NET.
As métricas de avaliação são específicas para o tipo de tarefa de aprendizado de máquina que um modelo executa.
Por exemplo, para a tarefa de classificação, o modelo é avaliado medindo quão bem uma categoria prevista corresponde à categoria real. E para agrupamentos, a avaliação é baseada em quão próximos os itens agrupados estão uns dos outros, e quanta separação há entre os clusters.
Métricas de avaliação para classificação binária
Métricas do | Description | Procurar |
---|---|---|
Exatidão | Precisão é a proporção de previsões corretas com um conjunto de dados de teste. É a razão entre o número de previsões corretas e o número total de amostras de entrada. Funciona bem se houver um número semelhante de amostras pertencentes a cada classe. | Quanto mais próximo de 1,00, melhor. Mas exatamente 1,00 indica um problema (comumente: vazamento de rótulo/alvo, sobreajuste ou teste com dados de treinamento). Quando os dados de teste estão desequilibrados (onde a maioria das instâncias pertence a uma das classes), o conjunto de dados é pequeno ou as pontuações se aproximam de 0,00 ou 1,00, a precisão realmente não captura a eficácia de um classificador e você precisa verificar métricas adicionais. |
AUC | aucROC ou Área sob a curva mede a área sob a curva criada pela varredura da taxa positiva verdadeira vs. a taxa de falso positivo. | Quanto mais próximo de 1,00, melhor. Deve ser superior a 0,50 para que um modelo seja aceitável. Um modelo com AUC de 0,50 ou menos não vale nada. |
AUCPR | aucPR ou Área sob a curva de uma curva Precision-Record: Medida útil do sucesso da previsão quando as classes estão desequilibradas (conjuntos de dados altamente enviesados). | Quanto mais próximo de 1,00, melhor. Pontuações altas próximas a 1,00 mostram que o classificador está retornando resultados precisos (alta precisão), e retornando a maioria de todos os resultados positivos (alta recordação). |
Pontuação F1 | Pontuação F1 também conhecida como pontuação F equilibrada ou medida F. É o meio harmônico da precisão e da recordação. F1 Score é útil quando você quer buscar um equilíbrio entre Precisão e Recall. | Quanto mais próximo de 1,00, melhor. Uma pontuação na F1 atinge seu melhor valor em 1,00 e a pior pontuação em 0,00. Indica-lhe a precisão do seu classificador. |
Para obter mais detalhes sobre métricas de classificação binária, leia os seguintes artigos:
- Precisão, precisão, recall ou F1?
- Classe Binary Classification Metrics
- A relação entre a precisão-recordação e as curvas ROC
Métricas de avaliação para classificação multiclasse e classificação de texto
Métricas do | Description | Procurar |
---|---|---|
Micro-Precisão | A Precisão Micromédia agrega as contribuições de todas as classes para calcular a métrica média. É a fração de instâncias previstas corretamente. A micromédia não leva em conta a pertença à classe. Basicamente, cada par de classe de amostra contribui igualmente para a métrica de precisão. | Quanto mais próximo de 1,00, melhor. Em uma tarefa de classificação de várias classes, a microprecisão é preferível à precisão da macro se você suspeitar que pode haver desequilíbrio de classe (ou seja, você pode ter muito mais exemplos de uma classe do que de outras classes). |
Macro-Precisão | Precisão macromédia é a precisão média no nível da classe. A precisão para cada classe é calculada e a precisão macro é a média dessas precisões. Basicamente, cada classe contribui igualmente para a métrica de precisão. Às classes minoritárias é atribuído o mesmo peso que às classes maiores. A métrica de macromédia dá o mesmo peso a cada classe, não importa quantas instâncias dessa classe o conjunto de dados contenha. | Quanto mais próximo de 1,00, melhor. Ele calcula a métrica independentemente para cada classe e, em seguida, toma a média (portanto, tratando todas as classes igualmente) |
Perda de log | A perda logarítmica mede o desempenho de um modelo de classificação onde a entrada de previsão é um valor de probabilidade entre 0,00 e 1,00. A perda de log aumenta à medida que a probabilidade prevista diverge do rótulo real. | Quanto mais próximo de 0,00, melhor. Um modelo perfeito teria uma perda de log de 0,00. O objetivo dos nossos modelos de aprendizagem automática é minimizar este valor. |
Redução de perda de log | A redução da perda logarítmica pode ser interpretada como a vantagem do classificador sobre uma previsão aleatória. | Varia de -inf e 1,00, onde 1,00 é previsões perfeitas e 0,00 indica previsões médias. Por exemplo, se o valor for igual a 0,20, pode ser interpretado como "a probabilidade de uma previsão correta é 20% melhor do que uma adivinhação aleatória" |
A microprecisão geralmente está mais alinhada com as necessidades de negócios das previsões de ML. Se você quiser selecionar uma única métrica para escolher a qualidade de uma tarefa de classificação multiclasse, geralmente deve ser microprecisão.
Por exemplo, para uma tarefa de classificação de tíquetes de suporte: (mapeia tíquetes de entrada para equipes de suporte)
- Microprecisão — com que frequência um ticket recebido é classificado para a equipe certa?
- Precisão macro — para uma equipe média, com que frequência um ticket de entrada é correto para sua equipe?
A precisão macro sobrecarrega pequenas equipes neste exemplo; Uma equipa pequena que recebe apenas 10 bilhetes por ano conta tanto como uma equipa grande com 10 mil bilhetes por ano. A microprecisão, neste caso, correlaciona-se melhor com a necessidade comercial de "quanto tempo/dinheiro a empresa pode economizar automatizando meu processo de roteamento de tickets".
Para obter mais detalhes sobre métricas de classificação de várias classes, leia os seguintes artigos:
- Micro e Macromédia de Precisão, Recall e F-Score
- Classificação multiclasse com conjunto de dados desequilibrado
Métricas de Avaliação para Regressão e Recomendação
As tarefas de regressão e recomendação predizem um número. No caso de regressão, o número pode ser qualquer propriedade de saída que é influenciada pelas propriedades de entrada. Para recomendação, o número é geralmente um valor de classificação (entre 1 e 5, por exemplo), ou uma recomendação sim/não (representada por 1 e 0, respectivamente).
Métrico | Description | Procurar |
---|---|---|
R-Quadrado | R-quadrado (R2), ou Coeficiente de determinação representa o poder preditivo do modelo como um valor entre -inf e 1,00. 1,00 significa que há um ajuste perfeito, e o ajuste pode ser arbitrariamente pobre, de modo que as pontuações podem ser negativas. Uma pontuação de 0,00 significa que o modelo está adivinhando o valor esperado para o rótulo. Um valor R2 negativo indica que o ajuste não segue a tendência dos dados e o modelo tem um desempenho pior do que a adivinhação aleatória. Isso só é possível com modelos de regressão não linear ou regressão linear restrita. R2 mede o quão próximos os valores reais dos dados de teste estão dos valores previstos. | Quanto mais próximo de 1,00, melhor qualidade. No entanto, às vezes valores R-quadrados baixos (como 0,50) podem ser totalmente normais ou bons o suficiente para o seu cenário e valores R-quadrados altos nem sempre são bons e desconfie. |
Perda absoluta | A perda absoluta ou o erro absoluto médio (MAE) mede o quão próximas as previsões estão dos resultados reais. É a média de todos os erros do modelo, onde o erro do modelo é a distância absoluta entre o valor do rótulo previsto e o valor do rótulo correto. Esse erro de previsão é calculado para cada registro do conjunto de dados de teste. Finalmente, o valor médio é calculado para todos os erros absolutos registados. | Quanto mais próximo de 0,00, melhor qualidade. O erro absoluto médio usa a mesma escala que os dados que estão sendo medidos (não é normalizado para um intervalo específico). Perda absoluta, perda quadrada e perda RMS só podem ser usadas para fazer comparações entre modelos para o mesmo conjunto de dados ou conjunto de dados com uma distribuição de valor de rótulo semelhante. |
Perda ao quadrado | Perda quadrada ou Erro Quadrático Médio (MSE), também chamado de Desvio Quadrado Médio (MSD), informa o quão próxima uma linha de regressão está de um conjunto de valores de dados de teste, tomando as distâncias dos pontos até a linha de regressão (essas distâncias são os erros E) e quadrando-os. A quadratura dá mais peso a diferenças maiores. | É sempre não-negativo, e valores mais próximos de 0,00 são melhores. Dependendo dos seus dados, pode ser impossível obter um valor muito pequeno para o erro quadrado médio. |
Perda de RMS | RMS-loss ou Root Mean Squared Error (RMSE) (também chamado de Root Mean Square Deviation, RMSD), mede a diferença entre os valores previstos por um modelo e os valores observados a partir do ambiente que está sendo modelado. RMS-loss é a raiz quadrada da perda quadrada e tem as mesmas unidades que o rótulo, semelhante à perda absoluta, embora dando mais peso a diferenças maiores. O erro quadrático médio da raiz é comumente usado em climatologia, previsão e análise de regressão para verificar resultados experimentais. | É sempre não-negativo, e valores mais próximos de 0,00 são melhores. RMSD é uma medida de precisão, para comparar erros de previsão de diferentes modelos para um determinado conjunto de dados e não entre conjuntos de dados, pois é dependente da escala. |
Para obter mais detalhes sobre métricas de regressão, leia os seguintes artigos:
- Análise de regressão: Como interpreto o R-quadrado e avalio a bondade do ajuste?
- Como interpretar o R-quadrado na análise de regressão
- Definição de R-quadrado
- O Coeficiente de Determinação e os Pressupostos dos Modelos de Regressão Linear
- Definição de erro quadrado médio
- O que são Erro Quadrático Médio e Erro Quadrático Médio Raiz?
Métricas de avaliação para Clustering
Métrico | Description | Procurar |
---|---|---|
Distância média | Média da distância entre os pontos de dados e o centro do cluster atribuído. A distância média é uma medida de proximidade dos pontos de dados aos centróides do cluster. É uma medida de quão "apertado" é o cluster. | Valores mais próximos de 0 são melhores. Quanto mais próxima de zero estiver a distância média, mais agrupados serão os dados. Note, no entanto, que essa métrica diminuirá se o número de clusters for aumentado e, no caso extremo (onde cada ponto de dados distinto é seu próprio cluster), será igual a zero. |
Índice Davies Bouldin | A relação média entre distâncias dentro do cluster e distâncias entre clusters. Quanto mais apertado for o cluster, e quanto mais distantes estiverem os clusters, menor será este valor. | Valores mais próximos de 0 são melhores. Clusters mais distantes e menos dispersos resultarão em uma melhor pontuação. |
Informação Mútua Normalizada | Pode ser usado quando os dados de treinamento usados para treinar o modelo de agrupamento também vêm com rótulos de verdade básica (ou seja, agrupamento supervisionado). A métrica Informações Mútuas Normalizadas mede se pontos de dados semelhantes são atribuídos ao mesmo cluster e pontos de dados diferentes são atribuídos a clusters diferentes. Informações mútuas normalizadas são um valor entre 0 e 1. | Valores mais próximos de 1 são melhores. |
Métricas de avaliação para Ranking
Métrico | Description | Procurar |
---|---|---|
Ganhos acumulados descontados | O ganho acumulado descontado (DCG) é uma medida da qualidade do ranking. Deriva de dois pressupostos. Um: Itens altamente relevantes são mais úteis quando aparecem mais altos na ordem de classificação. Dois: A utilidade rastreia a relevância ou seja, quanto maior a relevância, mais útil um item. O ganho acumulado descontado é calculado para uma posição específica na ordem de classificação. Soma a classificação de relevância dividida pelo logaritmo do índice de classificação até a posição de interesse. É calculado usando $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$ As classificações de relevância são fornecidas a um algoritmo de treinamento de classificação como rótulos de verdade básica. Um valor DCG é fornecido para cada posição na tabela de classificação, daí o nome Ganhos Acumulados Descontados. | Valores mais altos são melhores. |
Ganhos acumulados descontados normalizados | A normalização do DCG permite que a métrica seja comparada para listas de classificação de diferentes comprimentos. | Valores mais próximos de 1 são melhores. |
Métricas de avaliação para deteção de anomalias
Métrico | Description | Procurar |
---|---|---|
Área sob a curva ROC | A área sob a curva do operador recetor mede o quão bem o modelo separa pontos de dados anômalos e usuais. | Valores mais próximos de 1 são melhores. Apenas valores superiores a 0,5 demonstram a eficácia do modelo. Valores iguais ou inferiores a 0,5 indicam que o modelo não é melhor do que alocar aleatoriamente as entradas em categorias anómalas e habituais. |
Taxa de deteção na contagem de falsos positivos | A taxa de deteção na contagem de falsos positivos é a razão entre o número de anomalias corretamente identificadas e o número total de anomalias num conjunto de testes, indexado por cada falso positivo. Ou seja, há um valor para a taxa de deteção na contagem de falsos positivos para cada item falso positivo. | Valores mais próximos de 1 são melhores. Se não houver falsos positivos, então este valor é 1. |
Métricas de avaliação para semelhança de frases
Métrico | Description | Procurar |
---|---|---|
Correlação de Pearson | A correlação de Pearson, também conhecida como coeficiente de correlação, mede a dependência ou relação entre dois conjuntos de dados. | Os valores absolutos mais próximos de 1 são mais semelhantes. Essa métrica varia de -1 a 1. Um valor absoluto de 1 implica que os conjuntos de dados são idênticos. Um valor de 0 implica que não há relação entre os dois conjuntos de dados. |