O que é uma classificação BLEU?
BLEU (Bilingual Evaluation Understudy) é uma medida da diferença entre uma tradução automática e traduções de referência criadas por humanos da mesma frase de origem.
Processo de pontuação
O algoritmo BLEU compara frases consecutivas da tradução automática com as frases consecutivas que encontra na tradução de referência, e conta o número de correspondências, de forma ponderada. Estas correspondências são independentes de posição. Um maior grau de correspondência indica um maior grau de semelhança com a tradução de referência e maior pontuação. A inteligibilidade e a correção gramatical não são tidas em conta.
Como funciona o BLEU?
A força da pontuação BLEU é que ela se correlaciona bem com o julgamento humano. O BLEU calcula a média de erros de julgamento de sentenças individuais ao longo de um corpus de teste, em vez de tentar conceber o julgamento humano exato para cada frase.
Uma discussão mais extensa sobre as pontuações da BLEU está aqui.
Os resultados da BLEU dependem fortemente da amplitude do seu domínio; consistência dos dados de teste, treinamento e ajuste; e a quantidade de dados que tem disponíveis para formação. Se seus modelos são treinados em um domínio restrito e seus dados de treinamento são consistentes com seus dados de teste, você pode esperar uma alta pontuação BLEU.
Nota
Uma comparação entre as pontuações BLEU só é justificável quando os resultados BLEU são comparados com o mesmo conjunto de testes, o mesmo par de idiomas e o mesmo motor MT. Uma pontuação BLEU de um conjunto de testes diferente é necessariamente diferente.