O que é uma pontuação no BLEU?
BLEU (Bilingual Evaluation Understudy) é uma medida da diferença entre uma tradução automática e traduções de referência criadas por humanos da mesma sentença fonte.
Processo de pontuação
O algoritmo BLEU compara frases consecutivas da tradução automática com as frases consecutivas encontradas na tradução de referência e conta o número de correspondências, de maneira ponderada. Essas correspondências são independentes de posição. Um maior grau de correspondência indica um maior grau de similaridade com a tradução de referência e maior pontuação. A legibilidade e a exatidão gramatical não são consideradas.
Como funciona o BLEU?
O ponto forte da pontuação do BLEU é que ela se correlaciona bem com o julgamento humano. O BLEU calcula a média dos erros de julgamento das sentenças individuais no corpo de teste em vez de tentar produzir um julgamento humano preciso para cada sentença.
É uma discussão mais ampla de pontuações BLEU aqui.
Os resultados do BLEU dependem muito do escopo do campo, da consistência dos dados para testes, treinamento e ajuste, e de quantos dados você tem disponíveis para treinamento. Se os modelos forem treinados em um domínio restrito e os dados de treinamento são consistentes com seus dados de teste, você pode esperar uma alta pontuação BLEU.
Observação
Uma comparação entre as pontuações BLEU só é justificável quando BLEU resultados são comparados com o mesmo conjunto de teste, o mesmo par de idioma e o mesmo mecanismo MT. Uma pontuação de BLEU de um conjunto de testes diferente é obrigada a ser diferente.