Partager via


Qu’est-ce qu’un score BLEU ?

BLEU (Bilingual Evaluation Understudy) est une mesure des différences entre une traduction automatique et des traductions de référence créées par l’homme pour une même phrase source.

Processus de scoring

L’algorithme BLEU compare les phrases consécutives de la traduction automatique avec les phrases consécutives qu’il trouve dans la traduction de référence, et il compte le nombre de correspondances de manière pondérée. Ces correspondances sont indépendantes de la position. Un degré de concordance plus élevé indique un degré de similitude plus élevé avec la traduction de référence, et un score plus élevé. L’intelligibilité et l’exactitude grammaticale ne sont pas prises en compte.

Comment la technologie BLEU fonctionne-t-elle ?

La force du score BLEU est qu’il est en bonne corrélation avec le jugement humain. BLEU calcule la moyenne des erreurs de jugement de phrases individuelles sur un corpus de test, plutôt que d’essayer de déterminer le jugement humain exact pour chaque phrase.

Une discussion plus approfondie des scores BLEU est disponible ici.

Les résultats de la technologie BLEU dépendent fortement de l’étendue de votre domaine, de la cohérence des données de test avec les données d’entraînement et de réglage, et de la quantité de données dont vous disposez pour l’entraînement. Si vos modèles sont entraînés au sein d’un domaine étroit et que vos données d’apprentissage correspondent à celles de vos tests, vous pouvez vous attendre à un score BLEU élevé.

Remarque

Une comparaison entre les scores BLEU n’est justifiable que lorsque les résultats BLEU sont comparés au même ensemble de tests, à la même paire de langues et au même moteur de traduction machine. Un score BLEU d’une autre série de tests est forcément différent.

Étapes suivantes