Partilhar via


Termos-chave do Tradutor Personalizado

A tabela a seguir apresenta uma lista de termos-chave que você pode encontrar ao trabalhar com o Tradutor Personalizado.

Palavra ou frase Definição
Idioma de Origem O idioma de origem é o idioma inicial que você deseja converter para outro idioma (o "destino").
Idioma de Destino A língua de chegada é a língua que pretende que a tradução automática forneça depois de receber a língua de partida.
Ficheiro Monolingue Um ficheiro monolingue tem um único idioma não emparelhado com outro ficheiro de um idioma diferente.
Arquivos paralelos Um arquivo paralelo é a combinação de dois arquivos com o texto correspondente. Um ficheiro tem a língua de partida. O outro tem a língua de chegada.
Alinhamento de frases O conjunto de dados paralelo deve ter frases alinhadas a frases que representam o mesmo texto em ambos os idiomas. Por exemplo, em um arquivo paralelo de origem, a primeira frase deveria, em teoria, ser mapeada para a primeira frase no arquivo paralelo de destino.
Texto alinhado Uma das etapas mais importantes da validação de arquivos é alinhar as frases nos documentos paralelos. As coisas são expressas de forma diferente em línguas diferentes. Além disso, línguas diferentes têm ordens de palavras diferentes. Esta etapa faz o trabalho de alinhar as frases com o mesmo conteúdo para que possam ser usadas para treinamento. Um alinhamento de frase baixo indica que pode haver algo errado com um ou ambos os arquivos.
Quebra de palavras/Ininterrupto A quebra de palavras é a função de marcar os limites entre as palavras. Muitos sistemas de escrita usam um espaço para denotar a fronteira entre as palavras. Palavra ininterrupta refere-se à remoção de qualquer marcador visível que possa ter sido inserido entre palavras em uma etapa anterior.
Delimitadores Delimitadores são as formas como uma frase é dividida em segmentos ou delimita a margem entre frases. Por exemplo, em inglês, espaços delimitam palavras, dois pontos e ponto-e-vírgula delimitam orações e períodos delimitam frases.
Dossiês de Formação Um arquivo de treinamento é usado para ensinar o sistema de tradução automática a mapear de um idioma (a fonte) para um idioma de destino (o destino). Quanto mais dados você fornecer, melhor será o desempenho do sistema.
Ajustando arquivos Esses arquivos geralmente são derivados aleatoriamente do conjunto de treinamento (se você não selecionar um conjunto de ajustes). As frases são selecionadas automaticamente e usadas para ajustar o sistema e garantir que ele esteja funcionando corretamente. Se você deseja criar um modelo de tradução de uso geral e criar seus próprios arquivos de ajuste, certifique-se de que eles sejam um conjunto aleatório de frases entre domínios
Arquivos de teste Esses arquivos geralmente são arquivos derivados, selecionados aleatoriamente do conjunto de treinamento (se você não selecionar nenhum conjunto de teste). O objetivo destas frases é avaliar a precisão do modelo de tradução. Para garantir que o sistema traduza essas frases com precisão, você pode criar um conjunto de testes e enviá-lo para o tradutor. Isso garantirá que as sentenças sejam usadas na avaliação do sistema (a geração de uma pontuação BLEU).
Arquivo de combinação Um tipo de arquivo no qual a fonte e as frases traduzidas estão contidas no mesmo arquivo. Formatos de ficheiro suportados (TMX, XLIFF, XLF, ICI e XLSX).
Arquivo morto Um arquivo que contém outros arquivos. Formatos de ficheiro suportados (zip, gz, tgz).
Classificação de BLEU BLEU é o método padrão da indústria para avaliar a "precisão" ou precisão do modelo de tradução. Embora existam outros métodos de avaliação, o Microsoft Translator confia no método BLEU para relatar a precisão aos proprietários do projeto.