Termos-chave do Tradutor Personalizado
A tabela a seguir apresenta uma lista de termos-chave que você pode encontrar ao trabalhar com o Tradutor Personalizado.
Palavra ou frase | Definição |
---|---|
Idioma de Origem | O idioma de origem é o idioma inicial que você deseja converter para outro idioma (o "destino"). |
Idioma de Destino | A língua de chegada é a língua que pretende que a tradução automática forneça depois de receber a língua de partida. |
Ficheiro Monolingue | Um ficheiro monolingue tem um único idioma não emparelhado com outro ficheiro de um idioma diferente. |
Arquivos paralelos | Um arquivo paralelo é a combinação de dois arquivos com o texto correspondente. Um ficheiro tem a língua de partida. O outro tem a língua de chegada. |
Alinhamento de frases | O conjunto de dados paralelo deve ter frases alinhadas a frases que representam o mesmo texto em ambos os idiomas. Por exemplo, em um arquivo paralelo de origem, a primeira frase deveria, em teoria, ser mapeada para a primeira frase no arquivo paralelo de destino. |
Texto alinhado | Uma das etapas mais importantes da validação de arquivos é alinhar as frases nos documentos paralelos. As coisas são expressas de forma diferente em línguas diferentes. Além disso, línguas diferentes têm ordens de palavras diferentes. Esta etapa faz o trabalho de alinhar as frases com o mesmo conteúdo para que possam ser usadas para treinamento. Um alinhamento de frase baixo indica que pode haver algo errado com um ou ambos os arquivos. |
Quebra de palavras/Ininterrupto | A quebra de palavras é a função de marcar os limites entre as palavras. Muitos sistemas de escrita usam um espaço para denotar a fronteira entre as palavras. Palavra ininterrupta refere-se à remoção de qualquer marcador visível que possa ter sido inserido entre palavras em uma etapa anterior. |
Delimitadores | Delimitadores são as formas como uma frase é dividida em segmentos ou delimita a margem entre frases. Por exemplo, em inglês, espaços delimitam palavras, dois pontos e ponto-e-vírgula delimitam orações e períodos delimitam frases. |
Dossiês de Formação | Um arquivo de treinamento é usado para ensinar o sistema de tradução automática a mapear de um idioma (a fonte) para um idioma de destino (o destino). Quanto mais dados você fornecer, melhor será o desempenho do sistema. |
Ajustando arquivos | Esses arquivos geralmente são derivados aleatoriamente do conjunto de treinamento (se você não selecionar um conjunto de ajustes). As frases são selecionadas automaticamente e usadas para ajustar o sistema e garantir que ele esteja funcionando corretamente. Se você deseja criar um modelo de tradução de uso geral e criar seus próprios arquivos de ajuste, certifique-se de que eles sejam um conjunto aleatório de frases entre domínios |
Arquivos de teste | Esses arquivos geralmente são arquivos derivados, selecionados aleatoriamente do conjunto de treinamento (se você não selecionar nenhum conjunto de teste). O objetivo destas frases é avaliar a precisão do modelo de tradução. Para garantir que o sistema traduza essas frases com precisão, você pode criar um conjunto de testes e enviá-lo para o tradutor. Isso garantirá que as sentenças sejam usadas na avaliação do sistema (a geração de uma pontuação BLEU). |
Arquivo de combinação | Um tipo de arquivo no qual a fonte e as frases traduzidas estão contidas no mesmo arquivo. Formatos de ficheiro suportados (TMX, XLIFF, XLF, ICI e XLSX). |
Arquivo morto | Um arquivo que contém outros arquivos. Formatos de ficheiro suportados (zip, gz, tgz). |
Classificação de BLEU | BLEU é o método padrão da indústria para avaliar a "precisão" ou precisão do modelo de tradução. Embora existam outros métodos de avaliação, o Microsoft Translator confia no método BLEU para relatar a precisão aos proprietários do projeto. |