Compartir vía


¿Qué es la traducción de documentos?

La traducción de documentos es una característica de traducción automática basada en la nube del servicio Traductor de Azure AI. Puede traducir varios documentos complejos en todos los idiomas y dialectos admitidos conservando la estructura y el formato de datos originales de los documentos. La API de traducción de documentos admite dos procesos de traducción:

  • La traducción por lotes asincrónica admite el procesamiento de varios documentos y archivos grandes. El proceso de traducción por lotes requiere una cuenta de Azure Blob Storage con contenedores de almacenamiento para los documentos de origen y traducidos.

  • El archivo único sincrónico admite el procesamiento de traducciones de archivos únicos. El proceso de traducción de archivos no requiere una cuenta de Azure Blob Storage. La respuesta final contiene el documento traducido y se devuelve directamente al cliente que realiza la llamada.

Traducción asincrónica por lotes

Use el procesamiento asincrónico de documentos para traducir varios documentos y archivos grandes.

Características clave de la traducción por lotes

Característica Descripción
Traducir archivos grandes Traducir documentos completos de forma asincrónica.
Traducir numerosos archivos Traduzca varios archivos entre todos los idiomas y dialectos admitidos manteniendo la estructura del documento y el formato de los datos.
Conservar la presentación del archivo de origen Traducir archivos conservando el diseño y el formato originales.
Aplicar traducción personalizada Traducir documentos con modelos de traducción personalizada y general.
Aplicar glosarios personalizados Traducir documentos mediante glosarios personalizados.
Detectar automáticamente el idioma del documento Permita que el servicio de traducción de documentos determine el idioma del documento.
Traducir documentos con contenido en varios idiomas Use la característica de detección automática para traducir documentos con contenido en varios idiomas al idioma de destino.

Opciones de desarrollo de la traducción por lotes

Puede agregar la traducción de documentos a las aplicaciones mediante la API REST o un SDK de biblioteca de cliente:

  • La API REST. es una interfaz independiente del lenguaje que permite crear solicitudes HTTP y encabezados de autorización para traducir documentos.

  • Los SDK de biblioteca cliente son clases, objetos, métodos y código específicos del lenguaje que puede usar rápidamente si agrega una referencia en el proyecto. Actualmente, la traducción de documentos es compatible con los lenguajes de programación C#/.NET y Python.

Formatos de documento admitidos por la traducción por lotes

El método de obtención de formatos de documentos admitidos devuelve una lista de formatos de documentos admitidos por el servicio de traducción de documentos. La lista incluye la extensión de archivos común y el tipo de contenido si se usa la API de carga.

Tipo de archivo Extensión de archivo Descripción
PDF de Adobe pdf Formato de archivo de documento portátil. La traducción de documentos utiliza tecnología de reconocimiento óptico de caracteres (OCR) para extraer y traducir texto en un documento PDF escaneado mientras conserva el diseño original.
Valores separados por comas csv Archivo de datos sin formato delimitados por comas que usan los programas de hoja de cálculo.
HTML html, htm Lenguaje de marcado de hipertexto
Formato de archivo de intercambio de localización xlf Formato de documento paralelo que se exporta desde los sistemas de memoria de traducción. Los idiomas utilizados se definen dentro del archivo.
Markdown markdown, mdown, mkdn, md, mkd, mdwn, mdtxt, mdtext, rmd Lenguaje de incremento ligero para crear texto con formato.
M​HTML mthml, mht Formato de archivo de página web que se usa para combinar código HTML y sus recursos complementarios.
Microsoft Excel xls, xlsx Archivo de hoja de cálculo para el análisis de datos y la documentación
Microsoft Outlook msg Mensaje de correo electrónico creado o guardado en Microsoft Outlook
Microsoft PowerPoint ppt, pptx Archivo de presentación utilizado para mostrar contenido en formato de presentación
Microsoft Word doc, docx Archivo de documento de texto
Texto de OpenDocument odt Archivo de documento de texto de código abierto.
Presentación de OpenDocument odp Archivo de presentación de código abierto.
Hoja de cálculo de OpenDocument ods Archivo de hoja de cálculo de código abierto.
Formato de texto enriquecido rtf Documento de texto que incluye formato.
Valores separados por tabulaciones/TAB tsv/tab Archivo de datos sin formato delimitado por tabulaciones que usan los programas de hoja de cálculo.
Texto txt Documento de texto sin formato

Tipos de archivos heredados de la traducción por lotes

Los tipos de archivo de origen se conservarán durante la traducción de documentos con las excepciones siguientes:

Extensión del archivo de origen Extensión del archivo traducido
.doc, .odt, .rtf, .docx
.xls, .ods .xlsx
.ppt, .odp .pptx

Formatos de glosario admitidos de la traducción por lotes

La traducción de documentos admite los siguientes tipos de archivo de glosario:

Tipo de archivo Extensión de archivo Descripción
Valores separados por comas csv Archivo de datos sin formato delimitados por comas que usan los programas de hoja de cálculo.
Formato de archivo de intercambio de localización xlf , xliff Formato de documento paralelo, exportación de sistemas de memoria de traducción. Los idiomas usados se definen dentro del archivo.
Valores separados por tabulaciones/TAB tsv, tab Archivo de datos sin formato delimitado por tabulaciones que usan los programas de hoja de cálculo.

Traducción sincrónica

Use el procesamiento de traducción sincrónica para enviar un documento como parte del cuerpo de la solicitud HTTP y recibir el documento traducido en la respuesta HTTP.

Características clave de la traducción sincrónica

Característica Descripción
Traducir archivos de una sola página La solicitud sincrónica solo acepta un único documento como entrada.
Conservar la presentación del archivo de origen Traducir archivos conservando el diseño y el formato originales.
Aplicar traducción personalizada Traducir documentos con modelos de traducción personalizada y general.
Aplicar glosarios personalizados Traducir documentos mediante glosarios personalizados.
Traducción de un único idioma Traducir a y desde un idioma admitido.
Detectar automáticamente el idioma del documento Permita que el servicio de traducción de documentos determine el idioma del documento.
Aplicar glosarios personalizados Traducir un documento mediante un glosario personalizado.

Formatos de documento admitidos por la traducción asincrónica

Tipo de archivo Extensión de archivo Tipo de contenido Descripción
Texto sin formato .txt text/plain Documento de texto sin formato
Valores separados por tabulaciones .txv
.tab
text/tab-separated-values Formato de archivo de texto que usa tabulaciones para separar los valores y nuevas líneas para separar los registros.
Valores separados por comas .csv text/csv Formato de archivo de texto que usa comas como delimitador entre valores.
Lenguaje de marcado de hipertexto .html
.htm
text/html HTML es un lenguaje de marcado estándar que se usa para estructurar contenido y páginas web.
M​HTML .mthml
.mht
message/rfc822
@application/x-mimearchive
@multipart/related
Formato de archivo de página web.
Microsoft PowerPoint .pptx application/vnd.openxmlformats-officedocument.presentationml.presentation Formato de archivo basado en XML que se usa para presentaciones de diapositivas de PowerPoint.
Microsoft Excel .xlsx application/vnd.openxmlformats-officedocument.spreadsheetml.sheet Formato de archivo basado en XML que se usa para hojas de cálculo de Excel.
Microsoft Word .docx application/vnd.openxmlformats-officedocument.wordprocessingml.document Formato de archivo basado en XML que se usa para documentos de Word.
Microsoft Outlook .msg application/vnd.ms-outlook Formato de archivo que se usa para objetos de mensaje de correo almacenados de Outlook.
Intercambio de localización XML .xlf
.xliff
application/xliff+xml Formato de archivo estándar basado en XML ampliamente utilizado en el procesamiento de software de traducción y localización.

Formatos de glosario admitidos por la traducción sincrónica

La traducción de documentos admite los siguientes tipos de archivo de glosario:

Tipo de archivo Extensión de archivo Descripción
Valores separados por comas csv Archivo de datos sin formato delimitados por comas que usan los programas de hoja de cálculo.
XmlLocalizationInterchange xlf , xliff Formato basado en XML y diseñado para estandarizar cómo se pasan los datos durante el proceso de localización.
TabSeparatedValues tsv, tab Archivo de datos sin formato delimitado por tabulaciones que usan los programas de hoja de cálculo.

Límites de solicitudes de traducción de documentos

Para obtener información detallada sobre los límites de solicitudes de Azure AI Translator Service, consulte límites de solicitudes de traducción de documentos.

Residencia de datos de traducción de documentos

La residencia de datos de traducción de documentos depende de la región de Azure en la que se ha creado el recurso de Translator:

✔️ Característica: Traducción de documentos
✔️ Punto de conexión de servicio: Personalizado: <name-of-your-resource.cognitiveservices.azure.com/translator/text/batch/v1.1

Región creada por el recurso Solicitud del centro de datos de procesamiento
Operaciones Centro de datos más cercano disponible.
América Este de EE. UU. 2 • Oeste de EE. UU. 2
Asia-Pacífico Este de Japón • Sudeste asiático
Europa (excepto Suiza) Centro de Francia • Oeste de Europa
Suiza Norte de Suiza • Oeste de Suiza

Pasos siguientes

En nuestra guía de inicio rápido, aprenderá cómo empezar a trabajar rápidamente con la traducción de documentos. Para empezar, necesitará una cuenta de Azure activa. En caso de no tener ninguna, puede crear una gratis.