Compartir a través de


Creación de transcripciones con etiqueta humana

Las transcripciones con etiqueta humana son transcripciones textuales, palabra por palabra, de un archivo de audio. Las transcripciones con etiqueta humana se usan para evaluar la precisión del modelo y mejorar la precisión del reconocimiento, especialmente cuando las palabras se eliminan o se reemplazan incorrectamente. Esta guía puede ayudarle a crear transcripciones de alta calidad.

Para evaluar la precisión del modelo se recomienda una muestra representativa de datos de transcripción. Los datos deben abarcar varios hablantes y expresiones que sean representativas de lo que los usuarios dicen a la aplicación. Para los datos de prueba, la duración máxima de cada archivo de audio individual es de dos horas.

Se necesita una gran muestra de datos de transcripción para mejorar el reconocimiento. Se recomienda proporcionar entre 1 y 100 horas de datos de audio. El servicio Voz usa hasta 100 horas de audio para el entrenamiento (hasta 20 horas para los modelos más antiguos que no se cobran por el entrenamiento). Cada archivo de audio individual no debe tener más de 40 segundos (hasta 30 segundos para la personalización de susurro).

Esta guía tiene secciones para las configuraciones regionales en inglés de Estados Unidos, chino mandarín y alemán.

Las transcripciones de todos los archivos WAV se encuentran en un único archivo de texto sin formato (.txt o .tsv). Cada línea del archivo de transcripción tiene el nombre de uno de los archivos de audio, seguido de la transcripción correspondiente. El nombre de archivo y la transcripción deben estar separados por un carácter de tabulación (\t).

Por ejemplo:

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

El texto de las transcripciones está normalizado para que el sistema pueda procesarlas. No obstante, debe hacer algunas normalizaciones importantes antes de cargar el conjunto de datos.

Las transcripciones etiquetadas por usuarios de otros idiomas que no sean el inglés ni el chino mandarín deben codificarse como UTF-8 con un marcador de orden de bytes. Para información sobre otros requisitos de transcripción de configuración regional, consulte las secciones siguientes.

es-ES

Las transcripciones con etiqueta humana para audio inglés deben proporcionarse como texto sin formato, utilizando solo caracteres ASCII. Debe evitarse el uso de caracteres de puntuación Latino-1 o Unicode. A menudo estos caracteres se agregan involuntariamente al copiar texto de una aplicación de procesamiento de texto o al extraer datos de páginas web. Si aparecen estos caracteres, asegúrese de que se actualizan con la sustitución por el carácter ASCII correspondiente.

Estos son algunos ejemplos:

Caracteres para evitar Sustitución Notas
"Hello world" "Hello world" Las comillas de apertura y cierre se sustituyen por los caracteres ASCII adecuados.
John’s day John's day El apóstrofo se sustituye por el carácter ASCII adecuado.
It was good—no, it was great! it was good--no, it was great! El guion largo se sustituye por dos guiones.

Normalización de texto para inglés de Estados Unidos

La normalización de texto es la transformación de palabras en un formato coherente que se utiliza al entrenar un modelo. Algunas reglas de normalización se aplican al texto automáticamente; sin embargo, se recomienda seguir estas instrucciones a la hora de preparar los datos de transcripción con etiqueta humana:

  • Escriba las abreviaturas con todas las palabras.
  • Escriba las cadenas numéricas no estándar con todas las palabras (por ejemplo, términos contables).
  • Los caracteres que no son alfabéticos o los caracteres alfanuméricos combinados se deben transcribir tal y como se pronuncian.
  • Las abreviaturas que se pronuncian como palabras no deben editarse (por ejemplo, "radar", "laser", "RAM" o "NATO").
  • Escriba las abreviaturas que se pronuncian como letras independientes con cada letra separada por un espacio.
  • Si usa audio, transcriba los números como palabras que coincidan con el audio (por ejemplo, "101" podría pronunciarse como "uno cero uno" o "ciento uno").
  • Evite repetir caracteres, palabras o grupos de palabras más de tres veces, como "sí sí sí sí". El servicio Voz podría quitar líneas con este tipo de repetición.

Estos son algunos ejemplos de normalización que debe realizar en la transcripción:

Texto original Texto después de la normalización (humana)
Dr. Bruce Banner Doctor Bruce Banner
James Bond, 007 James Bond double oh seven
Ke$ha Kesha
How long is the 2x4 How long is the two by four
The meeting goes from 1-3pm The meeting goes from one to three pm
My blood type is O+ My blood type is O positive
Water is H20 Water is H 2 O
Play OU812 by Van Halen Play O U 8 1 2 by Van Halen
UTF-8 with BOM U T F 8 with BOM
It costs $3.14 It costs three fourteen

Las siguientes reglas de normalización se aplican automáticamente a las transcripciones:

  • Se utilizan letras minúsculas.
  • Se quitan todos los signos de puntuación, excepto los apóstrofos dentro de las palabras.
  • Se expanden los números de palabras o formas habladas, como los importes en dólares.

Estos son algunos ejemplos de normalización que se realiza de modo automático en la transcripción:

Texto original Texto después de la normalización (automática)
"Holy cow!" said Batman. holy cow said batman
"What?" said Batman's sidekick, Robin. what said batman's sidekick robin
Go get -em! go get em
I'm double-jointed i’m double jointed
104 Elm Street one oh four Elm street
Tune to 102.7 tune to one oh two point seven
Pi is about 3.14 pi is about three point one four

de-DE

Las transcripciones etiquetadas por usuarios de audio en alemán deben codificarse como UTF-8 con un marcador de orden de bytes.

Normalización de texto para alemán

La normalización de texto es la transformación de palabras en un formato coherente que se utiliza al entrenar un modelo. Algunas reglas de normalización se aplican al texto automáticamente; sin embargo, se recomienda seguir estas instrucciones a la hora de preparar los datos de transcripción con etiqueta humana:

  • Los puntos decimales se escriben como "," y no como ".".
  • Los separadores de hora se escriben como ":"y no como "." (por ejemplo: 12:00 Uhr).
  • Las abreviaturas como "ca." no se reemplazan. Se recomienda usar la forma hablada completa.
  • Se quitan los cuatro operadores matemáticos principales: (+, -, *, y /). Se recomienda sustituirlos por su forma escrita: "plus", "minus", "mal" y "geteilt".
  • Se quitan los operadores de comparación (=, <, y >). Se recomienda sustituirlos con "gleich", "kleiner als," y "grösser als".
  • Las fracciones, como 3/4, se usan con la forma escrita (por ejemplo, "drei viertel" en lugar de 3/4).
  • El símbolo "€" se reemplaza por su forma escriba "Euro".

Estos son algunos ejemplos de normalización que debe realizar en la transcripción:

Texto original Texto después de la normalización del usuario Texto después de la normalización del sistema
Es ist 12.23 Uhr Es ist 12:23 Uhr es ist zwölf uhr drei und zwanzig uhr
{12.45} {12,45} zwölf komma vier fünf
2 + 3 - 4 2 plus 3 minus 4 zwei plus drei minus vier

Las siguientes reglas de normalización se aplican automáticamente a las transcripciones:

  • Se usan letras en minúsculas para todo el texto.
  • Se quita toda la puntuación, incluidos varios tipos de comillas ("prueba", 'prueba', "prueba y «prueba» son correctos).
  • Se descartan todas las filas que contengan un carácter especial de este conjunto: ¢ ¤ ¥ ¦ § © ª ¬ ® ° ± ² µ × ÿ ج¬.
  • Se expanden los números a la forma hablada, incluidos importes en dólares o euros.
  • Se acepta la diéresis solo a, o y u. Otros se reemplazan por "th" o se descartan.

Estos son algunos ejemplos de normalización que se realiza de modo automático en la transcripción:

Texto original Texto después de la normalización
Frankfurter Ring frankfurter ring
¡Eine Frage! eine frage
Wir, haben wir haben

ja-JP

En japonés (ja-JP), hay una longitud máxima de 90 caracteres por cada frase. Las líneas con frases más largas se descartan. Para agregar texto más largo, inserte un punto en el medio.

zh-CN

Las transcripciones con etiqueta humana de audio en chino mandarín deben codificarse como UTF-8 con un marcador de orden de bytes. Evite el uso de caracteres de puntuación de ancho medio. Estos caracteres se pueden incluir de forma involuntaria al preparar los datos en un programa de procesamiento de texto o al extraerlos de páginas web. Si aparecen estos caracteres, asegúrese de que se actualizan con la sustitución por el ancho completo correspondiente.

Estos son algunos ejemplos:

Caracteres para evitar Sustitución Notas
"你好" "你好" Las comillas de apertura y cierre se sustituyen por los caracteres adecuados.
需要什么帮助? 需要什么帮助? El signo de interrogación se sustituye por el carácter adecuado.

Normalización de texto para chino mandarín

La normalización de texto es la transformación de palabras en un formato coherente que se utiliza al entrenar un modelo. Algunas reglas de normalización se aplican al texto automáticamente; sin embargo, se recomienda seguir estas instrucciones a la hora de preparar los datos de transcripción con etiqueta humana:

  • Escriba las abreviaturas con todas las palabras.
  • Escriba cadenas numéricas en forma hablada.

Estos son algunos ejemplos de normalización que debe realizar en la transcripción:

Texto original Texto después de la normalización
我今年 21 我今年二十一
3 号楼 504 三号 楼 五 零 四

Las siguientes reglas de normalización se aplican automáticamente a las transcripciones:

  • Se quitan todos los signos de puntuación.
  • Los números se expanden a la forma hablada.
  • Convertir las letras de ancho completo en letras de ancho medio.
  • Uso de letras mayúsculas para todas las palabras en inglés.

Estos son algunos ejemplos de normalización de transcripción automática:

Texto original Texto después de la normalización
3.1415 三 点 一 四 一 五
¥ 3.5 三 元 五 角
w f y z W F Y Z
1992 年 8 月 8 日 一 九 九 二 年 八 月 八 日
你吃饭了吗? 你 吃饭 了 吗
下午 5:00 的航班 下午 五点 的 航班
我今年 21 岁 我 今年 二十 一 岁

Pasos siguientes