Compartir vía


Dar formato a un texto con la conversión de voz en texto

La conversión de voz en texto ofrece una matriz de características de formato que garantizan que el texto transcrito sea claro y legible. Consulte las secciones siguientes para obtener información general sobre cómo se usa cada característica para mejorar la claridad general de la salida de texto final.

ITN

La normalización inversa de un texto (ITN) es un proceso que convierte palabras habladas en su forma escrita. Por ejemplo, la palabra "cuatro" en un texto oral se convierte en su forma escrita, "4". El servicio de conversión de voz en texto completa este proceso y no es configurable. Algunos de los formatos de texto admitidos incluyen fechas, horas, decimales, monedas, direcciones, correos electrónicos y números de teléfono. Si habla de forma natural, el servicio le dará el formato adecuado al texto. En la tabla siguiente se muestran las reglas de ITN que se aplican a la salida de texto.

Voz reconocida Display text
that will cost nine hundred dollars That will cost $900.
my phone number is one eight hundred, four five six, eight nine ten My phone number is 1-800-456-8910.
the time is six forty five p m The time is 6:45 PM.
I live on thirty five lexington avenue I live on 35 Lexington Ave.
the answer is six point five The answer is 6.5.
send it to support at help dot com Send it to support@help.com.

Uso de mayúsculas

Los modelos de conversión de voz en texto reconocen las palabras que deben ir con mayúscula inicial para mejorar la legibilidad, la precisión y la gramática. Por ejemplo, el servicio de voz capitaliza automáticamente los nombres y palabras adecuados al principio de una oración. En esta tabla se muestran algunos ejemplos.

Voz reconocida Display text
i got an x l t shirt I got an XL t-shirt.
my name is jennifer smith My name is Jennifer Smith.
i want to visit new york city I want to visit New York City.

Eliminación de las interrupciones

Al hablar, no es raro que haya personas que tartamudeen, dupliquen algunas palabras o usen interjecciones, como "um" o "eh". La conversión de voz en texto puede reconocer estos fenómenos y quitarlos del texto final. La eliminación de estas interrupciones es excelente para transcribir discursos improvisados en vivo, y así poder leerlos después. En esta tabla se muestran algunos ejemplos.

Voz reconocida Display text
i uh said that we can go to the uhmm movies I said that we can go to the movies.
its its not that big of uhm a deal It's not that big of a deal.
umm i think tomorrow should work I think tomorrow should work.

Signos de puntuación

La conversión de voz en texto puntúa automáticamente el texto para mejorar su claridad. La puntuación es útil para leer las transcripciones de llamadas o conversaciones. En esta tabla se muestran algunos ejemplos.

Voz reconocida Display text
how are you How are you?
we can go to the mall park or beach We can go to the mall, park, or beach.

Al usar la conversión de voz en texto con reconocimiento continuo, puede configurar el Servicio de voz para que reconozca signos de puntuación explícitos. Así, puede decir los signos de puntuación en voz alta para que el texto sea más legible. Esto es especialmente útil en situaciones en las que desea usar signos de puntuación complejos sin tener que editar el texto más adelante. En esta tabla se muestran algunos ejemplos.

Voz reconocida Display text
they entered the room dot dot dot They entered the room...
i heart emoji you period I <3 you.
the options are apple forward slash banana forward slash orange period The options are apple/banana/orange.
are you sure question mark Are you sure?

Use el SDK de Voz para habilitar el modo de dictado cuando use la conversión de voz en texto con reconocimiento continuo. Este modo hace que la instancia de configuración de voz interprete descripciones de palabras de estructuras de oración como puntuación.

speechConfig.EnableDictation();
speechConfig->EnableDictation();
speechConfig.EnableDictation()
speechConfig.enableDictation();
speechConfig.enableDictation();
[self.speechConfig enableDictation];
self.speechConfig!.enableDictation()
speech_config.enable_dictation()

Filtro de palabras soeces

Puede especificar si desea ocultar, quitar o mostrar las palabras soeces en el texto final transcrito. El ocultamiento reemplaza las palabras soeces por caracteres de asteriscos (*) para poder mantener el tono original del texto sin que resulte inapropiado en determinadas situaciones

Nota

Microsoft también se reserva el derecho de ocultar o quitar cualquier palabra que se considere inapropiada. El servicio de Voz no devolverá estas palabras, independientemente de si ha habilitado o no el filtrado de palabras soeces.

Las opciones del filtro de palabras soeces son las siguientes:

  • Masked: reemplaza letras de las palabras soeces por caracteres de asterisco (*). Este ocultamiento es la opción predeterminada.
  • Raw: incluye las palabras soeces textualmente.
  • Removed: quita las palabras soeces.

Por ejemplo, para quitar palabras soeces del resultado del reconocimiento de voz, establezca el filtro de palabras soeces en Removed, tal y como se muestra aquí:

speechConfig.SetProfanity(ProfanityOption.Removed);
speechConfig->SetProfanity(ProfanityOption::Removed);
speechConfig.SetProfanity(common.Removed)
speechConfig.setProfanity(ProfanityOption.Removed);
speechConfig.setProfanity(sdk.ProfanityOption.Removed);
[self.speechConfig setProfanityOptionTo:SPXSpeechConfigProfanityOption.SPXSpeechConfigProfanityOption_ProfanityRemoved];
self.speechConfig!.setProfanityOptionTo(SPXSpeechConfigProfanityOption_ProfanityRemoved)
speech_config.set_profanity(speechsdk.ProfanityOption.Removed)
spx recognize --file caption.this.mp4 --format any --profanity masked --output vtt file - --output srt file -

El filtro de palabras soeces se aplica al resultado Text y a las propiedades MaskedNormalizedForm. El filtro de palabras soeces no se aplica al resultado LexicalForm ni a las propiedades NormalizedForm. El filtro tampoco se aplica a los resultados de nivel de palabra.