¿Qué es el Speech Studio?

Artículo
03/10/2025

Speech Studio es un conjunto de herramientas basadas en interfaz de usuario para compilar e integrar características del servicio Voz de Azure AI en las aplicaciones. Debe crear proyectos en Speech Studio mediante un enfoque sin código y, a continuación, hacer referencia a esos recursos en las aplicaciones mediante el SDK de Voz, la CLI de Voz o las API de REST.

Sugerencia

También puede probar la conversión de voz en texto y texto a voz en el Portal de Azure AI Foundry sin registrarse ni escribir ningún código.

Escenarios de Speech Studio

Explore, pruebe y vea el código de ejemplo de algunos de los casos de uso comunes.

Subtítulos: elija un clip de vídeo de ejemplo para ver los resultados de subtitulación procesados en tiempo real o sin conexión. Obtenga información sobre la sincronización de los subtítulos con el audio de entrada, la aplicación de filtros de palabras soeces, la obtención de resultados parciales, la aplicación de personalizaciones y la identificación de los idiomas hablados en escenarios multilingües. Para más información, consulte el inicio rápido con los subtítulos.
Centro de llamadas: vea una demostración sobre cómo usar los servicios de idioma y voz para analizar las conversaciones del centro de llamadas. Transcriba llamadas en tiempo real o procese las llamadas en lote, censure la información de identificación personal y extraiga información como opiniones para ayudar con el caso de uso del centro de llamadas. Para más información, consulte el inicio rápido con el centro de llamadas.

Para ver una demostración de estos escenarios en Speech Studio, vea este vídeo introductorio.

Características de Speech Studio

En Speech Studio, las características siguientes del servicio Voz están disponibles como tipos de proyecto:

Conversión de voz en texto en tiempo real: arrastre archivos de audio aquí para probar rápidamente la conversión de voz en texto sin usar ningún código. Speech Studio tiene una herramienta de demostración para ver cómo funciona la conversión de voz en texto en sus muestras de audio. Para explorar la funcionalidad completa, consulte ¿Qué es la conversión de voz en texto?
Conversión de voz en texto de Batch: pruebe rápidamente las funcionalidades de transcripción por lotes para transcribir una gran cantidad de audio en el almacenamiento y recibir los resultados de forma asincrónica. Para obtener más información sobre la conversión de voz en texto de Batch, consulte Introducción a la conversión de voz en texto de Batch.
Voz personalizada: cree modelos de reconocimiento de voz adaptados a conjuntos de vocabulario y estilos de habla específicos. A diferencia de un modelo base de reconocimiento de voz, los modelos de voz personalizada son una ventaja competitiva única, porque no son accesibles públicamente. Para empezar a cargar audio de muestra a fin de crear un modelo de voz personalizada, consulte Carga de conjunto de datos de entrenamiento y pruebas.
Evaluación de la pronunciación: evalúe la pronunciación de la voz y ofrezca a los hablantes información sobre la precisión y la fluidez del audio hablado. Speech Studio proporciona un espacio aislado para probar esta característica rápidamente, sin código. Para usar la característica con el SDK de Voz en sus aplicaciones, consulte el artículo Evaluación de la pronunciación.
Traducción de voz: Pruebe y traduzca rápidamente la voz en otros idiomas de su elección con baja latencia. Para explorar la funcionalidad completa, consulte ¿Qué es la traducción de voz?
Galería de voces: cree aplicaciones y servicios que hablen de forma natural. Elija entre una amplia cartera de idiomas, voces y variantes. Dé vida a los escenarios con voces neuronales idénticas a las humanas y altamente expresivas.
Voz personalizada: cree voces personalizadas únicas para la conversión de texto a voz. Puede proporcionar archivos de audio, crear las transcripciones correspondientes en Speech Studio y, a continuación, usar las voces personalizadas en las aplicaciones. Para crear y usar voces personalizadas a través de puntos de conexión, consulte Creación y uso de un modelo de voz.
Creación de contenido de audio: un enfoque sin código para la síntesis de texto a voz. Puede usar el audio de salida tal como está o como punto de partida para una mayor personalización. Puede crear contenido de audio muy natural para varios escenarios como audiolibros, retransmisión de noticias, narraciones en vídeo y bots de chat. Para más información, consulte la documentación Creación de contenido de audio.
Palabra clave personalizada: una palabra clave personalizada es una palabra o frase corta que permite activar un producto por voz. Cree una palabra clave personalizada en Speech Studio y, a continuación, genere un archivo binario para usarlo con el SDK de Voz en las aplicaciones.

Pasos siguientes

Explorar Speech Studio

Compartir a través de

¿Qué es el Speech Studio?

Escenarios de Speech Studio

Características de Speech Studio

Pasos siguientes

Comentarios

Recursos adicionales