¿Qué es un asistente de voz?

Artículo
03/10/2025

Al usar asistentes para voz con el servicio Voz, los desarrolladores pueden crear interfaces de conversación naturales, similares a la humana, para sus aplicaciones y experiencias. El servicio de asistente para voz proporciona una interacción rápida y confiable entre un dispositivo y la implementación de un asistente.

Elección de una solución de asistente

El primer paso para crear un asistente para voz es decidir qué quiere que haga. El servicio Voz proporciona varias soluciones complementarias para diseñar las interacciones de los asistentes. Es posible que quiera que la aplicación admita una conversación abierta con frases como "Necesito ir a Seattle" o "¿Qué tipo de pizza se puede pedir?"

Arquitectura de referencia para crear un asistente para voz con el SDK de Voz

Diagrama conceptual del flujo de servicio de orquestación del asistente de voz.

Características principales

Tanto si se elige una palabra clave personalizada como otra solución para crear interacciones con el asistente, es posible usar un amplio conjunto de características de personalización para personalizar el asistente según la marca, el producto y la personalidad.

Category	Características
Palabra clave personalizada	Los usuarios pueden iniciar conversaciones con los asistentes mediante una palabra clave personalizada como "Hola, Contoso". Una aplicación hace esto con un motor de palabras clave personalizado en el SDK de Voz, que puede configurar yendo a Introducción a las palabras clave personalizadas. Los asistentes de voz pueden utilizar la comprobación de palabras clave del lado del servicio para mejorar la precisión de la activación de palabras clave (frente al uso del dispositivo por sí solo).
Speech to Text	Los asistentes de voz convierten audio en tiempo real en texto reconocido mediante la conversión de voz en texto del servicio Voz. Este texto está disponible, a medida que se escribe, tanto para la implementación del asistente como para la aplicación cliente.
Texto a voz	Las respuestas textuales desde el asistente se sintetizan mediante texto a voz del servicio Voz. A continuación, esta síntesis se pone a disposición de la aplicación cliente como una secuencia de audio. Microsoft ofrece la posibilidad de crear su propio Texto a voz neuronal (TTS neuronal) personalizado de alta calidad que le pone voz a su marca.

Tutoriales y código de ejemplo

El código de ejemplo para crear un asistente para voz se encuentra disponible en GitHub en Azure-Samples/Cognitive-Services-Voice-Assistant.

Personalización

Los asistentes para voz que se crean con el servicio Voz pueden usar una gama completa de opciones de personalización.

Nota

Las opciones de personalización varían según el idioma y la configuración regional. Para obtener más información, consulte Idiomas admitidos.

Compartir vía

¿Qué es un asistente de voz?

Elección de una solución de asistente

Arquitectura de referencia para crear un asistente para voz con el SDK de Voz

Características principales

Tutoriales y código de ejemplo

Personalización

Comentarios

Recursos adicionales

Compartir vía

¿Qué es un asistente de voz?

Elección de una solución de asistente

Arquitectura de referencia para crear un asistente para voz con el SDK de Voz

Características principales

Tutoriales y código de ejemplo

Personalización

Contenido relacionado

Comentarios

Recursos adicionales