Cuotas y límites del servicio de voz

Artículo
03/10/2025

Este artículo contiene una referencia rápida y una descripción detallada de las cuotas y los límites del servicio de Voz en los servicios Azure AI. La información se aplica a todos los planes de tarifa del servicio. También contiene algunos procedimientos recomendados para evitar la limitación de solicitudes.

Para el plan de tarifa Gratis (F0), consulte también las asignaciones mensuales en la página de precios.

Referencia de las cuotas y límites

En las secciones siguientes se proporciona una guía rápida sobre las cuotas y los límites que se aplican al servicio de Voz.

Para saber más sobre las cuotas ajustables para los recursos de Voz Estándar (S0), consulta las explicaciones adicionales, los procedimientos recomendados y las instrucciones de ajuste. Las cuotas y los límites de los recursos de Voz Gratis (F0) no son ajustables.

Importante

Si cambia un recurso de servicios de IA para Voz del plan de tarifa Gratis (F0) a Estándar (S0), el cambio de las cuotas correspondientes puede tardar varias horas.

Cuotas y límites de la conversión de voz en texto por recurso

En esta sección se describen las cuotas y los límites de conversión de voz en texto por recurso de Voz. A menos que se especifique lo contrario, los límites no son ajustables.

Conversión de voz en texto en tiempo real y traducción de voz

Puede usar la conversión de voz en texto en tiempo real con el SDK de Voz o la API REST de conversión de voz en texto para audio breve.

Importante

Estos límites se aplican a las solicitudes simultáneas de conversión de voz en texto en tiempo real y a las solicitudes de traducción de voz combinadas. Por ejemplo, si tiene 60 solicitudes simultáneas de conversión de voz a texto y 40 solicitudes simultáneas de traducción de voz, alcanzará el límite de 100 solicitudes simultáneas.

Quota	Gratis (F0)	Estándar (S0)
Límite de solicitudes simultáneas: punto de conexión de modelo base	1 Este límite no es ajustable.	100 (valor predeterminado) La tasa es ajustable para los recursos Estándar (S0). Consulta más explicaciones, procedimientos recomendados e instrucciones de ajuste.
Límite de solicitudes simultáneas: punto de conexión personalizado	1 Este límite no es ajustable.	100 (valor predeterminado) La tasa es ajustable para los recursos Estándar (S0). Consulta más explicaciones, procedimientos recomendados e instrucciones de ajuste.
Longitud máxima de audio para la diarización en tiempo real.	N/D	240 minutos por archivo

Transcripción rápida

Quota	Gratis (F0)	Estándar (S0)
Tamaño máximo del archivo de entrada de audio	N/D	200 MB
Longitud máxima de audio	N/D	120 minutos por archivo
Número máximo de solicitudes por segundo	N/D	600

Transcripción de Azure Batch

Quota	Gratis (F0)	Estándar (S0)
Límite de la API REST de conversión de voz en texto	No disponible para F0	100 solicitudes por 10 segundos (600 solicitudes por minuto)
Tamaño máximo del archivo de entrada de audio	N/D	1 GB
Número máximo de blobs por contenedor	N/D	10000
Número máximo de archivos por solicitud de transcripción (cuando se usan varias direcciones URL de contenido como entrada).	N/D	1000
Duración máxima de audio para transcripciones con la diarización habilitada.	N/D	240 minutos por archivo

Personalización de modelos

Los límites de esta tabla se aplican por recurso de Voz al crear un modelo de voz personalizada.

Quota	Gratis (F0)	Estándar (S0)
Límite de API REST	100 solicitudes por 10 segundos (600 solicitudes por minuto)	100 solicitudes por 10 segundos (600 solicitudes por minuto)
Número máximo de implementaciones de modelos personalizados por recurso de voz	1	50
Número máximo de conjuntos de datos de voz	2	500
Tamaño máximo del archivo de conjunto de datos acústicos para la importación de datos	2 GB	2 GB
Tamaño máximo del archivo de conjunto de datos de idioma para la importación de datos	200 MB	1,5 GB
Tamaño máximo del archivo de conjunto de datos de pronunciación para la importación de datos	1 KB	1 MB
Tamaño máximo del texto cuando se usa el parámetro `text` en la solicitud de API Models_Create	200 KB	500 kB

Cuotas y límites de la conversión de texto a voz por recurso

En esta sección se describen las cuotas y los límites de texto a voz por recurso de voz.

Texto a voz en tiempo real

Puede utilizar la conversión de texto a voz en tiempo real con el SDK de voz o la REST API de conversión de texto a voz. A menos que se especifique lo contrario, los límites no son ajustables.

Quota	Gratis (F0)	Estándar (S0)
Número máximo de transacciones por período de tiempo para las voces neuronales precompiladas y las voces neuronales personalizadas.	20 transacciones por 60 segundos Este límite no es ajustable.	200 transacciones por segundo (TPS).(valor predeterminado) La tasa es ajustable hasta 1000 TPS para recursos Estándar (S0). Consulta más explicaciones, procedimientos recomendados e instrucciones de ajuste.
Longitud máxima de audio generada por solicitud	10 min	10 min
Número máximo total de etiquetas `<voice>` y `<audio>` distintivas en SSML	50	50
Tamaño máximo de mensaje SSML por turno para websocket	64 KB	64 KB

Síntesis por lotes

Estos límites no son ajustables. Para obtener más información sobre la latencia de síntesis por lotes, consulta los procedimientos recomendados y la latencia de síntesis por lotes.

Quota	Gratis (F0)	Estándar (S0)
Límite de API REST	No disponible para F0	100 solicitudes por 10 segundos
Tamaño máximo de la carga JSON para crear un trabajo de síntesis	N/D	2 megabytes
Trabajos de síntesis activos simultáneos	N/D	Sin límite
Número máximo de entradas de texto por trabajo de síntesis	N/D	10 000
Tiempo máximo de vida para un trabajo de síntesis desde que se encuentra en el estado final	N/D	Hasta 31 días (especificado mediante propiedades)

Voz neuronal personalizada: profesional

Los límites de esta tabla se aplican por recurso de Voz al crear un modelo de voz neuronal personalizado profesional.

Quota	Gratis (F0)	Estándar (S0)
Número máximo de transacciones por segundo (TPS)	No disponible para F0	200 transacciones por segundo (TPS).(valor predeterminado)
Número máximo de conjuntos de datos	N/D	500
Número máximo de cargas simultáneas de conjuntos de datos	N/D	5
Tamaño máximo de archivo de datos para la importación de datos por conjunto de datos	N/D	2 GB
Carga de audio o audio largo sin script	N/D	Sí
Número máximo de entrenamientos de modelo simultáneos	N/D	4
Número máximo de puntos de conexión personalizados	No aplicable	50

Voz neuronal personalizada: voz personal

Los límites de esta tabla se aplican por recurso de Voz al crear una voz personal.

Quota	Gratis (F0)	Estándar (S0)
Límite de la API de REST (sin incluir la síntesis de voz)	No disponible para F0	50 solicitudes por 10 segundos
Número máximo de transacciones por segundo (TPS) para la síntesis de voz	No disponible para F0	200 transacciones por segundo (TPS).(valor predeterminado)

Avatar de texto por lotes a voz

Quota	Gratis (F0)	Estándar (S0)
Límite de API REST	No disponible para F0	2 solicitudes por 1 minuto

Avatar de texto a voz en tiempo real

Quota	Gratis (F0)	Estándar (S0)
Nuevas conexiones por minuto	No disponible para F0	2 nuevas conexiones por minuto
Duración máxima de la conexión con habla	No disponible para F0	30 minutos¹
Duración máxima de la conexión con estado inactivo	No disponible para F0	5 minutos

¹ Para garantizar el funcionamiento continuo del avatar en tiempo real durante más de 30 minutos, puede habilitar la reconexión automática. Para obtener información sobre cómo configurar la reconexión automática, consulte este código de ejemplo (busque "volver a conectar automáticamente").

Herramienta de Creación de contenido de audio

Quota	Gratis (F0)	Estándar (S0)
Tamaño de archivo (texto sin formato en SSML)¹	3000 caracteres por archivo	20 000 caracteres por archivo
Tamaño de archivo (archivo de léxico)²	30 KB por archivo	100 KB por archivo
Caracteres facturables en SSML	15 000 caracteres por archivo	100 000 caracteres por archivo
Exportar a biblioteca de audio	1 tarea simultánea	N/D

¹ El límite solo se aplica al texto sin formato en SSML y no incluye etiquetas.

² Los caracteres del archivo de léxico no se cobran. Solo los elementos de léxico en SSML se cuentan como caracteres facturables. Consulte caracteres facturables para obtener más información.

Cuotas y límites de reconocimiento del hablante por recurso

El reconocimiento del hablante está limitado a 20 transacciones por segundo (TPS).

Descripción detallada, ajuste de cuota y procedimientos recomendados

Algunas de las cuotas del servicio Voz son ajustables. En esta sección se proporcionan más explicaciones, procedimientos recomendados e instrucciones de ajuste.

Las cuotas siguientes son ajustables para los recursos Estándar (S0). Los límites de solicitud Gratis (F0) no son ajustables.

Límite de solicitudes simultáneas de conversión de voz en texto para el punto de conexión del modelo base y el punto de conexión personalizado
Número máximo de transacciones de texto a voz por período de tiempo para voces neuronales precompiladas y voces neuronales personalizadas
Límite de solicitudes simultáneas de traducción de voz

Antes de solicitar un aumento de cuota (si procede), compruebe el TPS actual (transacciones por segundo) y asegúrese de que es necesario aumentar la cuota. El servicio de voz usa tecnologías de escalado automático para poner los recursos informáticos necesarios en modo "A petición". Al mismo tiempo, para conservar bajos los costos, el servicio de voz intenta no mantener una cantidad excesiva de capacidad de hardware.

Veamos un ejemplo. Supongamos que la aplicación recibe el código de respuesta 429, que indica que hay demasiadas solicitudes. La aplicación recibe esta respuesta aunque la carga de trabajo esté dentro de los límites definidos en Referencia de las cuotas y límites. La explicación más probable es que el servicio de voz se esté escalando verticalmente para satisfacer su demanda y aún no haya llegado al escalado necesario. Por lo tanto, el servicio no tiene de forma inmediata suficientes recursos para atender la solicitud. En tales casos, el aumento de la cuota no ayudará. En la mayoría de los casos, el servicio voz se escalará verticalmente pronto y se resolverá el problema que provoca el código de respuesta 429.

Procedimientos recomendados generales para mitigar la limitación durante el escalado automático

Para minimizar los problemas relacionados con la limitación, es una buena idea usar las técnicas siguientes:

Implemente lógica de reintento en la aplicación.
Evite cambios bruscos en la carga de trabajo. Aumente la carga de trabajo gradualmente. Por ejemplo, supongamos que la aplicación usa la conversión de texto a voz y la carga de trabajo actual es de 5 TPS. En el siguiente segundo, aumenta la carga a 20 TPS (es decir, cuatro veces más). El servicio de voz comienza inmediatamente a escalarse verticalmente para satisfacer la nueva carga, pero no puede hacerlo en un segundo. Algunas de las solicitudes reciben el código de respuesta 429 (demasiadas solicitudes).
Prueba de diferentes patrones de aumento de carga Para más información, consulte el ejemplo de patrón de carga de trabajo.
Crea más recursos del servicio de Voz en diferentes regiones, y distribuye la carga de trabajo entre ellas. (La creación de varios recursos de servicio de Voz en la misma región no afecta al rendimiento, ya que el mismo clúster de back-end atiende todos los recursos).

En las secciones siguientes se describen los casos específicos de ajuste de las cuotas.

Conversión de voz en texto: aumento del límite de solicitudes simultáneas de conversión de voz en texto en tiempo real

De forma predeterminada, el número de solicitudes combinadas simultáneas de conversión de voz en texto en tiempo real y de traducción de voz está limitado a 100 por recurso en el modelo base y a 100 por punto de conexión personalizado en el modelo personalizado. En el caso del plan de tarifa estándar, puede aumentar esta cantidad. Antes de enviar la solicitud, asegúrese de que está familiarizado con el material mencionado anteriormente en este artículo, como los procedimientos recomendados para mitigar la limitación.

Nota

Los límites de solicitudes simultáneas de los modelos base y personalizado se deben ajustar por separado. Puede tener un recurso de servicio de Voz asociado a muchos puntos de conexión personalizados que hospedan muchas implementaciones de modelos personalizados. Según sea necesario, los ajustes de límite por punto de conexión personalizado se deben solicitar por separado.

Aumentar el límite de solicitudes simultáneas no afecta directamente a los costos. El servicio de Voz usa un modelo de pago que requiere que solo se pague por lo que se usa. El límite define hasta dónde se puede escalar el servicio antes de empezar a limitar las solicitudes.

No puede ver el valor existente del parámetro de límite de solicitudes simultáneas en Azure Portal, ni en las herramientas de línea de comandos ni en las solicitudes de API. Para comprobar el valor existente, cree una solicitud de soporte técnico de Azure.

Nota

Los contenedores de voz no requieren aumentos en los límites de solicitudes simultáneas, ya que solo están restringidos por las CPU del hardware en el que se hospedan. Sin embargo, los contenedores de voz tienen sus propias limitaciones de capacidad que deben tenerse en cuenta. Para más información, consulte las preguntas más frecuentes sobre los contenedores de voz.

Tenga lista la información necesaria

Para el modelo base:
- Identificador del recurso de voz
- Region
Para el modelo personalizado:
- Region
- Identificador del punto de conexión personalizado

Para obtener información para el modelo base:

Vaya a Azure Portal.
Seleccione el recurso del servicio de voz para el que desea aumentar el límite de solicitudes simultáneas.
En el grupo Administración de recursos, seleccione Propiedades.
Copie y guarde los valores de los siguientes campos:
- Identificador del recurso
- Ubicación (la región del punto de conexión)

Para obtener información para el modelo personalizado:

Vaya al portal de Speech Studio.
Inicie sesión si es necesario y vaya a Voz personalizada.
Seleccione el proyecto y vaya a Implementación.
Seleccione el punto de conexión necesario.
Copie y guarde los valores de los siguientes campos:
- Service Region (Región del servicio) (la región del punto de conexión)
- Endpoint ID (Id. del punto de conexión)

Creación y envío de una solicitud de soporte técnico

Inicie el aumento del límite de solicitudes simultáneas para el recurso o, si es necesario, compruebe el límite actual enviando una solicitud de soporte técnico: A continuación se muestra cómo hacerlo:

Asegúrese de que tiene la información necesaria enumerada en la sección anterior.
Vaya a Azure Portal.
Seleccione el recurso del servicio de voz para el que le gustaría aumentar (o comprobar) el límite de solicitudes simultáneas
En el grupo Soporte técnico y solución de problemas, seleccione Nueva solicitud de soporte técnico. Aparece una nueva ventana con información rellenada automáticamente sobre la suscripción y el recurso de Azure.
En Resumen, describa lo que desea (por ejemplo, "Aumentar el límite de solicitudes simultáneas de la conversión de voz en texto").
En Tipo de problema, seleccione Quota or Subscription issues (Problemas de cuota o suscripción).
En Subtipo de problema, seleccione:
- Quota or concurrent requests increase (Aumento de cuota o solicitudes simultáneas) para aumentar las solicitudes.
- Quota or usage validation (Validación de cuota o uso) para comprobar el límite existente.
Seleccione Siguiente: Soluciones. Continúe con la creación de la solicitud.
En la pestaña Detalles, escriba lo siguiente en el campo Descripción:
- Tenga en cuenta que la solicitud es sobre la cuota de conversión de voz en texto.
- Elija el modelo base o personalizado.
- La información de recursos de Azure que recopiló anteriormente.
- Cualquier otra información necesaria.
En la pestaña Revisar y crear, seleccione Crear.
Anote el número de la solicitud de soporte técnico que aparece en las notificaciones de Azure Portal. En breve se pondrán en contacto contigo para obtener información sobre tu solicitud.

Ejemplo de un procedimiento recomendado para un patrón de carga de trabajo

Este es un ejemplo general de un buen enfoque. Solo está pensado como una plantilla que se puede ajustar según sea necesario para su propio uso.

Suponga que un recurso del servicio de voz tiene el límite de solicitudes simultáneas establecido en 300. Inicie la carga de trabajo en 20 conexiones simultáneas y aumente la carga en 20 conexiones simultáneas cada 90-120 segundos. Controle las respuestas del servicio e implemente la lógica que invierte la operación (reduce la carga) si se reciben demasiadas solicitudes (códigos de respuesta 429). A continuación, vuelva a intentar el aumento de carga en un minuto y, si sigue sin funcionar, inténtelo de nuevo dentro de dos minutos. Use un patrón de 1-2-4-4 minutos para los intervalos.

Por lo general, es buena idea probar la carga de trabajo y los patrones de carga de trabajo antes de pasar a producción.

Texto a voz: aumento del límite de solicitudes simultáneas

En el caso del plan de tarifa estándar, puede aumentar esta cantidad. Antes de enviar la solicitud, asegúrese de que está familiarizado con el material mencionado anteriormente en este artículo, como los procedimientos recomendados para mitigar la limitación.

Aumentar el límite de solicitudes simultáneas no afecta directamente a los costos. El servicio de voz usa un modelo de pago que requiere que solo se pague por lo que se usa. El límite define hasta dónde se puede escalar el servicio antes de empezar a limitar las solicitudes.

Nota

Los contenedores de voz no requieren aumentos en los límites de solicitudes simultáneas, ya que solo están restringidos por las CPU del hardware en el que se hospedan.

Preparación de la información necesaria

Para crear una solicitud de aumento, debe facilitar sus datos.

Para la voz precompilada:
- Identificador del recurso de voz
- Region
Para la voz personalizada:
- Región de la implementación
- Identificador del punto de conexión personalizado

Obtención de información de la voz precompilada:

Vaya a Azure Portal.
Seleccione el recurso del servicio de voz para el que desea aumentar el límite de solicitudes simultáneas.
En el grupo Administración de recursos, seleccione Propiedades.
Copie y guarde los valores de los siguientes campos:
- Identificador del recurso
- Ubicación (la región del punto de conexión)

Obtención de información de la voz personalizada:

Vaya al portal de Speech Studio.
Inicie sesión si es necesario y vaya a Voz personalizada.
Seleccione el proyecto y vaya a Implementar modelo.
Seleccione el punto de conexión necesario.
Copie y guarde los valores de los siguientes campos:
- Service Region (Región del servicio) (la región del punto de conexión)
- Endpoint ID (Id. del punto de conexión)

Creación y envío de una solicitud de soporte técnico

Asegúrese de que tiene la información necesaria enumerada en la sección anterior.
Vaya a Azure Portal.
Seleccione el recurso del servicio de voz para el que le gustaría aumentar (o comprobar) el límite de solicitudes simultáneas
En el grupo Soporte técnico y solución de problemas, seleccione Nueva solicitud de soporte técnico. Aparece una nueva ventana con información rellenada automáticamente sobre la suscripción y el recurso de Azure.
En Resumen, describa lo que desea (por ejemplo, "Aumentar el límite de solicitudes simultáneas de conversión de texto a voz").
En Tipo de problema, seleccione Quota or Subscription issues (Problemas de cuota o suscripción).
En Subtipo de problema, seleccione:
- Quota or concurrent requests increase (Aumento de cuota o solicitudes simultáneas) para aumentar las solicitudes.
- Quota or usage validation (Validación de cuota o uso) para comprobar el límite existente.
En la pestaña Solución recomendada, seleccione Siguiente.
En la pestaña Detalles adicionales, rellene todos los elementos necesarios. En el campo Detalles, escriba lo siguiente:
- Tenga en cuenta que la solicitud es sobre la cuota de conversión de texto a voz.
- Elija la voz precompilada o la voz personalizada.
- La información de recursos de Azure que recopiló anteriormente.
- Cualquier otra información necesaria.
En la pestaña Revisar y crear, seleccione Crear.
Anote el número de la solicitud de soporte técnico que aparece en las notificaciones de Azure Portal. En breve se pondrán en contacto contigo para obtener información sobre tu solicitud.

Avatar de texto a voz: aumento del límite de nuevas conexiones

Para aumentar el límite de nuevas conexiones por minuto para el avatar de texto a voz, póngase en contacto con su representante de ventas para crear un vale con la siguiente información:

URI del recurso de voz
Se solicitó una nueva limitación para aumentar a
Justificación del aumento
Fecha de inicio del aumento
Fecha de finalización del aumento
Avatar precompilado o avatar personalizado

Compartir vía

Cuotas y límites del servicio de voz

Referencia de las cuotas y límites

Cuotas y límites de la conversión de voz en texto por recurso

Conversión de voz en texto en tiempo real y traducción de voz

Transcripción rápida

Transcripción de Azure Batch

Personalización de modelos

Cuotas y límites de la conversión de texto a voz por recurso

Texto a voz en tiempo real

Síntesis por lotes

Voz neuronal personalizada: profesional

Voz neuronal personalizada: voz personal

Avatar de texto por lotes a voz

Avatar de texto a voz en tiempo real

Herramienta de Creación de contenido de audio

Cuotas y límites de reconocimiento del hablante por recurso

Descripción detallada, ajuste de cuota y procedimientos recomendados

Procedimientos recomendados generales para mitigar la limitación durante el escalado automático

Conversión de voz en texto: aumento del límite de solicitudes simultáneas de conversión de voz en texto en tiempo real

Tenga lista la información necesaria

Creación y envío de una solicitud de soporte técnico

Ejemplo de un procedimiento recomendado para un patrón de carga de trabajo

Texto a voz: aumento del límite de solicitudes simultáneas

Preparación de la información necesaria

Creación y envío de una solicitud de soporte técnico

Avatar de texto a voz: aumento del límite de nuevas conexiones

Comentarios

Recursos adicionales