Cuotas y límites del servicio de voz
Este artículo contiene una referencia rápida y una descripción detallada de las cuotas y los límites del servicio de Voz en los servicios Azure AI. La información se aplica a todos los planes de tarifa del servicio. También contiene algunos procedimientos recomendados para evitar la limitación de solicitudes.
Para el plan de tarifa Gratis (F0), consulte también las asignaciones mensuales en la página de precios.
Referencia de las cuotas y límites
En las secciones siguientes se proporciona una guía rápida sobre las cuotas y los límites que se aplican al servicio de Voz.
Para saber más sobre las cuotas ajustables para los recursos de Voz Estándar (S0), consulta las explicaciones adicionales, los procedimientos recomendados y las instrucciones de ajuste. Las cuotas y los límites de los recursos de Voz Gratis (F0) no son ajustables.
Importante
Si cambia un recurso de Voz del plan de tarifa Gratis (F0) a Estándar (S0), el cambio de las cuotas correspondientes puede tardar hasta varias horas.
Cuotas y límites de la conversión de voz en texto por recurso
En esta sección se describen las cuotas y los límites de conversión de voz en texto por recurso de Voz. A menos que se especifique lo contrario, los límites no son ajustables.
Conversión de voz en texto en tiempo real y traducción de voz
Puede usar la conversión de voz en texto en tiempo real con el SDK de Voz o la API REST de conversión de voz en texto para audio breve.
Importante
Estos límites se aplican a las solicitudes simultáneas de conversión de voz en texto en tiempo real y a las solicitudes de traducción de voz combinadas. Por ejemplo, si tiene 60 solicitudes simultáneas de conversión de voz a texto y 40 solicitudes simultáneas de traducción de voz, alcanzará el límite de 100 solicitudes simultáneas.
Quota | Gratis (F0) | Estándar (S0) |
---|---|---|
Límite de solicitudes simultáneas: punto de conexión de modelo base | 1 Este límite no es ajustable. |
100 (valor predeterminado) La tasa es ajustable para los recursos Estándar (S0). Consulta más explicaciones, procedimientos recomendados e instrucciones de ajuste. |
Límite de solicitudes simultáneas: punto de conexión personalizado | 1 Este límite no es ajustable. |
100 (valor predeterminado) La tasa es ajustable para los recursos Estándar (S0). Consulta más explicaciones, procedimientos recomendados e instrucciones de ajuste. |
Longitud máxima de audio para la diarización en tiempo real. | N/D | 240 minutos por archivo |
Transcripción rápida
Quota | Gratis (F0) | Estándar (S0) |
---|---|---|
Tamaño máximo del archivo de entrada de audio | N/D | 200 MB |
Longitud máxima de audio | N/D | 120 minutos por archivo |
Número máximo de solicitudes por segundo | N/D | 600 |
Transcripción de Azure Batch
Quota | Gratis (F0) | Estándar (S0) |
---|---|---|
Límite de la API REST de conversión de voz en texto | No disponible para F0 | 100 solicitudes por 10 segundos (600 solicitudes por minuto) |
Tamaño máximo del archivo de entrada de audio | N/D | 1 GB |
Número máximo de blobs por contenedor | N/D | 10000 |
Número máximo de archivos por solicitud de transcripción (cuando se usan varias direcciones URL de contenido como entrada). | N/D | 1000 |
Duración máxima de audio para transcripciones con la diarización habilitada. | N/D | 240 minutos por archivo |
Personalización de modelos
Los límites de esta tabla se aplican por recurso de Voz al crear un modelo de voz personalizada.
Quota | Gratis (F0) | Estándar (S0) |
---|---|---|
Límite de API REST | 100 solicitudes por 10 segundos (600 solicitudes por minuto) | 100 solicitudes por 10 segundos (600 solicitudes por minuto) |
Número máximo de conjuntos de datos de voz | 2 | 500 |
Tamaño máximo del archivo de conjunto de datos acústicos para la importación de datos | 2 GB | 2 GB |
Tamaño máximo del archivo de conjunto de datos de idioma para la importación de datos | 200 MB | 1,5 GB |
Tamaño máximo del archivo de conjunto de datos de pronunciación para la importación de datos | 1 KB | 1 MB |
Tamaño máximo del texto cuando se usa el parámetro text en la solicitud de API Models_Create |
200 KB | 500 kB |
Cuotas y límites de la conversión de texto a voz por recurso
En esta sección se describen las cuotas y los límites de texto a voz por recurso de voz.
Texto a voz en tiempo real
Puede utilizar la conversión de texto a voz en tiempo real con el SDK de voz o la REST API de conversión de texto a voz. A menos que se especifique lo contrario, los límites no son ajustables.
Quota | Gratis (F0) | Estándar (S0) |
---|---|---|
Número máximo de transacciones por período de tiempo para las voces neuronales precompiladas y las voces neuronales personalizadas. | 20 transacciones por 60 segundos Este límite no es ajustable. |
200 transacciones por segundo (TPS).(valor predeterminado) La tasa es ajustable hasta 1000 TPS para recursos Estándar (S0). Consulta más explicaciones, procedimientos recomendados e instrucciones de ajuste. |
Longitud máxima de audio generada por solicitud | 10 min | 10 min |
Número máximo total de etiquetas <voice> y <audio> distintivas en SSML |
50 | 50 |
Tamaño máximo de mensaje SSML por turno para websocket | 64 KB | 64 KB |
Síntesis por lotes
Estos límites no son ajustables. Para obtener más información sobre la latencia de síntesis por lotes, consulta los procedimientos recomendados y la latencia de síntesis por lotes.
Quota | Gratis (F0) | Estándar (S0) |
---|---|---|
Límite de API REST | No disponible para F0 | 100 solicitudes por 10 segundos |
Tamaño máximo de la carga JSON para crear un trabajo de síntesis | N/D | 2 megabytes |
Trabajos de síntesis activos simultáneos | N/D | Sin límite |
Número máximo de entradas de texto por trabajo de síntesis | N/D | 10 000 |
Tiempo máximo de vida para un trabajo de síntesis desde que se encuentra en el estado final | N/D | Hasta 31 días (especificado mediante propiedades) |
Voz neuronal personalizada: profesional
Los límites de esta tabla se aplican por recurso de Voz al crear un modelo de voz neuronal personalizado profesional.
Quota | Gratis (F0) | Estándar (S0) |
---|---|---|
Número máximo de transacciones por segundo (TPS) | No disponible para F0 | 200 transacciones por segundo (TPS).(valor predeterminado) |
Número máximo de conjuntos de datos | N/D | 500 |
Número máximo de cargas simultáneas de conjuntos de datos | N/D | 5 |
Tamaño máximo de archivo de datos para la importación de datos por conjunto de datos | N/D | 2 GB |
Carga de audio o audio largo sin script | N/D | Sí |
Número máximo de entrenamientos de modelo simultáneos | N/D | 4 |
Número máximo de puntos de conexión personalizados | No aplicable | 50 |
Voz neuronal personalizada: voz personal
Los límites de esta tabla se aplican por recurso de Voz al crear una voz personal.
Quota | Gratis (F0) | Estándar (S0) |
---|---|---|
Límite de la API de REST (sin incluir la síntesis de voz) | No disponible para F0 | 50 solicitudes por 10 segundos |
Número máximo de transacciones por segundo (TPS) para la síntesis de voz | No disponible para F0 | 200 transacciones por segundo (TPS).(valor predeterminado) |
Avatar de texto por lotes a voz
Quota | Gratis (F0) | Estándar (S0) |
---|---|---|
Límite de API REST | No disponible para F0 | 2 solicitudes por 1 minuto |
Avatar de texto a voz en tiempo real
Quota | Gratis (F0) | Estándar (S0) |
---|---|---|
Nuevas conexiones por minuto | No disponible para F0 | 2 nuevas conexiones por minuto |
Duración máxima de la conexión con habla | No disponible para F0 | 20 minutos1 |
Duración máxima de la conexión con estado inactivo | No disponible para F0 | 5 minutos |
1 Para garantizar el funcionamiento continuo del avatar en tiempo real durante más de 20 minutos, puede habilitar la reconexión automática. Para obtener información sobre cómo configurar la reconexión automática, consulte este código de ejemplo (busque "volver a conectar automáticamente").
Herramienta de Creación de contenido de audio
Quota | Gratis (F0) | Estándar (S0) |
---|---|---|
Tamaño de archivo (texto sin formato en SSML)1 | 3000 caracteres por archivo | 20 000 caracteres por archivo |
Tamaño de archivo (archivo de léxico)2 | 30 KB por archivo | 100 KB por archivo |
Caracteres facturables en SSML | 15 000 caracteres por archivo | 100 000 caracteres por archivo |
Exportar a biblioteca de audio | 1 tarea simultánea | N/D |
1 El límite solo se aplica al texto sin formato en SSML y no incluye etiquetas.
2 Los caracteres del archivo de léxico no se cobran. Solo los elementos de léxico en SSML se cuentan como caracteres facturables. Consulte caracteres facturables para obtener más información.
Cuotas y límites de reconocimiento del hablante por recurso
El reconocimiento del hablante está limitado a 20 transacciones por segundo (TPS).
Descripción detallada, ajuste de cuota y procedimientos recomendados
Algunas de las cuotas del servicio Voz son ajustables. En esta sección se proporcionan más explicaciones, procedimientos recomendados e instrucciones de ajuste.
Las cuotas siguientes son ajustables para los recursos Estándar (S0). Los límites de solicitud Gratis (F0) no son ajustables.
- Límite de solicitudes simultáneas de conversión de voz en texto para el punto de conexión del modelo base y el punto de conexión personalizado
- Número máximo de transacciones de texto a voz por período de tiempo para voces neuronales precompiladas y voces neuronales personalizadas
- Límite de solicitudes simultáneas de traducción de voz
Antes de solicitar un aumento de cuota (si procede), compruebe el TPS actual (transacciones por segundo) y asegúrese de que es necesario aumentar la cuota. El servicio de voz usa tecnologías de escalado automático para poner los recursos informáticos necesarios en modo "A petición". Al mismo tiempo, para conservar bajos los costos, el servicio de voz intenta no mantener una cantidad excesiva de capacidad de hardware.
Veamos un ejemplo. Supongamos que la aplicación recibe el código de respuesta 429, que indica que hay demasiadas solicitudes. La aplicación recibe esta respuesta aunque la carga de trabajo esté dentro de los límites definidos en Referencia de las cuotas y límites. La explicación más probable es que el servicio de voz se esté escalando verticalmente para satisfacer su demanda y aún no haya llegado al escalado necesario. Por lo tanto, el servicio no tiene de forma inmediata suficientes recursos para atender la solicitud. En tales casos, el aumento de la cuota no ayudará. En la mayoría de los casos, el servicio voz se escalará verticalmente pronto y se resolverá el problema que provoca el código de respuesta 429.
Procedimientos recomendados generales para mitigar la limitación durante el escalado automático
Para minimizar los problemas relacionados con la limitación, es una buena idea usar las técnicas siguientes:
- Implemente lógica de reintento en la aplicación.
- Evite cambios bruscos en la carga de trabajo. Aumente la carga de trabajo gradualmente. Por ejemplo, supongamos que la aplicación usa la conversión de texto a voz y la carga de trabajo actual es de 5 TPS. En el siguiente segundo, aumenta la carga a 20 TPS (es decir, cuatro veces más). El servicio de voz comienza inmediatamente a escalarse verticalmente para satisfacer la nueva carga, pero no puede hacerlo en un segundo. Algunas de las solicitudes reciben el código de respuesta 429 (demasiadas solicitudes).
- Prueba de diferentes patrones de aumento de carga Para más información, consulte el ejemplo de patrón de carga de trabajo.
- Crea más recursos del servicio de Voz en diferentes regiones, y distribuye la carga de trabajo entre ellas. (La creación de varios recursos de servicio de Voz en la misma región no afecta al rendimiento, ya que el mismo clúster de back-end atiende todos los recursos).
En las secciones siguientes se describen los casos específicos de ajuste de las cuotas.
Conversión de voz en texto: aumento del límite de solicitudes simultáneas de conversión de voz en texto en tiempo real
De forma predeterminada, el número de solicitudes combinadas simultáneas de conversión de voz en texto en tiempo real y de traducción de voz está limitado a 100 por recurso en el modelo base y a 100 por punto de conexión personalizado en el modelo personalizado. En el caso del plan de tarifa estándar, puede aumentar esta cantidad. Antes de enviar la solicitud, asegúrese de que está familiarizado con el material mencionado anteriormente en este artículo, como los procedimientos recomendados para mitigar la limitación.
Nota
Los límites de solicitudes simultáneas de los modelos base y personalizado se deben ajustar por separado. Puede tener un recurso de servicio de Voz asociado a muchos puntos de conexión personalizados que hospedan muchas implementaciones de modelos personalizados. Según sea necesario, los ajustes de límite por punto de conexión personalizado se deben solicitar por separado.
Aumentar el límite de solicitudes simultáneas no afecta directamente a los costos. El servicio de Voz usa un modelo de pago que requiere que solo se pague por lo que se usa. El límite define hasta dónde se puede escalar el servicio antes de empezar a limitar las solicitudes.
No puede ver el valor existente del parámetro de límite de solicitudes simultáneas en Azure Portal, ni en las herramientas de línea de comandos ni en las solicitudes de API. Para comprobar el valor existente, cree una solicitud de soporte técnico de Azure.
Nota
Los contenedores de voz no requieren aumentos en los límites de solicitudes simultáneas, ya que solo están restringidos por las CPU del hardware en el que se hospedan. Sin embargo, los contenedores de voz tienen sus propias limitaciones de capacidad que deben tenerse en cuenta. Para más información, consulte las preguntas más frecuentes sobre los contenedores de voz.
Tenga lista la información necesaria
- Para el modelo base:
- Identificador del recurso de voz
- Region
- Para el modelo personalizado:
- Region
- Identificador del punto de conexión personalizado
Para obtener información para el modelo base:
- Vaya a Azure Portal.
- Seleccione el recurso del servicio de voz para el que desea aumentar el límite de solicitudes simultáneas.
- En el grupo Administración de recursos, seleccione Propiedades.
- Copie y guarde los valores de los siguientes campos:
- Identificador del recurso
- Ubicación (la región del punto de conexión)
Para obtener información para el modelo personalizado:
- Vaya al portal de Speech Studio.
- Inicie sesión si es necesario y vaya a Voz personalizada.
- Seleccione el proyecto y vaya a Implementación.
- Seleccione el punto de conexión necesario.
- Copie y guarde los valores de los siguientes campos:
- Service Region (Región del servicio) (la región del punto de conexión)
- Endpoint ID (Id. del punto de conexión)
Creación y envío de una solicitud de soporte técnico
Inicie el aumento del límite de solicitudes simultáneas para el recurso o, si es necesario, compruebe el límite actual enviando una solicitud de soporte técnico: A continuación se muestra cómo hacerlo:
- Asegúrese de que tiene la información necesaria enumerada en la sección anterior.
- Vaya a Azure Portal.
- Seleccione el recurso del servicio de voz para el que le gustaría aumentar (o comprobar) el límite de solicitudes simultáneas
- En el grupo Soporte técnico y solución de problemas, seleccione Nueva solicitud de soporte técnico. Aparece una nueva ventana con información rellenada automáticamente sobre la suscripción y el recurso de Azure.
- En Resumen, describa lo que desea (por ejemplo, "Aumentar el límite de solicitudes simultáneas de la conversión de voz en texto").
- En Tipo de problema, seleccione Quota or Subscription issues (Problemas de cuota o suscripción).
- En Subtipo de problema, seleccione:
- Quota or concurrent requests increase (Aumento de cuota o solicitudes simultáneas) para aumentar las solicitudes.
- Quota or usage validation (Validación de cuota o uso) para comprobar el límite existente.
- Seleccione Siguiente: Soluciones. Continúe con la creación de la solicitud.
- En la pestaña Detalles, escriba lo siguiente en el campo Descripción:
- Tenga en cuenta que la solicitud es sobre la cuota de conversión de voz en texto.
- Elija el modelo base o personalizado.
- La información de recursos de Azure que recopiló anteriormente.
- Cualquier otra información necesaria.
- En la pestaña Revisar y crear, seleccione Crear.
- Anote el número de la solicitud de soporte técnico que aparece en las notificaciones de Azure Portal. En breve se pondrán en contacto contigo para obtener información sobre tu solicitud.
Ejemplo de un procedimiento recomendado para un patrón de carga de trabajo
Este es un ejemplo general de un buen enfoque. Solo está pensado como una plantilla que se puede ajustar según sea necesario para su propio uso.
Suponga que un recurso del servicio de voz tiene el límite de solicitudes simultáneas establecido en 300. Inicie la carga de trabajo en 20 conexiones simultáneas y aumente la carga en 20 conexiones simultáneas cada 90-120 segundos. Controle las respuestas del servicio e implemente la lógica que invierte la operación (reduce la carga) si se reciben demasiadas solicitudes (códigos de respuesta 429). A continuación, vuelva a intentar el aumento de carga en un minuto y, si sigue sin funcionar, inténtelo de nuevo dentro de dos minutos. Use un patrón de 1-2-4-4 minutos para los intervalos.
Por lo general, es buena idea probar la carga de trabajo y los patrones de carga de trabajo antes de pasar a producción.
Texto a voz: aumento del límite de solicitudes simultáneas
En el caso del plan de tarifa estándar, puede aumentar esta cantidad. Antes de enviar la solicitud, asegúrese de que está familiarizado con el material mencionado anteriormente en este artículo, como los procedimientos recomendados para mitigar la limitación.
Aumentar el límite de solicitudes simultáneas no afecta directamente a los costos. El servicio de voz usa un modelo de pago que requiere que solo se pague por lo que se usa. El límite define hasta dónde se puede escalar el servicio antes de empezar a limitar las solicitudes.
No puede ver el valor existente del parámetro de límite de solicitudes simultáneas en Azure Portal, ni en las herramientas de línea de comandos ni en las solicitudes de API. Para comprobar el valor existente, cree una solicitud de soporte técnico de Azure.
Nota
Los contenedores de voz no requieren aumentos en los límites de solicitudes simultáneas, ya que solo están restringidos por las CPU del hardware en el que se hospedan.
Preparación de la información necesaria
Para crear una solicitud de aumento, debe facilitar sus datos.
- Para la voz precompilada:
- Identificador del recurso de voz
- Region
- Para la voz personalizada:
- Región de la implementación
- Identificador del punto de conexión personalizado
Obtención de información de la voz precompilada:
- Vaya a Azure Portal.
- Seleccione el recurso del servicio de voz para el que desea aumentar el límite de solicitudes simultáneas.
- En el grupo Administración de recursos, seleccione Propiedades.
- Copie y guarde los valores de los siguientes campos:
- Identificador del recurso
- Ubicación (la región del punto de conexión)
Obtención de información de la voz personalizada:
- Vaya al portal de Speech Studio.
- Inicie sesión si es necesario y vaya a Voz personalizada.
- Seleccione el proyecto y vaya a Implementar modelo.
- Seleccione el punto de conexión necesario.
- Copie y guarde los valores de los siguientes campos:
- Service Region (Región del servicio) (la región del punto de conexión)
- Endpoint ID (Id. del punto de conexión)
Creación y envío de una solicitud de soporte técnico
Inicie el aumento del límite de solicitudes simultáneas para el recurso o, si es necesario, compruebe el límite actual enviando una solicitud de soporte técnico: A continuación se muestra cómo hacerlo:
- Asegúrese de que tiene la información necesaria enumerada en la sección anterior.
- Vaya a Azure Portal.
- Seleccione el recurso del servicio de voz para el que le gustaría aumentar (o comprobar) el límite de solicitudes simultáneas
- En el grupo Soporte técnico y solución de problemas, seleccione Nueva solicitud de soporte técnico. Aparece una nueva ventana con información rellenada automáticamente sobre la suscripción y el recurso de Azure.
- En Resumen, describa lo que desea (por ejemplo, "Aumentar el límite de solicitudes simultáneas de conversión de texto a voz").
- En Tipo de problema, seleccione Quota or Subscription issues (Problemas de cuota o suscripción).
- En Subtipo de problema, seleccione:
- Quota or concurrent requests increase (Aumento de cuota o solicitudes simultáneas) para aumentar las solicitudes.
- Quota or usage validation (Validación de cuota o uso) para comprobar el límite existente.
- En la pestaña Solución recomendada, seleccione Siguiente.
- En la pestaña Detalles adicionales, rellene todos los elementos necesarios. En el campo Detalles, escriba lo siguiente:
- Tenga en cuenta que la solicitud es sobre la cuota de conversión de texto a voz.
- Elija la voz precompilada o la voz personalizada.
- La información de recursos de Azure que recopiló anteriormente.
- Cualquier otra información necesaria.
- En la pestaña Revisar y crear, seleccione Crear.
- Anote el número de la solicitud de soporte técnico que aparece en las notificaciones de Azure Portal. En breve se pondrán en contacto contigo para obtener información sobre tu solicitud.
Avatar de texto a voz: aumento del límite de nuevas conexiones
Para aumentar el límite de nuevas conexiones por minuto para el avatar de texto a voz, póngase en contacto con su representante de ventas para crear un vale con la siguiente información:
- URI del recurso de voz
- Se solicitó una nueva limitación para aumentar a
- Justificación del aumento
- Fecha de inicio del aumento
- Fecha de finalización del aumento
- Avatar precompilado o avatar personalizado