Cotas e limites do serviço de Fala

Artigo
09/24/2024

Este artigo contém uma referência rápida e uma descrição detalhada das cotas e dos limites do serviço de Fala nos serviços de IA do Azure. As informações se aplicam a todos os tipos de preço do serviço. Ele também contém algumas práticas recomendadas para evitar a limitação de solicitações.

No tipo de preço Gratuito (F0), confira também concessões mensais na página de preços.

Referência de cotas e limites

As seções a seguir contêm um guia rápido para as cotas e os limites que se aplicam ao serviço Fala.

Para obter informações sobre cotas ajustáveis para recursos de Fala Standard (S0), confira mais explicações, melhores práticas e instruções de ajuste. As cotas e os limites para recursos gratuitos de Fala (F0) não são ajustáveis.

Importante

Se você mudar um recurso dos Serviços de IA para Fala do tipo de preço Grátis (F0) para Standard (S0), a alteração das cotas correspondentes poderá levar várias horas.

Cotas e limites da conversão de fala em texto por recurso

Esta seção descreve cotas e limites de conversão de fala em texto por recurso de Fala. A menos que especificado de outra forma, os limites não são ajustáveis.

Conversão de fala em texto e tradução de fala em tempo real

Você pode usar a conversão de fala em texto em tempo real com o SDK de Fala ou a API REST de fala em texto para áudios curtos.

Importante

Esses limites se aplicam às solicitações simultâneas de conversão de fala em texto em tempo real e às solicitações de tradução de fala combinadas. Por exemplo, se você tiver 60 solicitações simultâneas de conversão de fala em texto e 40 solicitações simultâneas de tradução de fala, atingirá o limite de 100 solicitações simultâneas.

Quota	Gratuita (F0)	Standard (S0)
Limite de solicitações simultâneas – Ponto de extremidade do modelo base	1 Esse limite não é ajustável.	100 (valor padrão) A taxa é ajustável para recursos Standard (S0). Confira mais explicações, melhores práticas e instruções de ajuste.
Limite de solicitações simultâneas – Ponto de extremidade personalizado	1 Esse limite não é ajustável.	100 (valor padrão) A taxa é ajustável para recursos Standard (S0). Confira mais explicações, melhores práticas e instruções de ajuste.
Comprimento máximo de áudio para diarização em tempo real.	N/D	240 minutos por arquivo

Transcrição rápida

Quota	Gratuita (F0)	Standard (S0)
Tamanho máximo do arquivo de entrada do áudio	N/D	200 MB
Comprimento máximo de áudio	N/D	120 minutos por arquivo
Máximo de solicitações por minuto	N/A	600

Transcrição de lote

Quota	Gratuita (F0)	Standard (S0)
Limite da API REST de reconhecimento de fala	Não disponível para F0	100 solicitações a cada 10 segundos (600 solicitações por minuto)
Tamanho máximo do arquivo de entrada do áudio	N/D	1 GB
Número máximo de blobs por contêiner	N/D	10000
Número máximo de arquivos por solicitação de transcrição (quando várias URLs de conteúdo são usadas como entrada).	N/D	1000
Comprimento máximo de áudio para transcrições com diarização habilitada.	N/D	240 minutos por arquivo

Personalização de modelo

Os limites nessa tabela se aplicam por recurso de Fala ao criar um modelo de fala personalizado.

Quota	Gratuita (F0)	Standard (S0)
Limite da API REST	100 solicitações a cada 10 segundos (600 solicitações por minuto)	100 solicitações a cada 10 segundos (600 solicitações por minuto)
Número máximo de implantações de modelo personalizado por recurso de Fala	1	50
Número máximo de conjuntos de dados de fala	2	500
Tamanho máximo do arquivo do conjunto de dados acústicos para importação de dados	2 GB	2 GB
Tamanho máximo do arquivo do conjunto de dados de linguagem para importação de dados	200 MB	1.5 GB
Tamanho máximo do arquivo do conjunto de dados de pronunciação para importação de dados	1 KB	1 MB
Tamanho máximo do texto quando o parâmetro `text` é usado na solicitação da API Models_Create	200 KB	500 KB

Cotas e limites da conversão de texto em fala por recurso

Esta seção descreve cotas e limites de conversão de texto em fala por recurso de Fala.

Conversão de texto em tempo real em fala

Você pode usar texto em fala em tempo real com o SDK de Fala ou a API REST de Conversão de Texto em Fala. A menos que especificado de outra forma, os limites não são ajustáveis.

Quota	Gratuita (F0)	Standard (S0)
Número máximo de transações por período de tempo para vozes neurais predefinidas e vozes neurais personalizadas.	20 transações por 60 segundos Esse limite não é ajustável.	200 TPS (transações por segundo) (valor padrão) A taxa é ajustável até 1000 TPS para recursos Standard (S0). Confira mais explicações, melhores práticas e instruções de ajuste.
Tamanho máximo do áudio produzido por solicitação	10 min	10 min
Número máximo de marcas `<voice>` e `<audio>` distintas em SSML	50	50
Tamanho máximo de mensagem SSML por vez para websocket	64 KB	64 KB

Síntese em lotes

Esses limites não são ajustáveis. Para obter mais informações sobre a latência de síntese em lote, confira a latência de síntese em lote e as melhores práticas.

Quota	Gratuita (F0)	Standard (S0)
Limite da API REST	Não disponível para F0	100 solicitações por 10 segundos
Tamanho máximo da carga JSON para criar um trabalho de síntese	N/D	2 megabytes
Trabalhos simultâneos de síntese ativa	N/D	Sem limite
Número máximo de entradas de texto por trabalho de síntese	N/D	10000
Tempo máximo de vida para um trabalho de síntese, pois ele está no estado final	N/D	Até 31 dias (especificado usando propriedades)

Voz neural personalizada - Profissional

Os limites nesta tabela se aplicam por recurso de Fala quando você cria um modelo de voz neural personalizada profissional.

Quota	Gratuita (F0)	Standard (S0)
Número máximo de TPS (transações por segundo)	Não disponível para F0	200 TPS (transações por segundo) (valor padrão)
Número máximo de conjuntos de dados	N/D	500
Número máximo de uploads de conjunto de dados simultâneos	N/D	5
Tamanho máximo do arquivo de dados para importação de dados por conjunto de dados	N/D	2 GB
Upload de áudio longo ou áudio sem script	N/D	Sim
Número máximo de treinamentos de modelo simultâneos	N/D	4
Número máximo de pontos de extremidade personalizados	N/D	50

Voz neural personalizada - voz pessoal

Os limites nesta tabela se aplicam por recurso de Fala quando você cria uma voz pessoal.

Quota	Gratuita (F0)	Standard (S0)
Limite da API REST (sem incluir síntese de fala)	Não disponível para F0	50 solicitações por 10 segundos
Número máximo de transações por segundo (TPS) por síntese de fala	Não disponível para F0	200 TPS (transações por segundo) (valor padrão)

Avatar de conversão de texto em fala em lote

Quota	Gratuita (F0)	Standard (S0)
Limite da API REST	Não disponível para F0	Duas solicitações por um minuto

Texto em tempo real para avatar de fala

Quota	Gratuita (F0)	Standard (S0)
Novas conexões por minuto	Não disponível para F0	2 novas conexões por minuto
Duração máxima da conexão com a fala	Não disponível para F0	30 minutos¹
Duração máxima da conexão com o estado ocioso	Não disponível para F0	5 minutos

¹ Para garantir a operação contínua do avatar em tempo real por mais de 30 minutos, você pode ativar a reconexão automática. Para obter informações sobre como configurar a reconexão automática, consulte esse código de exemplo (pesquise "reconexão automática").

Ferramenta de Criação de Conteúdo de Áudio

Quota	Gratuita (F0)	Standard (S0)
Tamanho do arquivo (texto sem formatação no SSML)¹	3.000 caracteres por arquivo	20.000 caracteres por arquivo
Tamanho do arquivo (arquivo léxico)²	30 KB por arquivo	100 KB por arquivo
Caracteres faturáveis no SSML	15.000 caracteres por arquivo	100.000 caracteres por arquivo
Exportar para a Biblioteca de Áudio	1 tarefa simultânea	N/D

¹ O limite só se aplica ao texto sem formatação no SSML e não inclui marcas.

² Os caracteres do arquivo léxico não são cobrados. Somente os elementos léxico no SSML são contados como caracteres faturáveis. Consulte caracteres faturáveis para saber mais.

Cotas e limites de reconhecimento do locutor por recurso

O reconhecimento do locutor é limitado a 20 TPS (transações por segundo).

Descrição detalhada, ajuste de cota e melhores práticas

Algumas das cotas do serviço Fala são ajustáveis. Esta seção fornece mais explicações, melhores práticas e instruções de ajuste.

As cotas a seguir são ajustáveis para recursos Standard (S0). Os limites de solicitação gratuitos (F0) não são ajustáveis.

Limite de solicitação simultânea de conversão de fala em texto para ponto de extremidade de modelo base e ponto de extremidade personalizado
Número máximo de transações por período de conversão de texto em fala para vozes neurais predefinidas e vozes neurais personalizadas
Limite de solicitações simultâneas de tradução de fala

Antes de solicitar um aumento de cota (quando aplicável), verifique seu TPS (transações por segundo) atual e certifique-se de que é necessário aumentar a cota. O serviço de Fala usa tecnologias de dimensionamento automático para trazer os recursos computacionais necessários no modo sob demanda. Ao mesmo tempo, o serviço de Fala tenta manter os custos baixos sem manter uma quantidade excessiva de capacidade de hardware.

Vamos examinar um exemplo. Suponha que o seu aplicativo receba o código de resposta 429, que indica que há um excesso de solicitações. O aplicativo recebe essa resposta, embora sua carga de trabalho esteja dentro dos limites definidos pela Referência de cotas e limites. A explicação mais provável é que o serviço de Fala está aumentando a escala para sua demanda e não alcançou a escala necessária ainda. Portanto, o serviço não tem imediatamente recursos suficientes para atender à solicitação. Nesses casos, aumentar a cota não ajudará. Na maioria dos casos, o serviço de Fala escalará verticalmente em breve e o problema que causa o código de resposta 429 será resolvido.

Práticas recomendadas gerais para mitigar a limitação durante o dimensionamento automático

Para minimizar problemas relacionados à limitação, é uma boa ideia usar as seguintes técnicas:

Implemente a lógica de repetição no seu aplicativo.
Evite alterações bruscas na carga de trabalho. Aumente a carga de trabalho gradualmente. Por exemplo, suponha que o seu aplicativo esteja usando a conversão de texto em fala e a carga de trabalho atual seja de 5 TPS. No próximo segundo, você aumenta a carga para 20 TPS (ou seja, quatro vezes mais). O serviço de Fala começa imediatamente a aumentar a escala para atender à nova carga, mas não pode aumentá-la conforme necessário no tempo de um segundo. Algumas das solicitações geram o código de resposta 429 (excesso de solicitações).
Teste padrões distintos de aumento de carga. Para saber mais, confira o exemplo de padrão de carga de trabalho.
Crie mais recursos do serviço de Fala em regiões diferentes e distribua a carga de trabalho entre eles. (A criação de vários recursos do serviço de Fala na mesma região não afetará o desempenho, pois todos os recursos são atendidos pelo mesmo cluster de back-end).

As seções a seguir descrevem casos específicos de ajuste de cotas.

Conversão de fala em texto: aumentar o limite de solicitação simultânea de conversão de fala em texto em tempo real

Por padrão, o número de solicitações combinadas simultâneas de conversão de fala em texto e tradução de fala é limitado a 100 por recurso no modelo básico e 100 por ponto de extremidade personalizado no modelo personalizado. Para o tipo de preço Standard, você pode aumentar esse valor. Antes de enviar a solicitação, verifique se você está familiarizado com o material já abordado neste artigo, como as melhores práticas para mitigar a limitação.

Observação

Os limites de solicitações simultâneas nos modelos base e personalizados precisam ser ajustados separadamente. Você pode ter um recurso do serviço Fala associado a vários pontos de extremidade personalizados que hospedam várias implantações de modelo personalizadas. Conforme o necessário, os ajustes de limite por ponto de extremidade personalizado precisam ser solicitados separadamente.

O aumento do limite de solicitações simultâneas não afeta diretamente os custos. O serviço Fala usa um modelo de pagamento em que você paga apenas pelo que usa. O limite define até que ponto o serviço pode ser escalado antes de começar a limitar as solicitações.

Não é possível ver o valor existente do parâmetro de limite de solicitações simultâneas no portal do Azure, nas ferramentas de linha de comando nem nas solicitações de API. Para verificar o valor existente, crie uma solicitação de suporte do Azure.

Observação

Os contêineres de Fala não exigem aumentos do limite de solicitações simultâneas, pois são restritos apenas pelas CPUs do hardware em que estão hospedados. No entanto, os contêineres de Fala têm limitações próprias de capacidade que devem ser levadas em consideração. Para saber mais, confira as perguntas frequentes sobre os contêineres de Fala.

Tenha as informações necessárias em mãos

Para o modelo base:
- ID do recurso de Fala
- Region
Para o modelo personalizado:
- Region
- ID do ponto de extremidade personalizado

Como obter informações do modelo base:

Acesse o portal do Azure.
Selecione o recurso do serviço de Fala para o qual deseja aumentar o limite de solicitações de simultaneidade.
No grupo Gerenciamento de Recursos, selecione Propriedades.
Copie e salve os valores dos seguintes campos:
- ID de Recurso
- Localização (região do ponto de extremidade)

Como obter informações do modelo personalizado:

Acesse o portal do Speech Studio.
Entre nele, se necessário, e acesse Fala personalizada.
Selecione seu projeto e acesse Implantação.
Escolha o ponto de extremidade necessário.
Copie e salve os valores dos seguintes campos:
- Região de Serviço (a região do ponto de extremidade)
- ID do Ponto de Extremidade

Criar e enviar uma solicitação de suporte

Inicie o aumento do limite de solicitações simultâneas para o recurso ou, se necessário, verifique o limite atual enviando uma solicitação de suporte. Aqui está como:

Verifique se você tem as informações necessárias listadas na seção anterior.
Acesse o portal do Azure.
Selecione o recurso do serviço de Fala para o qual deseja aumentar (ou verificar) o limite de solicitações de simultaneidade.
No grupo Suporte + solução de problemas, selecione Nova solicitação de suporte. Uma nova janela é exibida, com informações preenchidas automaticamente sobre sua assinatura do Azure e recurso do Azure.
Em Resumo, descreva o que deseja (por exemplo, "Aumentar o limite de solicitações de simultaneidade da conversão de fala em texto").
Em Tipo de problema, selecione Problemas de Cota ou Assinatura.
Em Subtipo de problema, escolha:
- Aumento de cotas ou de solicitações simultâneas para uma solicitação de aumento.
- Validação de uso ou cota para verificar o limite existente.
Selecione Avançar: Soluções. Prossiga com a criação da solicitação.
Na guia Detalhes, no campo Descrição, insira o seguinte:
- Uma observação informando que a solicitação se refere à cota da conversão de fala em texto.
- Escolha o modelo base ou personalizado.
- Informações do recurso do Azure coletadas anteriormente.
- Todas as outras informações necessárias.
Na guia Revisar + criar, selecione Criar.
Observe o número da solicitação de suporte nas notificações do portal do Azure. Você será contatado em breve sobre sua solicitação.

Exemplo de uma melhor prática de padrão de carga de trabalho

Veja um exemplo geral de uma boa abordagem a ser adotada. Ela só serve como um modelo que você pode ajustar conforme necessário para uso próprio.

Suponha que um recurso do serviço de Fala tenha o limite de solicitações simultâneas definido como 300. Inicie a carga de trabalho com 20 conexões simultâneas e aumente a carga em 20 conexões simultâneas a cada 90-120 minutos. Controle as respostas do serviço e implemente a lógica que ele retornará (reduz a carga) se você obtiver um excesso de solicitações (código de resposta 429). Em seguida, tente novamente o aumento de carga em um minuto e, se ele ainda não funcionar, tente novamente em dois minutos. Use um padrão de 1-2-4-4 minutos para os intervalos.

Em geral, é uma boa ideia testar a carga de trabalho e os padrões de carga de trabalho antes de ir para a produção.

Conversão de texto em fala: aumentar o limite de solicitação simultânea

Para o tipo de preço Standard, você pode aumentar esse valor. Antes de enviar a solicitação, verifique se você está familiarizado com o material já abordado neste artigo, como as melhores práticas para mitigar a limitação.

O aumento do limite de solicitações simultâneas não afeta diretamente os custos. O serviço de Fala usa um modelo de pagamento que exige que você pague apenas pelo que usar. O limite define até que ponto o serviço pode ser escalado antes de começar a limitar as solicitações.

Observação

Os contêineres de Fala não exigem aumentos do limite de solicitações simultâneas, pois são restritos apenas pelas CPUs do hardware em que estão hospedados.

Preparar as informações necessárias

Para criar uma solicitação de aumento, você precisa fornecer suas informações.

Para a voz predefinida:
- ID do recurso de Fala
- Region
Para a voz personalizada:
- Resultados da implantação
- ID do ponto de extremidade personalizado

Como obter informações para a voz predefinida:

Acesse o portal do Azure.
Selecione o recurso do serviço de Fala para o qual deseja aumentar o limite de solicitações de simultaneidade.
No grupo Gerenciamento de Recursos, selecione Propriedades.
Copie e salve os valores dos seguintes campos:
- ID de Recurso
- Localização (região do ponto de extremidade)

Como obter informações para a voz personalizada:

Acesse o portal do Speech Studio.
Entre nele, se necessário, e acesse Voz personalizada.
Selecione o seu projeto e acesse Implantar modelo.
Escolha o ponto de extremidade necessário.
Copie e salve os valores dos seguintes campos:
- Região de Serviço (a região do ponto de extremidade)
- ID do Ponto de Extremidade

Criar e enviar uma solicitação de suporte

Inicie o aumento do limite de solicitações simultâneas para o recurso ou, se necessário, verifique o limite atual enviando uma solicitação de suporte. Aqui está como:

Verifique se você tem as informações necessárias listadas na seção anterior.
Acesse o portal do Azure.
Selecione o recurso do serviço de Fala para o qual deseja aumentar (ou verificar) o limite de solicitações de simultaneidade.
No grupo Suporte + solução de problemas, selecione Nova solicitação de suporte. Uma nova janela é exibida, com informações preenchidas automaticamente sobre sua assinatura do Azure e recurso do Azure.
Em Resumo, descreva o que deseja (por exemplo, "Aumentar o limite de solicitações de simultaneidade da conversão de texto em fala").
Em Tipo de problema, selecione Problemas de Cota ou Assinatura.
Em Subtipo de problema, escolha:
- Aumento de cotas ou de solicitações simultâneas para uma solicitação de aumento.
- Validação de uso ou cota para verificar o limite existente.
Na guia Solução recomendada, selecione Avançar.
Na guia Detalhes adicionais, preencha todos os itens necessários. E no campo Detalhes, insira o seguinte:
- Uma observação informando que a solicitação se refere à cota da conversão de texto em fala.
- Escolha a voz predefinida ou a voz personalizada.
- Informações do recurso do Azure coletadas anteriormente.
- Todas as outras informações necessárias.
Na guia Revisar + criar, selecione Criar.
Observe o número da solicitação de suporte nas notificações do portal do Azure. Você será contatado em breve sobre sua solicitação.

Avatar de texto para fala: aumentar o limite de novas conexões

Para aumentar o limite de novas conexões por minuto para o avatar de texto para fala, entre em contato com seu representante de vendas para criar um tíquete com as seguintes informações:

URI do recurso de fala
Nova limitação solicitada para aumentar para
Justificativa para o aumento
Data de início do aumento
Data de término do aumento
Avatar predefinido ou avatar personalizado

Compartilhar via

Cotas e limites do serviço de Fala

Referência de cotas e limites

Cotas e limites da conversão de fala em texto por recurso

Conversão de fala em texto e tradução de fala em tempo real

Transcrição rápida

Transcrição de lote

Personalização de modelo

Cotas e limites da conversão de texto em fala por recurso

Conversão de texto em tempo real em fala

Síntese em lotes

Voz neural personalizada - Profissional

Voz neural personalizada - voz pessoal

Avatar de conversão de texto em fala em lote

Texto em tempo real para avatar de fala

Ferramenta de Criação de Conteúdo de Áudio

Cotas e limites de reconhecimento do locutor por recurso

Descrição detalhada, ajuste de cota e melhores práticas

Práticas recomendadas gerais para mitigar a limitação durante o dimensionamento automático

Conversão de fala em texto: aumentar o limite de solicitação simultânea de conversão de fala em texto em tempo real

Tenha as informações necessárias em mãos

Criar e enviar uma solicitação de suporte

Exemplo de uma melhor prática de padrão de carga de trabalho

Conversão de texto em fala: aumentar o limite de solicitação simultânea

Preparar as informações necessárias

Criar e enviar uma solicitação de suporte

Avatar de texto para fala: aumentar o limite de novas conexões

Comentários

Recursos adicionais