Cotas e limites do serviço de Fala
Este artigo contém uma referência rápida e uma descrição detalhada das cotas e dos limites do serviço de Fala nos serviços de IA do Azure. As informações se aplicam a todos os tipos de preço do serviço. Ele também contém algumas práticas recomendadas para evitar a limitação de solicitações.
No tipo de preço Gratuito (F0), confira também concessões mensais na página de preços.
Referência de cotas e limites
As seções a seguir contêm um guia rápido para as cotas e os limites que se aplicam ao serviço Fala.
Para obter informações sobre cotas ajustáveis para recursos de Fala Standard (S0), confira mais explicações, melhores práticas e instruções de ajuste. As cotas e os limites para recursos gratuitos de Fala (F0) não são ajustáveis.
Importante
Se você alternar um recurso de Fala do tipo de preço Gratuito (F0) para Standard (S0), a alteração das cotas correspondentes poderá levar até várias horas.
Cotas e limites da conversão de fala em texto por recurso
Esta seção descreve cotas e limites de conversão de fala em texto por recurso de Fala. A menos que especificado de outra forma, os limites não são ajustáveis.
Conversão de fala em texto e tradução de fala em tempo real
Você pode usar a conversão de fala em texto em tempo real com o SDK de Fala ou a API REST de fala em texto para áudios curtos.
Importante
Esses limites se aplicam às solicitações simultâneas de conversão de fala em texto em tempo real e às solicitações de tradução de fala combinadas. Por exemplo, se você tiver 60 solicitações simultâneas de conversão de fala em texto e 40 solicitações simultâneas de tradução de fala, atingirá o limite de 100 solicitações simultâneas.
Quota | Gratuita (F0) | Standard (S0) |
---|---|---|
Limite de solicitações simultâneas – Ponto de extremidade do modelo base | 1 Esse limite não é ajustável. |
100 (valor padrão) A taxa é ajustável para recursos Standard (S0). Confira mais explicações, melhores práticas e instruções de ajuste. |
Limite de solicitações simultâneas – Ponto de extremidade personalizado | 1 Esse limite não é ajustável. |
100 (valor padrão) A taxa é ajustável para recursos Standard (S0). Confira mais explicações, melhores práticas e instruções de ajuste. |
Comprimento máximo de áudio para diarização em tempo real. | N/D | 240 minutos por arquivo |
Transcrição rápida
Quota | Gratuita (F0) | Standard (S0) |
---|---|---|
Tamanho máximo do arquivo de entrada do áudio | N/D | 200 MB |
Comprimento máximo de áudio | N/D | 120 minutos por arquivo |
Máximo de solicitações por minuto | N/A | 600 |
Transcrição de lote
Quota | Gratuita (F0) | Standard (S0) |
---|---|---|
Limite da API REST de reconhecimento de fala | Não disponível para F0 | 100 solicitações a cada 10 segundos (600 solicitações por minuto) |
Tamanho máximo do arquivo de entrada do áudio | N/D | 1 GB |
Número máximo de blobs por contêiner | N/D | 10000 |
Número máximo de arquivos por solicitação de transcrição (quando várias URLs de conteúdo são usadas como entrada). | N/D | 1000 |
Comprimento máximo de áudio para transcrições com diarização habilitada. | N/D | 240 minutos por arquivo |
Personalização de modelo
Os limites nessa tabela se aplicam por recurso de Fala ao criar um modelo de fala personalizado.
Quota | Gratuita (F0) | Standard (S0) |
---|---|---|
Limite da API REST | 100 solicitações a cada 10 segundos (600 solicitações por minuto) | 100 solicitações a cada 10 segundos (600 solicitações por minuto) |
Número máximo de conjuntos de dados de fala | 2 | 500 |
Tamanho máximo do arquivo do conjunto de dados acústicos para importação de dados | 2 GB | 2 GB |
Tamanho máximo do arquivo do conjunto de dados de linguagem para importação de dados | 200 MB | 1.5 GB |
Tamanho máximo do arquivo do conjunto de dados de pronunciação para importação de dados | 1 KB | 1 MB |
Tamanho máximo do texto quando o parâmetro text é usado na solicitação da API Models_Create |
200 KB | 500 KB |
Cotas e limites da conversão de texto em fala por recurso
Esta seção descreve cotas e limites de conversão de texto em fala por recurso de Fala.
Conversão de texto em tempo real em fala
Você pode usar texto em fala em tempo real com o SDK de Fala ou a API REST de Conversão de Texto em Fala. A menos que especificado de outra forma, os limites não são ajustáveis.
Quota | Gratuita (F0) | Standard (S0) |
---|---|---|
Número máximo de transações por período de tempo para vozes neurais predefinidas e vozes neurais personalizadas. | 20 transações por 60 segundos Esse limite não é ajustável. |
200 TPS (transações por segundo) (valor padrão) A taxa é ajustável até 1000 TPS para recursos Standard (S0). Confira mais explicações, melhores práticas e instruções de ajuste. |
Tamanho máximo do áudio produzido por solicitação | 10 min | 10 min |
Número máximo de marcas <voice> e <audio> distintas em SSML |
50 | 50 |
Tamanho máximo de mensagem SSML por vez para websocket | 64 KB | 64 KB |
Síntese em lotes
Esses limites não são ajustáveis. Para obter mais informações sobre a latência de síntese em lote, confira a latência de síntese em lote e as melhores práticas.
Quota | Gratuita (F0) | Standard (S0) |
---|---|---|
Limite da API REST | Não disponível para F0 | 100 solicitações por 10 segundos |
Tamanho máximo da carga JSON para criar um trabalho de síntese | N/D | 2 megabytes |
Trabalhos simultâneos de síntese ativa | N/D | Sem limite |
Número máximo de entradas de texto por trabalho de síntese | N/D | 10000 |
Tempo máximo de vida para um trabalho de síntese, pois ele está no estado final | N/D | Até 31 dias (especificado usando propriedades) |
Voz neural personalizada - Profissional
Os limites nesta tabela se aplicam por recurso de Fala quando você cria um modelo de voz neural personalizada profissional.
Quota | Gratuita (F0) | Standard (S0) |
---|---|---|
Número máximo de TPS (transações por segundo) | Não disponível para F0 | 200 TPS (transações por segundo) (valor padrão) |
Número máximo de conjuntos de dados | N/D | 500 |
Número máximo de uploads de conjunto de dados simultâneos | N/D | 5 |
Tamanho máximo do arquivo de dados para importação de dados por conjunto de dados | N/D | 2 GB |
Upload de áudio longo ou áudio sem script | N/D | Sim |
Número máximo de treinamentos de modelo simultâneos | N/D | 4 |
Número máximo de pontos de extremidade personalizados | N/D | 50 |
Voz neural personalizada - voz pessoal
Os limites nesta tabela se aplicam por recurso de Fala quando você cria uma voz pessoal.
Quota | Gratuita (F0) | Standard (S0) |
---|---|---|
Limite da API REST (sem incluir síntese de fala) | Não disponível para F0 | 50 solicitações por 10 segundos |
Número máximo de transações por segundo (TPS) por síntese de fala | Não disponível para F0 | 200 TPS (transações por segundo) (valor padrão) |
Avatar de conversão de texto em fala em lote
Quota | Gratuita (F0) | Standard (S0) |
---|---|---|
Limite da API REST | Não disponível para F0 | Duas solicitações por um minuto |
Texto em tempo real para avatar de fala
Quota | Gratuita (F0) | Standard (S0) |
---|---|---|
Novas conexões por minuto | Não disponível para F0 | 2 novas conexões por minuto |
Duração máxima da conexão com a fala | Não disponível para F0 | 20 minutos1 |
Duração máxima da conexão com o estado ocioso | Não disponível para F0 | 5 minutos |
1 Para garantir a operação contínua do avatar em tempo real por mais de 20 minutos, você pode ativar a reconexão automática. Para obter informações sobre como configurar a reconexão automática, consulte esse código de exemplo (pesquise "reconexão automática").
Ferramenta de Criação de Conteúdo de Áudio
Quota | Gratuita (F0) | Standard (S0) |
---|---|---|
Tamanho do arquivo (texto sem formatação no SSML)1 | 3.000 caracteres por arquivo | 20.000 caracteres por arquivo |
Tamanho do arquivo (arquivo léxico)2 | 30 KB por arquivo | 100 KB por arquivo |
Caracteres faturáveis no SSML | 15.000 caracteres por arquivo | 100.000 caracteres por arquivo |
Exportar para a Biblioteca de Áudio | 1 tarefa simultânea | N/D |
1 O limite só se aplica ao texto sem formatação no SSML e não inclui marcas.
2 Os caracteres do arquivo léxico não são cobrados. Somente os elementos léxico no SSML são contados como caracteres faturáveis. Consulte caracteres faturáveis para saber mais.
Cotas e limites de reconhecimento do locutor por recurso
O reconhecimento do locutor é limitado a 20 TPS (transações por segundo).
Descrição detalhada, ajuste de cota e melhores práticas
Algumas das cotas do serviço Fala são ajustáveis. Esta seção fornece mais explicações, melhores práticas e instruções de ajuste.
As cotas a seguir são ajustáveis para recursos Standard (S0). Os limites de solicitação gratuitos (F0) não são ajustáveis.
- Limite de solicitação simultânea de conversão de fala em texto para ponto de extremidade de modelo base e ponto de extremidade personalizado
- Número máximo de transações por período de conversão de texto em fala para vozes neurais predefinidas e vozes neurais personalizadas
- Limite de solicitações simultâneas de tradução de fala
Antes de solicitar um aumento de cota (quando aplicável), verifique seu TPS (transações por segundo) atual e certifique-se de que é necessário aumentar a cota. O serviço de Fala usa tecnologias de dimensionamento automático para trazer os recursos computacionais necessários no modo sob demanda. Ao mesmo tempo, o serviço de Fala tenta manter os custos baixos sem manter uma quantidade excessiva de capacidade de hardware.
Vamos examinar um exemplo. Suponha que o seu aplicativo receba o código de resposta 429, que indica que há um excesso de solicitações. O aplicativo recebe essa resposta, embora sua carga de trabalho esteja dentro dos limites definidos pela Referência de cotas e limites. A explicação mais provável é que o serviço de Fala está aumentando a escala para sua demanda e não alcançou a escala necessária ainda. Portanto, o serviço não tem imediatamente recursos suficientes para atender à solicitação. Nesses casos, aumentar a cota não ajudará. Na maioria dos casos, o serviço de Fala escalará verticalmente em breve e o problema que causa o código de resposta 429 será resolvido.
Práticas recomendadas gerais para mitigar a limitação durante o dimensionamento automático
Para minimizar problemas relacionados à limitação, é uma boa ideia usar as seguintes técnicas:
- Implemente a lógica de repetição no seu aplicativo.
- Evite alterações bruscas na carga de trabalho. Aumente a carga de trabalho gradualmente. Por exemplo, suponha que o seu aplicativo esteja usando a conversão de texto em fala e a carga de trabalho atual seja de 5 TPS. No próximo segundo, você aumenta a carga para 20 TPS (ou seja, quatro vezes mais). O serviço de Fala começa imediatamente a aumentar a escala para atender à nova carga, mas não pode aumentá-la conforme necessário no tempo de um segundo. Algumas das solicitações geram o código de resposta 429 (excesso de solicitações).
- Teste padrões distintos de aumento de carga. Para saber mais, confira o exemplo de padrão de carga de trabalho.
- Crie mais recursos do serviço de Fala em regiões diferentes e distribua a carga de trabalho entre eles. (A criação de vários recursos do serviço de Fala na mesma região não afetará o desempenho, pois todos os recursos são atendidos pelo mesmo cluster de back-end).
As seções a seguir descrevem casos específicos de ajuste de cotas.
Conversão de fala em texto: aumentar o limite de solicitação simultânea de conversão de fala em texto em tempo real
Por padrão, o número de solicitações combinadas simultâneas de conversão de fala em texto e tradução de fala é limitado a 100 por recurso no modelo básico e 100 por ponto de extremidade personalizado no modelo personalizado. Para o tipo de preço Standard, você pode aumentar esse valor. Antes de enviar a solicitação, verifique se você está familiarizado com o material já abordado neste artigo, como as melhores práticas para mitigar a limitação.
Observação
Os limites de solicitações simultâneas nos modelos base e personalizados precisam ser ajustados separadamente. Você pode ter um recurso do serviço Fala associado a vários pontos de extremidade personalizados que hospedam várias implantações de modelo personalizadas. Conforme o necessário, os ajustes de limite por ponto de extremidade personalizado precisam ser solicitados separadamente.
O aumento do limite de solicitações simultâneas não afeta diretamente os custos. O serviço Fala usa um modelo de pagamento em que você paga apenas pelo que usa. O limite define até que ponto o serviço pode ser escalado antes de começar a limitar as solicitações.
Não é possível ver o valor existente do parâmetro de limite de solicitações simultâneas no portal do Azure, nas ferramentas de linha de comando nem nas solicitações de API. Para verificar o valor existente, crie uma solicitação de suporte do Azure.
Observação
Os contêineres de Fala não exigem aumentos do limite de solicitações simultâneas, pois são restritos apenas pelas CPUs do hardware em que estão hospedados. No entanto, os contêineres de Fala têm limitações próprias de capacidade que devem ser levadas em consideração. Para saber mais, confira as perguntas frequentes sobre os contêineres de Fala.
Tenha as informações necessárias em mãos
- Para o modelo base:
- ID do recurso de Fala
- Region
- Para o modelo personalizado:
- Region
- ID do ponto de extremidade personalizado
Como obter informações do modelo base:
- Acesse o portal do Azure.
- Selecione o recurso do serviço de Fala para o qual deseja aumentar o limite de solicitações de simultaneidade.
- No grupo Gerenciamento de Recursos, selecione Propriedades.
- Copie e salve os valores dos seguintes campos:
- ID de Recurso
- Localização (região do ponto de extremidade)
Como obter informações do modelo personalizado:
- Acesse o portal do Speech Studio.
- Entre nele, se necessário, e acesse Fala personalizada.
- Selecione seu projeto e acesse Implantação.
- Escolha o ponto de extremidade necessário.
- Copie e salve os valores dos seguintes campos:
- Região de Serviço (a região do ponto de extremidade)
- ID do Ponto de Extremidade
Criar e enviar uma solicitação de suporte
Inicie o aumento do limite de solicitações simultâneas para o recurso ou, se necessário, verifique o limite atual enviando uma solicitação de suporte. Aqui está como:
- Verifique se você tem as informações necessárias listadas na seção anterior.
- Acesse o portal do Azure.
- Selecione o recurso do serviço de Fala para o qual deseja aumentar (ou verificar) o limite de solicitações de simultaneidade.
- No grupo Suporte + solução de problemas, selecione Nova solicitação de suporte. Uma nova janela é exibida, com informações preenchidas automaticamente sobre sua assinatura do Azure e recurso do Azure.
- Em Resumo, descreva o que deseja (por exemplo, "Aumentar o limite de solicitações de simultaneidade da conversão de fala em texto").
- Em Tipo de problema, selecione Problemas de Cota ou Assinatura.
- Em Subtipo de problema, escolha:
- Aumento de cotas ou de solicitações simultâneas para uma solicitação de aumento.
- Validação de uso ou cota para verificar o limite existente.
- Selecione Avançar: Soluções. Prossiga com a criação da solicitação.
- Na guia Detalhes, no campo Descrição, insira o seguinte:
- Uma observação informando que a solicitação se refere à cota da conversão de fala em texto.
- Escolha o modelo base ou personalizado.
- Informações do recurso do Azure coletadas anteriormente.
- Todas as outras informações necessárias.
- Na guia Revisar + criar, selecione Criar.
- Observe o número da solicitação de suporte nas notificações do portal do Azure. Você será contatado em breve sobre sua solicitação.
Exemplo de uma melhor prática de padrão de carga de trabalho
Veja um exemplo geral de uma boa abordagem a ser adotada. Ela só serve como um modelo que você pode ajustar conforme necessário para uso próprio.
Suponha que um recurso do serviço de Fala tenha o limite de solicitações simultâneas definido como 300. Inicie a carga de trabalho com 20 conexões simultâneas e aumente a carga em 20 conexões simultâneas a cada 90-120 minutos. Controle as respostas do serviço e implemente a lógica que ele retornará (reduz a carga) se você obtiver um excesso de solicitações (código de resposta 429). Em seguida, tente novamente o aumento de carga em um minuto e, se ele ainda não funcionar, tente novamente em dois minutos. Use um padrão de 1-2-4-4 minutos para os intervalos.
Em geral, é uma boa ideia testar a carga de trabalho e os padrões de carga de trabalho antes de ir para a produção.
Conversão de texto em fala: aumentar o limite de solicitação simultânea
Para o tipo de preço Standard, você pode aumentar esse valor. Antes de enviar a solicitação, verifique se você está familiarizado com o material já abordado neste artigo, como as melhores práticas para mitigar a limitação.
O aumento do limite de solicitações simultâneas não afeta diretamente os custos. O serviço de Fala usa um modelo de pagamento que exige que você pague apenas pelo que usar. O limite define até que ponto o serviço pode ser escalado antes de começar a limitar as solicitações.
Não é possível ver o valor existente do parâmetro de limite de solicitações simultâneas no portal do Azure, nas ferramentas de linha de comando nem nas solicitações de API. Para verificar o valor existente, crie uma solicitação de suporte do Azure.
Observação
Os contêineres de Fala não exigem aumentos do limite de solicitações simultâneas, pois são restritos apenas pelas CPUs do hardware em que estão hospedados.
Preparar as informações necessárias
Para criar uma solicitação de aumento, você precisa fornecer suas informações.
- Para a voz predefinida:
- ID do recurso de Fala
- Region
- Para a voz personalizada:
- Resultados da implantação
- ID do ponto de extremidade personalizado
Como obter informações para a voz predefinida:
- Acesse o portal do Azure.
- Selecione o recurso do serviço de Fala para o qual deseja aumentar o limite de solicitações de simultaneidade.
- No grupo Gerenciamento de Recursos, selecione Propriedades.
- Copie e salve os valores dos seguintes campos:
- ID de Recurso
- Localização (região do ponto de extremidade)
Como obter informações para a voz personalizada:
- Acesse o portal do Speech Studio.
- Entre nele, se necessário, e acesse Voz personalizada.
- Selecione o seu projeto e acesse Implantar modelo.
- Escolha o ponto de extremidade necessário.
- Copie e salve os valores dos seguintes campos:
- Região de Serviço (a região do ponto de extremidade)
- ID do Ponto de Extremidade
Criar e enviar uma solicitação de suporte
Inicie o aumento do limite de solicitações simultâneas para o recurso ou, se necessário, verifique o limite atual enviando uma solicitação de suporte. Aqui está como:
- Verifique se você tem as informações necessárias listadas na seção anterior.
- Acesse o portal do Azure.
- Selecione o recurso do serviço de Fala para o qual deseja aumentar (ou verificar) o limite de solicitações de simultaneidade.
- No grupo Suporte + solução de problemas, selecione Nova solicitação de suporte. Uma nova janela é exibida, com informações preenchidas automaticamente sobre sua assinatura do Azure e recurso do Azure.
- Em Resumo, descreva o que deseja (por exemplo, "Aumentar o limite de solicitações de simultaneidade da conversão de texto em fala").
- Em Tipo de problema, selecione Problemas de Cota ou Assinatura.
- Em Subtipo de problema, escolha:
- Aumento de cotas ou de solicitações simultâneas para uma solicitação de aumento.
- Validação de uso ou cota para verificar o limite existente.
- Na guia Solução recomendada, selecione Avançar.
- Na guia Detalhes adicionais, preencha todos os itens necessários. E no campo Detalhes, insira o seguinte:
- Uma observação informando que a solicitação se refere à cota da conversão de texto em fala.
- Escolha a voz predefinida ou a voz personalizada.
- Informações do recurso do Azure coletadas anteriormente.
- Todas as outras informações necessárias.
- Na guia Revisar + criar, selecione Criar.
- Observe o número da solicitação de suporte nas notificações do portal do Azure. Você será contatado em breve sobre sua solicitação.
Avatar de texto para fala: aumentar o limite de novas conexões
Para aumentar o limite de novas conexões por minuto para o avatar de texto para fala, entre em contato com seu representante de vendas para criar um tíquete com as seguintes informações:
- URI do recurso de fala
- Nova limitação solicitada para aumentar para
- Justificativa para o aumento
- Data de início do aumento
- Data de término do aumento
- Avatar predefinido ou avatar personalizado