Cotas e limites do serviço de fala

Artigo
09/24/2024

Este artigo contém uma referência rápida e uma descrição detalhada das cotas e limites para o serviço de Fala nos serviços de IA do Azure. As informações aplicam-se a todos os níveis de preços do serviço. Ele também contém algumas práticas recomendadas para evitar a limitação de solicitações.

Para o nível de preço gratuito (F0), consulte também os subsídios mensais na página de preços.

Referência a quotas e limites

As seções a seguir fornecem um guia rápido para as cotas e limites que se aplicam ao serviço de Fala.

Para obter informações sobre cotas ajustáveis para recursos de fala padrão (S0), consulte mais explicações, práticas recomendadas e instruções de ajuste. As cotas e limites para recursos de Fala Livre (F0) não são ajustáveis.

Importante

Se você alternar um recurso de fala do nível de preço Livre (F0) para Padrão (S0), a alteração das cotas correspondentes pode levar até várias horas.

Cotas e limites de fala para texto por recurso

Esta seção descreve cotas e limites de fala para texto por recurso de fala. A menos que especificado de outra forma, os limites não são ajustáveis.

Conversão de fala em texto e fala em tempo real

Você pode usar fala em tempo real para texto com o SDK de fala ou a API REST de fala para texto para áudio curto.

Importante

Esses limites se aplicam a solicitações simultâneas de fala em tempo real para texto e solicitações de tradução de fala combinadas. Por exemplo, se você tiver 60 solicitações simultâneas de fala para texto e 40 solicitações simultâneas de tradução de fala, atingirá o limite de 100 solicitações simultâneas.

Quota	Grátis (F0)	Padrão (S0)
Limite de solicitação simultânea - ponto de extremidade do modelo base	1 Este limite não é ajustável.	100 (valor padrão) A taxa é ajustável para recursos Standard (S0). Veja mais explicações, práticas recomendadas e instruções de ajuste.
Limite de solicitações simultâneas - ponto de extremidade personalizado	1 Este limite não é ajustável.	100 (valor padrão) A taxa é ajustável para recursos Standard (S0). Veja mais explicações, práticas recomendadas e instruções de ajuste.
Duração máxima do áudio para diarização em tempo real.	N/A	240 minutos por ficheiro

Transcrição rápida

Quota	Grátis (F0)	Padrão (S0)
Tamanho máximo do ficheiro de entrada de áudio	N/A	200 MB
Duração máxima do áudio	N/A	120 minutos por ficheiro
Máximo de pedidos por minuto	N/A	600

Transcrição em lotes

Quota	Grátis (F0)	Padrão (S0)
Limite da API REST de fala para texto	Não disponível para F0	100 pedidos por 10 segundos (600 pedidos por minuto)
Tamanho máximo do arquivo de entrada de áudio	N/D	1 GB
Número máximo de blobs por contêiner	N/A	10000
Número máximo de arquivos por solicitação de transcrição (quando você estiver usando vários URLs de conteúdo como entrada).	N/A	1000
Duração máxima do áudio para transcrições com diarização ativada.	N/A	240 minutos por ficheiro

Personalização do modelo

Os limites nesta tabela aplicam-se por recurso de Fala quando você cria um modelo de fala personalizado.

Quota	Grátis (F0)	Padrão (S0)
Limite da API REST	100 pedidos por 10 segundos (600 pedidos por minuto)	100 pedidos por 10 segundos (600 pedidos por minuto)
Número máximo de implantações de modelo personalizado por recurso de fala	1	50
Número máximo de conjuntos de dados de fala	2	500
Tamanho máximo do arquivo do conjunto de dados acústico para importação de dados	2 GB	2 GB
Tamanho máximo do arquivo do conjunto de dados de idioma para importação de dados	200 MB	1,5 GB
Tamanho máximo do arquivo do conjunto de dados de pronúncia para importação de dados	1 KB	1 MB
Tamanho máximo do texto quando você estiver usando o `text` parâmetro na solicitação de API do Models_Create	200 kb	500 KB

Cotas e limites de texto para fala por recurso

Esta seção descreve cotas e limites de texto para fala por recurso de fala.

Conversão de texto em voz em tempo real

Você pode usar texto para fala em tempo real com o SDK de fala ou a API REST de texto para fala. A menos que especificado de outra forma, os limites não são ajustáveis.

Quota	Grátis (F0)	Padrão (S0)
Número máximo de transações por período de tempo para vozes neurais pré-construídas e vozes neurais personalizadas.	20 transações por 60 segundos Este limite não é ajustável.	200 transações por segundo (TPS) (valor padrão) A taxa é ajustável até 1000 TPS para recursos Standard (S0). Veja mais explicações, práticas recomendadas e instruções de ajuste.
Duração máxima do áudio produzido por solicitação	10 minutos	10 minutos
Número total máximo de distintivos `<voice>` e `<audio>` tags em SSML	50	50
Tamanho máximo da mensagem SSML por turno para websocket	64 KB	64 KB

Síntese em lote

Esses limites não são ajustáveis. Para obter mais informações sobre a latência da síntese em lote, consulte a latência da síntese em lote e as práticas recomendadas.

Quota	Grátis (F0)	Padrão (S0)
Limite da API REST	Não disponível para F0	100 pedidos por 10 segundos
Tamanho máximo da carga útil JSON para criar um trabalho de síntese	N/A	2 megabytes
Trabalhos simultâneos de síntese ativa	N/A	Sem limite
Número máximo de entradas de texto por trabalho de síntese	N/A	10000
Max tempo de vida para um trabalho de síntese desde que esteja no estado final	N/A	Até 31 dias (especificado usando propriedades)

Voz neural personalizada - profissional

Os limites nesta tabela aplicam-se por recurso de Fala quando você cria um modelo de voz neural personalizado profissional.

Quota	Grátis (F0)	Padrão (S0)
Número máximo de transações por segundo (TPS)	Não disponível para F0	200 transações por segundo (TPS) (valor padrão)
Número máximo de conjuntos de dados	N/A	500
Número máximo de carregamentos simultâneos de conjuntos de dados	N/A	5
Tamanho máximo do arquivo de dados para importação de dados por conjunto de dados	N/A	2 GB
Upload de áudio longo ou áudio sem script	N/A	Sim
Número máximo de treinamentos de modelos simultâneos	N/A	4
Número máximo de pontos de extremidade personalizados	N/A	50

Voz neural personalizada - voz pessoal

Os limites nesta tabela aplicam-se por recurso de Fala quando cria uma voz pessoal.

Quota	Grátis (F0)	Padrão (S0)
Limite da API REST (não incluindo síntese de fala)	Não disponível para F0	50 pedidos por 10 segundos
Número máximo de transações por segundo (TPS) para síntese de fala	Não disponível para F0	200 transações por segundo (TPS) (valor padrão)

Avatar de texto em lote para fala

Quota	Grátis (F0)	Padrão (S0)
Limite da API REST	Não disponível para F0	2 pedidos por 1 minuto

Avatar de texto para fala em tempo real

Quota	Grátis (F0)	Padrão (S0)
Novas ligações por minuto	Não disponível para F0	2 novas conexões por minuto
Duração máxima da conexão com a fala	Não disponível para F0	20 minutos¹
Duração máxima da conexão com estado ocioso	Não disponível para F0	5 minutos

1 Para garantir o funcionamento contínuo do avatar em tempo real por mais de 20 minutos, você pode ativar a reconexão automática. Para obter informações sobre como configurar a reconexão automática, consulte este código de exemplo (pesquise "reconexão automática").

Ferramenta de criação de conteúdo de áudio

Quota	Grátis (F0)	Padrão (S0)
Tamanho do ficheiro (texto simples em SSML)¹	3.000 caracteres por arquivo	20.000 caracteres por arquivo
Tamanho do ficheiro (ficheiro léxico)²	30KB por ficheiro	100KB por ficheiro
Caracteres faturáveis em SSML	15.000 caracteres por arquivo	100.000 caracteres por arquivo
Exportar para biblioteca de áudio	1 tarefa simultânea	N/A

1 O limite aplica-se apenas a texto simples em SSML e não inclui etiquetas.

2 Os caracteres do arquivo de léxico não são cobrados. Apenas os elementos do léxico no SSML são contados como caracteres faturáveis. Consulte os caracteres faturáveis para saber mais.

Quotas e limites de reconhecimento de oradores por recurso

O reconhecimento de alto-falantes é limitado a 20 transações por segundo (TPS).

Descrição detalhada, ajuste de cota e práticas recomendadas

Algumas das cotas do serviço de Fala são ajustáveis. Esta seção fornece mais explicações, práticas recomendadas e instruções de ajuste.

As cotas a seguir são ajustáveis para recursos Standard (S0). Os limites de solicitação Gratuito (F0) não são ajustáveis.

Limite de solicitação simultânea de fala para texto para ponto de extremidade do modelo base e ponto de extremidade personalizado
Número máximo de transações de texto para fala por período de tempo para vozes neurais pré-construídas e vozes neurais personalizadas
Limite de solicitação simultânea de tradução de fala

Antes de solicitar um aumento de cota (quando aplicável), verifique seu TPS atual (transações por segundo) e verifique se é necessário aumentar a cota. O serviço de fala usa tecnologias de dimensionamento automático para trazer os recursos computacionais necessários no modo sob demanda. Ao mesmo tempo, o serviço de Fala tenta manter seus custos baixos, não mantendo uma quantidade excessiva de capacidade de hardware.

Vamos ver um exemplo. Suponha que seu aplicativo receba o código de resposta 429, o que indica que há muitas solicitações. Seu aplicativo recebe essa resposta mesmo que sua carga de trabalho esteja dentro dos limites definidos pela referência Cotas e limites. A explicação mais provável é que o serviço de Fala está se expandindo para sua demanda e ainda não atingiu a escala necessária. Portanto, o serviço não tem recursos suficientes imediatamente para atender à solicitação. Nesses casos, aumentar a cota não ajudará. Na maioria dos casos, o serviço de Fala será ampliado em breve e o problema que causa o código de resposta 429 será resolvido.

Práticas recomendadas gerais para reduzir a limitação durante o dimensionamento automático

Para minimizar os problemas relacionados à limitação, é uma boa ideia usar as seguintes técnicas:

Implemente a lógica de repetição na aplicação.
Evite alterações acentuadas na carga de trabalho. Aumente a carga de trabalho gradualmente. Por exemplo, digamos que seu aplicativo esteja usando conversão de texto em fala e sua carga de trabalho atual seja de 5 TPS. No segundo seguinte, você aumenta a carga para 20 TPS (ou seja, quatro vezes mais). O serviço de fala começa imediatamente a ser dimensionado para atender à nova carga, mas não pode ser dimensionado conforme necessário em um segundo. Alguns dos pedidos recebem o código de resposta 429 (demasiados pedidos).
Teste diferentes padrões de aumento de carga. Para obter mais informações, consulte o exemplo de padrão de carga de trabalho.
Crie mais recursos do serviço de Fala em diferentes regiões e distribua a carga de trabalho entre elas. (Criar vários recursos do serviço de Fala na mesma região não afetará o desempenho, porque todos os recursos são servidos pelo mesmo cluster de back-end).

As secções seguintes descrevem casos específicos de ajustamento de quotas.

Conversão de fala em texto: aumente o limite de solicitações simultâneas de fala para texto em tempo real

Por padrão, o número de solicitações simultâneas de conversão de fala em texto e fala em tempo real combinadas é limitado a 100 por recurso no modelo base e 100 por ponto de extremidade personalizado no modelo personalizado. Para o nível de preço padrão, você pode aumentar esse valor. Antes de enviar a solicitação, verifique se você está familiarizado com o material discutido anteriormente neste artigo, como as práticas recomendadas para reduzir a limitação.

Nota

Os limites de solicitação simultânea para modelos básicos e personalizados precisam ser ajustados separadamente. Você pode ter um recurso de serviço de Fala associado a muitos pontos de extremidade personalizados hospedando muitas implantações de modelo personalizado. Conforme necessário, os ajustes de limite por ponto de extremidade personalizado devem ser solicitados separadamente.

Aumentar o limite de solicitações simultâneas não afeta diretamente seus custos. O serviço de Fala usa um modelo de pagamento que exige que você pague apenas pelo que usar. O limite define o quão alto o serviço pode ser dimensionado antes de começar a limitar suas solicitações.

Você não consegue ver o valor existente do parâmetro de limite de solicitação simultânea no portal do Azure, nas ferramentas de linha de comando ou nas solicitações de API. Para verificar o valor existente, crie uma solicitação de suporte do Azure.

Nota

Os contêineres de fala não exigem aumentos do limite de solicitações simultâneas, porque os contêineres são restringidos apenas pelas CPUs do hardware em que estão hospedados. Os contentores de voz têm, no entanto, as suas próprias limitações de capacidade que devem ser tidas em conta. Para obter mais informações, consulte as Perguntas frequentes sobre contêineres de fala.

Tenha as informações necessárias prontas

Para o modelo de base:
- ID do recurso de fala
- País/Região
Para o modelo personalizado:
- País/Região
- ID de ponto de extremidade personalizado

Como obter informações para o modelo base:

Aceda ao portal do Azure.
Selecione o recurso de serviço de Fala para o qual você gostaria de aumentar o limite de solicitação de simultaneidade.
No grupo Gerenciamento de Recursos, selecione Propriedades.
Copie e salve os valores dos seguintes campos:
- ID do recurso
- Localização (sua região de ponto final)

Como obter informações para o modelo personalizado:

Vá para o portal do Speech Studio .
Inicie sessão, se necessário, e aceda a Voz personalizada.
Selecione seu projeto e vá para Implantação.
Selecione o ponto de extremidade necessário.
Copie e salve os valores dos seguintes campos:
- Região de serviço (sua região de ponto final)
- ID do ponto de extremidade

Criar e enviar uma solicitação de suporte

Inicie o aumento do limite para solicitações simultâneas para seu recurso ou, se necessário, verifique o limite atual, enviando uma solicitação de suporte. Saiba como:

Certifique-se de ter as informações necessárias listadas na seção anterior.
Aceda ao portal do Azure.
Selecione o recurso do serviço de Fala para o qual você gostaria de aumentar (ou verificar) o limite de solicitação de simultaneidade.
No grupo Suporte + solução de problemas, selecione Nova solicitação de suporte. Uma nova janela é exibida, com informações preenchidas automaticamente sobre sua assinatura do Azure e o recurso do Azure.
Em Resumo, descreva o que você deseja (por exemplo, "Aumentar o limite de solicitação de simultaneidade de fala para texto").
Em Tipo de problema, selecione Problemas de cota ou Assinatura.
No subtipo Problema, selecione:
- A cota ou as solicitações simultâneas aumentam para uma solicitação de aumento.
- Validação de cota ou uso para verificar o limite existente.
Selecione Seguinte: Soluções. Avance com a criação do pedido.
Na guia Detalhes, no campo Descrição, insira o seguinte:
- Uma nota que o pedido é sobre a quota de discurso para texto.
- Escolha o modelo base ou personalizado.
- As informações de recursos do Azure que você coletou anteriormente.
- Quaisquer outras informações necessárias.
No separador Rever + criar, selecione Criar.
Anote o número do pedido de suporte nas notificações do portal do Azure. Você será contatado em breve sobre o seu pedido.

Exemplo de uma prática recomendada de padrão de carga de trabalho

Aqui está um exemplo geral de uma boa abordagem a ser adotada. Destina-se apenas como um modelo que você pode ajustar conforme necessário para seu próprio uso.

Suponha que um recurso de serviço de Fala tenha o limite de solicitação simultânea definido como 300. Inicie a carga de trabalho a partir de 20 conexões simultâneas e aumente a carga em 20 conexões simultâneas a cada 90-120 segundos. Controle as respostas do serviço e implemente a lógica que retorna (reduz a carga) se você receber muitas solicitações (código de resposta 429). Em seguida, tente novamente o aumento de carga em um minuto e, se ainda assim não funcionar, tente novamente em dois minutos. Use um padrão de 1-2-4-4 minutos para os intervalos.

Geralmente, é uma boa ideia testar a carga de trabalho e os padrões de carga de trabalho antes de ir para a produção.

Conversão de texto em fala: aumentar o limite de solicitações simultâneas

Para o nível de preço padrão, você pode aumentar esse valor. Antes de enviar a solicitação, verifique se você está familiarizado com o material discutido anteriormente neste artigo, como as práticas recomendadas para reduzir a limitação.

Aumentar o limite de solicitações simultâneas não afeta diretamente seus custos. O serviço de fala usa um modelo de pagamento que exige que você pague apenas pelo que usar. O limite define o quão alto o serviço pode ser dimensionado antes de começar a limitar suas solicitações.

Nota

Os contêineres de fala não exigem aumentos do limite de solicitações simultâneas, porque os contêineres são restringidos apenas pelas CPUs do hardware em que estão hospedados.

Preparar as informações necessárias

Para criar uma solicitação de aumento, você precisa fornecer suas informações.

Para a voz pré-construída:
- ID do recurso de fala
- País/Região
Para a voz personalizada:
- Região de Implementação
- ID de ponto de extremidade personalizado

Como obter informações para a voz pré-construída:

Aceda ao portal do Azure.
Selecione o recurso de serviço de Fala para o qual você gostaria de aumentar o limite de solicitação de simultaneidade.
No grupo Gerenciamento de Recursos, selecione Propriedades.
Copie e salve os valores dos seguintes campos:
- ID do recurso
- Localização (sua região de ponto final)

Como obter informações para a voz personalizada:

Vá para o portal do Speech Studio .
Inicie sessão, se necessário, e aceda a Voz personalizada.
Selecione seu projeto e vá para Implantar modelo.
Selecione o ponto de extremidade necessário.
Copie e salve os valores dos seguintes campos:
- Região de serviço (sua região de ponto final)
- ID do ponto de extremidade

Criar e enviar uma solicitação de suporte

Inicie o aumento do limite para solicitações simultâneas para seu recurso ou, se necessário, verifique o limite atual, enviando uma solicitação de suporte. Saiba como:

Certifique-se de ter as informações necessárias listadas na seção anterior.
Aceda ao portal do Azure.
Selecione o recurso do serviço de Fala para o qual você gostaria de aumentar (ou verificar) o limite de solicitação de simultaneidade.
No grupo Suporte + solução de problemas, selecione Nova solicitação de suporte. Uma nova janela é exibida, com informações preenchidas automaticamente sobre sua assinatura do Azure e o recurso do Azure.
Em Resumo, descreva o que você deseja (por exemplo, "Aumentar o limite de solicitação de simultaneidade de texto para fala").
Em Tipo de problema, selecione Problemas de cota ou Assinatura.
No subtipo Problema, selecione:
- A cota ou as solicitações simultâneas aumentam para uma solicitação de aumento.
- Validação de cota ou uso para verificar o limite existente.
Na guia Solução recomendada, selecione Avançar.
Na guia Detalhes adicionais, preencha todos os itens necessários. E no campo Detalhes , insira o seguinte:
- Uma nota que o pedido é sobre a cota de texto para fala.
- Escolha a voz pré-construída ou a voz personalizada.
- As informações de recursos do Azure que você coletou anteriormente.
- Quaisquer outras informações necessárias.
No separador Rever + criar, selecione Criar.
Anote o número do pedido de suporte nas notificações do portal do Azure. Você será contatado em breve sobre o seu pedido.

Avatar de texto para fala: aumente o limite de novas conexões

Para aumentar o limite de novas conexões por minuto para avatar de texto para fala, entre em contato com seu representante de vendas para criar um ticket com as seguintes informações:

URI do recurso de fala
Solicitada nova limitação para aumentar para
Justificação do aumento
Data de início do aumento
Data limite para o aumento
Avatar pré-construído ou avatar personalizado

Partilhar via

Cotas e limites do serviço de fala

Referência a quotas e limites

Cotas e limites de fala para texto por recurso

Conversão de fala em texto e fala em tempo real

Transcrição rápida

Transcrição em lotes

Personalização do modelo

Cotas e limites de texto para fala por recurso

Conversão de texto em voz em tempo real

Síntese em lote

Voz neural personalizada - profissional

Voz neural personalizada - voz pessoal

Avatar de texto em lote para fala

Avatar de texto para fala em tempo real

Ferramenta de criação de conteúdo de áudio

Quotas e limites de reconhecimento de oradores por recurso

Descrição detalhada, ajuste de cota e práticas recomendadas

Práticas recomendadas gerais para reduzir a limitação durante o dimensionamento automático

Conversão de fala em texto: aumente o limite de solicitações simultâneas de fala para texto em tempo real

Tenha as informações necessárias prontas

Criar e enviar uma solicitação de suporte

Exemplo de uma prática recomendada de padrão de carga de trabalho

Conversão de texto em fala: aumentar o limite de solicitações simultâneas

Preparar as informações necessárias

Criar e enviar uma solicitação de suporte

Avatar de texto para fala: aumente o limite de novas conexões

Comentários

Recursos adicionais