Quotas et limites du service Speech
Cet article contient un aide-mémoire et une description détaillée des quotas et des limites du service Speech dans Azure AI services. Les informations s’appliquent à tous les niveaux tarifaires du service. Il présente également les meilleures pratiques pour éviter la limitation des demandes.
Pour le niveau tarifaire gratuit (F0), consultez également les allocations mensuelles sur la page des tarifs.
Informations de référence sur les quotas et les limites
Les sections suivantes fournissent un guide rapide sur les quotas et les limites qui s’appliquent au service Speech.
Pour plus d’informations sur les quotas ajustables pour les ressources Speech Standard (S0), consultez plus d’explications, les meilleures pratiques et les instructions d’ajustement. Les quotas et les limites des ressources vocales gratuites (F0) ne sont pas réglables.
Important
Si vous faites passer une ressource Speech du niveau tarifaire Free (F0) au niveau tarifaire Standard (S0), la modification des quotas correspondants peut prendre jusqu’à plusieurs heures.
Quotas et limites de reconnaissance vocale par ressource
Cette section décrit les quotas et les limites de la reconnaissance vocale par ressource Speech. Sauf indication contraire, les limites ne sont pas réglables.
Reconnaissance vocale en temps réel et traduction vocale
Vous pouvez utiliser la reconnaissance vocale en temps réel avec le kit de développement logiciel (SDK) Speech ou l’API REST de reconnaissance vocale pour l’audio court.
Important
Ces limites s’appliquent aux requêtes en temps réel simultanées de reconnaissance vocale et aux requêtes de traduction vocale combinées. Par exemple, si vous avez 60 requêtes simultanées de reconnaissance vocale et 40 requêtes simultanées de traduction vocale, vous atteindrez la limite de 100 requêtes simultanées.
Quota | Gratuit (F0) | Standard (S0) |
---|---|---|
Limite de requêtes simultanées - Point de terminaison du modèle de base | 1 Cette limite n’est pas ajustable. |
100 (valeur par défaut) Le débit est ajustable pour les ressources Standard (S0). Consultez plus d’explications, les meilleures pratiques et les instructions d’ajustement. |
Limite de requêtes simultanées - Point de terminaison personnalisé | 1 Cette limite n’est pas ajustable. |
100 (valeur par défaut) Le débit est ajustable pour les ressources Standard (S0). Consultez plus d’explications, les meilleures pratiques et les instructions d’ajustement. |
Longueur maximale de l’audio pour la diarisation en temps réel. | S/O | 240 minutes par fichier |
Transcription rapide
Quota | Gratuit (F0) | Standard (S0) |
---|---|---|
Taille maximale de fichier d’entrée audio | S/O | 200 Mo |
Durée maximale du contenu audio | S/O | 120 minutes par fichier |
Nombre maximal de requêtes par minute | N/A | 600 |
Transcription Batch
Quota | Gratuit (F0) | Standard (S0) |
---|---|---|
Limite de l’API REST de reconnaissance vocale | Non disponible pour F0 | 100 requêtes toutes les 10 secondes (600 requêtes par minute) |
Taille maximale de fichier d’entrée audio | N/A | 1 Go |
Nombre maximal de blobs par conteneur | N/A | 10000 |
Requête Nombre maximal de fichiers par transcription (quand vous utilisez plusieurs URL de contenu en entrée). | N/A | 1 000 |
Longueur maximale de l’audio pour les transcriptions avec la diarisation activée. | S/O | 240 minutes par fichier |
Personnalisation des modèles
Les limites de ce tableau s’appliquent par ressource de reconnaissance vocale lorsque vous créez un modèle vocal personnalisé.
Quota | Gratuit (F0) | Standard (S0) |
---|---|---|
Limite d’API REST | 100 requêtes toutes les 10 secondes (600 requêtes par minute) | 100 requêtes toutes les 10 secondes (600 requêtes par minute) |
Nombre maximal de jeux de données vocaux | 2 | 500 |
Taille maximale de fichier de jeu de données acoustiques pour l’importation de données | 2 Go | 2 Go |
Taille maximale de fichier de jeu de données linguistiques pour l’importation de données | 200 Mo | 1,5 Go |
Taille maximale de fichier de jeu de données de prononciation pour l’importation de données | 1 Ko | 1 Mo |
Taille maximale de texte quand vous utilisez le paramètre text dans la demande d’API Models_Create |
200 Ko | 500 Ko |
Quotas et limites de la synthèse vocale par ressource
Cette section décrit les quotas et les limites de la synthèse vocale par ressource Speech.
Synthèse vocale en temps réel
Vous pouvez utiliser la synthèse vocale en temps réel avec le Kit de développement logiciel (SDK) Speech ou l’ API REST de synthèse vocale. Sauf indication contraire, les limites ne sont pas réglables.
Quota | Gratuit (F0) | Standard (S0) |
---|---|---|
Nombre maximal de transactions par période pour les voix neuronales prédéfinies et les voix neuronales personnalisées. | 20 transactions par période de 60 secondes Cette limite n’est pas ajustable. |
200 transactions par seconde (TPS) (valeur par défaut) Le débit est ajustable jusqu’à 1 000 TPS pour les ressources Standard (S0). Consultez plus d’explications, les meilleures pratiques et les instructions d’ajustement. |
Longueur maximale de l’audio produit par demande | 10 min | 10 min |
Nombre maximal de balises <voice> et <audio> distinctes en langage SSML |
50 | 50 |
Taille maximale des messages SSML par tour pour WebSocket | 64 Ko | 64 Ko |
Synthèse par lots
Ces limites ne sont pas réglables. Pour plus d’informations sur la latence de la synthèse par lots, consultez Latence de synthèse par lots et meilleures pratiques.
Quota | Gratuit (F0) | Standard (S0) |
---|---|---|
Limite d’API REST | Non disponible pour F0 | 100 demandes par 10 secondes |
Taille maximale de la charge utile JSON pour créer un travail de synthèse | S/O | 2 mégaoctets |
Travaux de synthèse actifs simultanés | S/O | Aucune limite |
Nombre maximal d’entrées de texte par travail de synthèse | S/O | 10000 |
Durée de vie maximale d’un travail de synthèse à partir du moment où il est dans l’état final | S/O | Jusqu’à 31 jours (spécifié à l’aide des propriétés) |
Voix neuronale personnalisée (professionnelle)
Les limites de ce tableau s’appliquent par ressource Speech lorsque vous créez un modèle de voix neuronale personnalisée professionnelle.
Quota | Gratuit (F0) | Standard (S0) |
---|---|---|
Nombre maximal de transactions par seconde (TPS) | Non disponible pour F0 | 200 transactions par seconde (TPS) (valeur par défaut) |
Nombre maximal de jeux de données | N/A | 500 |
Nombre maximal de chargements de jeux de données simultanés | N/A | 5 |
Taille maximale de fichier de données pour l’importation de données par jeu de données | N/A | 2 Go |
Chargement de fichiers audio longs ou de fichiers audio sans script | S/O | Oui |
Nombre maximal d’apprentissages de modèle simultanés | S/O | 4 |
Nombre maximal de points de terminaison personnalisés | N/A | 50 |
Voix neuronale personnalisée (personnelle)
Les limites de ce tableau s’appliquent par ressource Speech lorsque vous créez une voix personnelle.
Quota | Gratuit (F0) | Standard (S0) |
---|---|---|
Limite de l’API REST (sans inclure la synthèse vocale) | Non disponible pour F0 | 50 requêtes toutes les 10 secondes |
Nombre maximal de transactions par seconde (TPS) pour la synthèse vocale | Non disponible pour F0 | 200 transactions par seconde (TPS) (valeur par défaut) |
Avatar de synthèse vocale par lots
Quota | Gratuit (F0) | Standard (S0) |
---|---|---|
Limite d’API REST | Non disponible pour F0 | 2 requêtes par minute |
Avatar de synthèse vocale en temps réel
Quota | Gratuit (F0) | Standard (S0) |
---|---|---|
Nouvelles connexions par minute | Non disponible pour F0 | 2 nouvelles connexions par minute |
Durée maximale de connexion en parlant | Non disponible pour F0 | 20 minutes1 |
Durée maximale de connexion à l’état inactif | Non disponible pour F0 | 5 minutes |
1 Pour garantir le fonctionnement continu de l'avatar en temps réel pendant plus de 20 minutes, vous pouvez activer la reconnexion automatique. Pour découvrir des informations sur la configuration de la reconnexion automatique, reportez-vous à cet exemple de code (recherche « reconnexion automatique »).
Outil Création de contenu audio
Quota | Gratuit (F0) | Standard (S0) |
---|---|---|
Taille du fichier (texte brut dans SSML)1 | 3 000 caractères par fichier | 20 000 caractères par fichier |
Taille du fichier (fichier lexique)2 | 30 Ko par fichier | 100 Ko par fichier |
Caractères facturables dans SSML | 15 000 caractères par fichier | 100 000 caractères par fichier |
Exporter vers la bibliothèque audio | 1 tâche simultanée | N/A |
1 La limite s’applique uniquement au texte brut dans SSML et n’inclut pas aucune balise.
2 Les caractères du fichier de lexique ne sont pas facturés. Seuls les éléments de lexique dans SSML sont comptés comme caractères facturables. Pour en savoir plus, reportez-vous aux caractères facturables.
Quotas et limites de reconnaissance de l’orateur par ressource
La reconnaissance de l’orateur est limitée à 20 transactions par seconde (TPS).
Description détaillée, ajustement de quota et bonnes pratiques
Certains quotas du service Speech sont ajustables. Cette section fournit davantage d’explications, de meilleures pratiques et des instructions d’ajustement.
Les quotas suivants sont ajustables pour les ressources Standard (S0). Les limites des requêtes gratuites (F0) ne sont pas ajustables.
- Limite de requêtes simultanées de reconnaissance vocale pour le point de terminaison du modèle de base et le point de terminaison personnalisé
- Nombre maximal de transactions par période de la synthèse vocale pour les voix neuronales prédéfinies et les voix neuronales personnalisées
- Limite de demandes simultanées de traduction vocale
Avant de demander une augmentation de quota (le cas échéant), vérifiez votre TPS actuel (transactions par seconde) et assurez-vous qu’il est nécessaire d’augmenter le quota. Le service Speech utilise des technologies de mise à l’échelle automatique pour mettre les ressources de calcul requises en mode « à la demande ». Parallèlement, le service Speech tente de réduire vos coûts en ne conservant pas une quantité excessive de capacité matérielle.
Prenons un exemple. Supposons que votre application reçoive le code de réponse 429, qui indique que le nombre de requêtes est trop élevé. Votre application reçoit cette réponse même si votre charge de travail s’inscrit dans les limites définies par les informations de référence sur les quotas et les limites. L’explication la plus probable est que le service Speech est en train d’appliquer un scale-up à votre demande et n’a pas encore atteint l’échelle requise. Ainsi, le service ne dispose pas immédiatement de suffisamment de ressources pour répondre à la demande. Dans ce cas, l’augmentation du quota n’aidera pas. Dans la plupart des cas, le service Speech montera rapidement en puissance et le problème à l’origine du code de réponse 429 sera résolu.
Meilleures pratiques générales pour atténuer la limitation lors de la mise à l’échelle automatique
Pour réduire les problèmes liés à la limitation, il est judicieux d’utiliser les techniques suivantes :
- Implémentez une logique de nouvelle tentative dans votre application.
- Évitez les variations nettes de la charge de travail. Augmentez graduellement la charge de travail. Par exemple, supposons que votre application utilise la synthèse vocale et que votre charge de travail actuelle est de 5 TPS. À la seconde suivante, vous augmentez la charge à 20 TPS (soit quatre fois plus). Le service Speech commence immédiatement le scale-up pour répondre à la nouvelle charge, mais ne peut pas effectuer la mise à l’échelle nécessaire en une seconde. Certaines des requêtes obtiennent le code de réponse 429 (trop de requêtes).
- Testez différents modèles d’augmentation de la charge. Pour plus d’informations, consultez Exemple de modèle de charge de travail.
- Créez davantage de ressources de service Speech dans des régions différentes, puis distribuez la charge de travail entre elles. (La création de plusieurs ressources du service Speech dans la même région n’affecte pas le niveau de performance, car toutes les ressources seront prises en charge par le même cluster de back-end).
Les sections suivantes décrivent des cas spécifiques d’ajustement des quotas.
Reconnaissance vocale : augmenter la limite de requêtes simultanées de reconnaissance vocale en temps réel
Par défaut, le nombre de requêtes de reconnaissance vocale en temps réel et de requêtes traduction vocale combinées est limité à 100 par ressource dans le modèle de base et à 100 par point de terminaison personnalisé dans le modèle personnalisé. Pour le niveau tarifaire standard, vous pouvez augmenter cette valeur. Avant de soumettre la demande, assurez-vous que vous êtes familiarisé avec les éléments abordés plus haut dans cet article, comme les bonnes pratiques pour atténuer la limitation.
Notes
Les limites de demandes simultanées pour les modèles de base et personnalisés doivent être ajustées séparément. Vous pouvez avoir une ressource de service Speech associée à de nombreux points de terminaison personnalisés hébergeant de nombreux déploiements de modèles personnalisés. Si nécessaire, les ajustements de limite par point de terminaison personnalisé doivent être demandés séparément.
L’augmentation de la limite de demandes simultanées n’affecte pas directement vos coûts. Le service Speech utilise un modèle de paiement qui exige que vous payiez uniquement pour ce que vous utilisez. La limite définit la hauteur à laquelle le service peut mettre à l’échelle avant de commencer à limiter vos demandes.
Vous ne pouvez pas voir la valeur existante du paramètre de limite de demandes simultanées dans le portail Azure, les outils en ligne de commande ou les demandes d’API. Pour vérifier la valeur existante, créez une demande de support Azure.
Notes
Les conteneurs Speech n’exigent pas d’augmentation de la limite de demandes simultanées, car ils ne sont limités que par les processeurs du matériel sur lequel ils sont hébergés. Toutefois, les conteneurs Speech ont leurs propres limitations de capacité qui doivent être prises en compte. Pour plus d’informations, consultez le Forum aux questions sur les conteneurs Speech.
Munissez-vous des informations requises
- Pour le modèle de base :
- ID de ressource vocale
- Région
- Pour le modèle personnalisé :
- Région
- ID de point de terminaison personnalisé
Obtention d’informations pour le modèle de base :
- Accédez au portail Azure.
- Sélectionnez la ressource du service Speech dont vous souhaitez augmenter la limite de demandes simultanées.
- Dans le groupe Gestion des ressources, sélectionnez Propriétés.
- Copiez et enregistrez les valeurs des champs suivants :
- ID de ressource
- Emplacement (région de votre point de terminaison)
Obtention d’informations pour le modèle personnalisé :
- Accéder au portail Speech Studio.
- Connectez-vous si nécessaire, puis accédez à Reconnaissance vocale personnalisée.
- Sélectionnez votre projet et accédez à Déploiement.
- Sélectionnez le point de terminaison requis.
- Copiez et enregistrez les valeurs des champs suivants :
- Région de service (région de votre point de terminaison)
- ID du point de terminaison
Créer et soumettre une demande de support
Démarrez l’augmentation de la limite de demandes simultanées pour votre ressource ou, si nécessaire, vérifiez la limite actuelle en soumettant une demande de support. Voici comment procéder :
- Vérifiez que vous disposez des informations nécessaires listées dans la section précédente.
- Accédez au portail Azure.
- Sélectionnez la ressource du service Speech dont vous souhaitez augmenter (ou vérifier) la limite de demandes simultanées.
- Dans le groupe Support et dépannage, sélectionnez Nouvelle demande de support. Une nouvelle fenêtre s’affiche, avec des informations renseignées automatiquement concernant votre abonnement Azure et la ressource Azure.
- Dans Résumé, décrivez ce que vous souhaitez (par exemple, « augmenter la limite des requêtes simultanées de reconnaissance vocale »).
- Dans Type de problème, sélectionnez Problèmes de quota ou d’abonnement.
- Dans Sous-type de problème, sélectionnez l’une des deux options suivantes :
- Augmentation du quota ou des demandes simultanées pour une demande d’augmentation.
- Validation du quota ou de l’utilisation pour vérifier la limite existante.
- Sélectionnez Suivant : Solutions. Poursuivez la création de la demande.
- Sous l’onglet Détails, dans le champ Description, entrez les éléments suivants :
- Une note indiquant que la requête concerne un quota de reconnaissance vocale.
- Choisissez le modèle de base ou personnalisé.
- Les informations sur la ressource Azure que vous avez collectées.
- Toutes les autres informations requises.
- Sous l’onglet Review + create (Vérifier + créer) , sélectionnez Créer.
- notez le numéro de demande de support dans les notifications du portail Azure. Vous êtes contacté dans de brefs délais au sujet de votre requête.
Exemple de meilleure pratique pour un modèle de charge de travail
Voici un exemple général d’une bonne approche à suivre. Il s’agit simplement d’un modèle que vous pouvez ajuster si nécessaire pour votre usage personnel.
Supposons que la limite de demandes simultanées d’une ressource du service Speech est définie sur 300. Démarrez la charge de travail à partir de 20 connexions simultanées et augmentez la charge de 20 connexions simultanées toutes les 90 à 120 secondes. Contrôlez les réponses du service et implémentez la logique qui revient en arrière (réduit la charge) si vous recevez un trop grand nombre de codes de demandes (code de réponse 429). Ensuite, réessayez d’augmenter la charge par incrément d’une minute puis, si cela ne fonctionne toujours pas, par incrément de deux minutes. Utilisez un modèle de 1-2-4-4 minutes pour les intervalles.
En règle générale, il est judicieux de tester la charge de travail et les modèles de charge de travail avant de passer en production.
Synthèse vocale : augmenter la limite de requêtes simultanées
Pour le niveau tarifaire standard, vous pouvez augmenter cette valeur. Avant de soumettre la demande, assurez-vous que vous êtes familiarisé avec les éléments abordés plus haut dans cet article, comme les bonnes pratiques pour atténuer la limitation.
L’augmentation de la limite de demandes simultanées n’affecte pas directement vos coûts. Le service Speech utilise un modèle de paiement qui exige que vous payiez uniquement pour ce que vous utilisez. La limite définit la hauteur à laquelle le service peut mettre à l’échelle avant de commencer à limiter vos demandes.
Vous ne pouvez pas voir la valeur existante du paramètre de limite de demandes simultanées dans le portail Azure, les outils en ligne de commande ou les demandes d’API. Pour vérifier la valeur existante, créez une demande de support Azure.
Notes
Les conteneurs Speech n’exigent pas d’augmentation de la limite de demandes simultanées, car ils ne sont limités que par les processeurs du matériel sur lequel ils sont hébergés.
Préparer les informations requises
Pour créer une demande d'augmentation, vous devez fournir vos informations.
- Pour la voix prédéfinie :
- ID de ressource vocale
- Région
- Pour la voix personnalisée :
- Région du déploiement
- ID de point de terminaison personnalisé
Comment obtenir des informations pour la voix prédéfinie :
- Accédez au portail Azure.
- Sélectionnez la ressource du service Speech dont vous souhaitez augmenter la limite de demandes simultanées.
- Dans le groupe Gestion des ressources, sélectionnez Propriétés.
- Copiez et enregistrez les valeurs des champs suivants :
- ID de ressource
- Emplacement (région de votre point de terminaison)
Obtention d’informations pour la voix personnalisée :
- Accéder au portail Speech Studio.
- Connectez-vous si nécessaire, puis accédez à Voix personnalisée.
- Sélectionnez votre projet et accédez à Déploiement.
- Sélectionnez le point de terminaison requis.
- Copiez et enregistrez les valeurs des champs suivants :
- Région de service (région de votre point de terminaison)
- ID du point de terminaison
Créer et soumettre une demande de support
Démarrez l’augmentation de la limite de demandes simultanées pour votre ressource ou, si nécessaire, vérifiez la limite actuelle en soumettant une demande de support. Voici comment procéder :
- Vérifiez que vous disposez des informations nécessaires listées dans la section précédente.
- Accédez au portail Azure.
- Sélectionnez la ressource du service Speech dont vous souhaitez augmenter (ou vérifier) la limite de demandes simultanées.
- Dans le groupe Support et dépannage, sélectionnez Nouvelle demande de support. Une nouvelle fenêtre s’affiche, avec des informations renseignées automatiquement concernant votre abonnement Azure et la ressource Azure.
- Dans Résumé, décrivez ce que vous souhaitez (par exemple, « augmenter la limite des requêtes simultanées de synthèse vocale »).
- Dans Type de problème, sélectionnez Problèmes de quota ou d’abonnement.
- Dans Sous-type de problème, sélectionnez l’une des deux options suivantes :
- Augmentation du quota ou des demandes simultanées pour une demande d’augmentation.
- Validation du quota ou de l’utilisation pour vérifier la limite existante.
- Sous l’onglet Solution recommandée, sélectionnez Suivant.
- Sous l’onglet Détails supplémentaires, renseignez tous les éléments requis. Puis dans le champ Détails, entrez les informations suivantes :
- Une note indiquant que la requête concerne un quota de synthèse vocale.
- Choisissez la voix prédéfinie ou la voix personnalisée.
- Les informations sur la ressource Azure que vous avez collectées.
- Toutes les autres informations requises.
- Sous l’onglet Review + create (Vérifier + créer) , sélectionnez Créer.
- notez le numéro de demande de support dans les notifications du portail Azure. Vous êtes contacté dans de brefs délais au sujet de votre requête.
Avatar de synthèse vocale : augmenter la limite de nouvelles connexions
Pour augmenter la limite de nouvelles connexions par minute pour l’avatar de synthèse vocale, contactez votre représentant commercial pour créer un ticket avec les informations suivantes :
- URI de ressource Speech
- Nouvelle limite demandée pour l’augmentation
- Justification de l’augmentation
- Date de début de l’augmentation
- Date de fin de l’augmentation
- Avatar prédéfini ou avatar personnalisé