Conteneurs de reconnaissance vocale personnalisée avec Docker

Article
10/16/2024

Le conteneur de reconnaissance vocale personnalisée transcrit les messages en temps réel ou les enregistrements audio par lots avec des résultats intermédiaires. Vous pouvez utiliser un modèle personnalisé créé dans le portail de reconnaissance vocale personnalisée (Custom Speech). Dans cet article, vous apprenez à télécharger, à installer et à exécuter un conteneur de reconnaissance vocale personnalisée.

Pour plus d’informations sur les prérequis, la vérification de l’exécution d’un conteneur, l’exécution de plusieurs conteneurs sur le même hôte et l’exécution de conteneurs déconnectés, consultez l’article Installer et exécuter des conteneurs Speech avec Docker.

Images de conteneur

L’image conteneur de reconnaissance vocale personnalisée pour toutes les versions et paramètres régionaux pris en charge se trouve sur le syndicat Microsoft Container Registry (MCR). Elle réside dans le référentiel azure-cognitive-services/speechservices/ et se nomme custom-speech-to-text.

Le nom complet de l’image conteneur est mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text. Ajoutez une version spécifique ou ajoutez :latest pour obtenir la version la plus récente.

Version	Path
Latest	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest`
4.10.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:4.10.0-amd64`

Toutes les étiquettes, à l’exception de latest, respectent le format suivant et sont sensibles à la casse :

<major>.<minor>.<patch>-<platform>-<prerelease>

Remarque

Les éléments locale et voice des conteneurs de reconnaissance vocale personnalisée sont déterminés par le modèle personnalisé ingéré par le conteneur.

Les balises sont également disponibles au format JSON pour votre commodité. Le corps inclut le chemin d’accès du conteneur et la liste des balises. Les balises ne sont pas triées par version, mais "latest" est toujours inclus à la fin de la liste, comme indiqué dans l’extrait de code suivant :

{
  "name": "azure-cognitive-services/speechservices/custom-speech-to-text",
  "tags": [
    <--redacted for brevity-->
    "4.4.0-amd64",
    "4.5.0-amd64",
    "4.6.0-amd64",
    "4.7.0-amd64",
    "4.8.0-amd64",
    "4.9.0-amd64",
    "4.10.0-amd64",
    "latest"
  ]
}

Obtenir l’image conteneur avec docker pull

Vous avez besoin des prérequis, notamment le matériel requis. Consultez également l’allocation de ressources recommandée pour chaque conteneur Speech.

Utilisez la commande docker pull pour télécharger une image conteneur à partir du registre de conteneurs Microsoft :

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest

Notes

Les locale et voice des conteneurs Speech personnalisés sont déterminés par le modèle personnalisé ingéré par le conteneur.

Obtenir l’ID de modèle

Avant de pouvoir exécuter le conteneur, vous devez connaître l’ID de votre modèle personnalisé ou d’un modèle de base. Quand vous exécutez le conteneur, vous spécifiez l’un des ID de modèle à télécharger et à utiliser.

ID de modèle personnalisé
ID de modèle de base

L’apprentissage du modèle personnalisé doit être effectué à l’aide de Speech Studio. Pour plus d’informations sur l’obtention de l’ID de modèle, consultez l’article Cycle de vie des modèles de reconnaissance vocale personnalisée.

Capture d’écran de la page d’entraînement de Custom Speech.

Obtenez l’ID du modèle pour l’utiliser comme argument du paramètre ModelId de la commande docker run.

Capture d’écran montrant les détails du modèle Custom Speech.

Vous pouvez obtenir les informations des modèles de base disponibles à l’aide de l’option BaseModelLocale={LOCALE}. Cette option vous donne la liste des modèles de base disponibles sur ces paramètres régionaux sous votre compte de facturation.

Pour obtenir les ID des modèles de base, utilisez la commande docker run. Par exemple :

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
BaseModelLocale={LOCALE} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Cette commande vérifie l’image conteneur et retourne les modèles de base disponibles des paramètres régionaux cibles.

Notes

Bien que vous utilisiez la commande docker run, le conteneur n’est pas démarré pour le service.

La sortie vous donne la liste des modèles de base avec les informations suivantes : paramètres régionaux, ID de modèle et date et heure de création. Par exemple :

Checking available base model for en-us
2020/10/30 21:54:20 [Info] Searching available base models for en-us
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T08:23:42Z, Id: a3d8aab9-6f36-44cd-9904-b37389ce2bfa
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T12:01:02Z, Id: cc7826ac-5355-471d-9bc6-a54673d06e45
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2017-08-17T12:00:00Z, Id: a1f8db59-40ff-4f0e-b011-37629c3a1a53
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-04-16T11:55:00Z, Id: c7a69da3-27de-4a4b-ab75-b6716f6321e5
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-09-21T15:18:43Z, Id: da494a53-0dad-4158-b15f-8f9daca7a412
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-10-19T11:28:54Z, Id: 84ec130b-d047-44bf-a46d-58c1ac292ca7
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T07:59:09Z, Id: ee5c100f-152f-4ae5-9e9d-014af3c01c56
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T09:21:55Z, Id: d04959a6-71da-4913-9997-836793e3c115
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-01-11T10:04:19Z, Id: 488e5f23-8bc5-46f8-9ad8-ea9a49a8efda
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-02-18T14:37:57Z, Id: 0207b3e6-92a8-4363-8c0e-361114cdd719
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-03-03T17:34:10Z, Id: 198d9b79-2950-4609-b6ec-f52254074a05
2020/10/30 21:54:21 [Fatal] Please run this tool again and assign --modelId '<one above base model id>'. If no model id listed above, it means currently there is no available base model for en-us

Téléchargement des modèles d’affichage

Avant d’exécuter le conteneur, vous pouvez éventuellement obtenir les informations sur les modèles d’affichage disponibles et choisir de télécharger ces modèles dans votre conteneur de reconnaissance vocale pour obtenir une sortie d’affichage finale grandement améliorée. Le téléchargement des modèles d’affichage est disponible avec le conteneur de reconnaissance vocale personnalisée version 3.1.0 ou ultérieure.

Notes

Bien que vous utilisiez la commande docker run, le conteneur n’est pas démarré pour le service.

Vous pouvez interroger ou télécharger tout ou partie de ces types de modèles d’affichage : rescoring (Rescore), ponctuation (Punct), resegmentation (Resegment) et wfstitn (Wfstitn). Autrement, vous pouvez utiliser l’option FullDisplay (avec ou sans les autres types) pour interroger ou télécharger tous les types de modèles d’affichage.

Définissez BaseModelLocale pour demander le dernier modèle d’affichage disponible sur les paramètres régionaux cibles. Si vous incluez plusieurs types de modèles d’affichage, la commande retourne les derniers modèles d’affichage disponibles pour chaque type. Par exemple :

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
BaseModelLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Définissez DisplayLocale pour télécharger le dernier modèle d’affichage disponible sur les paramètres régionaux cibles. Quand vous définissez DisplayLocale, vous devez aussi spécifier FullDisplay ou un sous-ensemble de modèles d’affichage séparés par des espaces. La commande télécharge alors le dernier modèle d’affichage disponible pour chaque type spécifié. Par exemple :

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
DisplayLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Définissez un paramètre d’ID de modèle pour télécharger un modèle d’affichage spécifique : rescoring (RescoreId), ponctuation (PunctId), resegmentation (ResegmentId) ou wfstitn (WfstitnId). Cela ressemble à la façon dont vous téléchargez un modèle de base via le paramètre ModelId. Par exemple, pour télécharger un modèle d’affichage de rescoring, vous pouvez utiliser la commande suivante avec le paramètre RescoreId :

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
RescoreId={RESCORE_MODEL_ID} \         
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Notes

Si vous définissez plusieurs paramètres de requête ou de téléchargement, la commande établit l’ordre de priorité suivant : BaseModelLocale, ID de modèle, puis DisplayLocale (cela vaut uniquement pour les modèles d’affichage).

Exécuter le conteneur avec docker run

Utilisez la commande docker run pour exécuter le conteneur pour le service.

Conteneur de reconnaissance vocale personnalisée
Conteneur de reconnaissance vocale personnalisée déconnecté

Le tableau suivant présente les différents paramètres docker run et leurs descriptions correspondantes :

Paramètre	Description
`{VOLUME_MOUNT}`	Montage de volume de l’ordinateur hôte, que Docker utilise pour rendre le modèle personnalisé persistant. Par exemple, `c:\CustomSpeech`, où le lecteur `c:\` se trouve sur l’ordinateur hôte.
`{MODEL_ID}`	ID de modèle vocal personnalisé ou de base. Pour plus d’informations, consultez la section Obtenir l’ID de modèle.
`{ENDPOINT_URI}`	Le point de terminaison est nécessaire pour le comptage et la facturation. Pour plus d’informations, consultez la section Arguments de facturation.
`{API_KEY}`	La clé API est obligatoire. Pour plus d’informations, consultez la section Arguments de facturation.

Quand vous exécutez le conteneur de reconnaissance vocale personnalisée, configurez le port, la mémoire et le processeur en fonction des exigences et recommandations relatives au conteneur de reconnaissance vocale personnalisée.

Voici un exemple de commande docker run avec des valeurs d’espace réservé. Vous devez spécifier les valeurs VOLUME_MOUNTMODEL_ID, ENDPOINT_URI et API_KEY :

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Cette commande :

Exécute un conteneur de reconnaissance vocale personnalisée à partir de l’image conteneur.
Alloue 4 cœurs de processeur et 8 Go de mémoire.
Charge le modèle de reconnaissance vocale personnalisée à partir du montage d’entrée de volume, par exemple C:\CustomSpeech.
Expose le port TCP 5000 et alloue un pseudo-TTY pour le conteneur.
Télécharge le modèle selon ModelId (s’il est introuvable sur le montage de volume).
Si le modèle personnalisé a été téléchargé auparavant, ModelId est ignoré.
Supprime automatiquement le conteneur après sa fermeture. L’image conteneur est toujours disponible sur l’ordinateur hôte.

Pour plus d’informations sur docker run avec des conteneurs Speech, consultez la section Installer et exécuter des conteneurs Speech avec Docker.

Pour exécuter des conteneurs déconnectés (non connectés à Internet), vous devez envoyer ce formulaire de demande et attendre l’approbation. Pour plus d’informations sur l’application et l’achat d’un plan d’engagement pour utiliser des conteneurs dans des environnements déconnectés, consultez Utiliser des conteneurs dans des environnements déconnectés dans la documentation Azure AI services.

Si vous êtes autorisé à exécuter le conteneur sans connexion à Internet, l’exemple suivant vous indique le formatage de la commande docker run à utiliser, avec des valeurs d’espace réservé. Remplacez ces valeurs d’espace réservé par vos propres valeurs.

Pour préparer et configurer un conteneur de reconnaissance vocale personnalisée déconnecté, vous avez besoin de deux ressources vocales distinctes :

Une ressource Azure AI Speech ordinaire configurée pour utiliser un niveau tarifaire « S0 - Standard » ou un plan tarifaire de niveau d’engagement « Reconnaissance vocale (personnalisée) ». Elle permet d’entraîner, de télécharger et de configurer vos modèles vocaux personnalisés à utiliser dans votre conteneur.
Une ressource Azure AI Speech configurée pour utiliser le plan tarifaire « Engagement DC0 (déconnecté) ». Elle permet de télécharger le fichier de licence de conteneur déconnecté nécessaire à l’exécution du conteneur en mode déconnecté.

Procédez comme suit pour télécharger et exécuter le conteneur dans des environnements déconnectés.

Téléchargez un modèle pour le conteneur déconnecté. Pour cette étape, utilisez une ressource Azure AI Speech standard configurée pour utiliser un niveau tarifaire « S0 – Standard » ou un plan tarifaire de niveau d’engagement « Reconnaissance vocale (personnalisée) ».
Téléchargez la licence de conteneur déconnecté. Pour cette étape, utilisez une ressource Azure AI Speech configurée pour utiliser le plan tarifaire « Engagement DC0 (déconnecté) ».
Exécutez le conteneur déconnecté pour le service. Pour cette étape, utilisez une ressource Azure AI Speech configurée pour utiliser le plan tarifaire « Engagement DC0 (déconnecté) ».

Télécharger un modèle pour le conteneur déconnecté

Pour cette étape, utilisez une ressource Azure AI Speech standard configurée pour utiliser un niveau tarifaire « S0 – Standard » ou un plan tarifaire de niveau d’engagement « Reconnaissance vocale (personnalisée) ».

Le tableau suivant présente les différents paramètres docker run et leurs descriptions correspondantes :

Paramètre	Description
`{VOLUME_MOUNT}`	Montage de volume de l’ordinateur hôte, que Docker utilise pour rendre le modèle personnalisé persistant. Par exemple, `c:\CustomSpeech`, où le lecteur `c:\` se trouve sur l’ordinateur hôte.
`{MODEL_ID}`	ID de modèle vocal personnalisé ou de base. Pour plus d’informations, consultez la section Obtenir l’ID de modèle.
`{ENDPOINT_URI}`	Le point de terminaison est nécessaire pour le comptage et la facturation. Pour plus d’informations, consultez la section Arguments de facturation.
`{API_KEY}`	La clé API est obligatoire. Pour plus d’informations, consultez la section Arguments de facturation.

Voici un exemple de commande docker run avec des valeurs d’espace réservé. Vous devez spécifier les valeurs VOLUME_MOUNTMODEL_ID, ENDPOINT_URI et API_KEY :

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Cette commande :

Exécute un conteneur de reconnaissance vocale personnalisée à partir de l’image conteneur.
Alloue 4 cœurs de processeur et 8 Go de mémoire.
Charge le modèle de reconnaissance vocale personnalisée à partir du montage d’entrée de volume, par exemple C:\CustomSpeech.
Expose le port TCP 5000 et alloue un pseudo-TTY pour le conteneur.
Télécharge le modèle selon ModelId (s’il est introuvable sur le montage de volume).
Si le modèle personnalisé a été téléchargé auparavant, ModelId est ignoré.
Supprime automatiquement le conteneur après sa fermeture. L’image conteneur est toujours disponible sur l’ordinateur hôte.

Pour plus d’informations sur docker run avec des conteneurs Speech, consultez la section Installer et exécuter des conteneurs Speech avec Docker.

Télécharger la licence de conteneur déconnecté

Ensuite, vous téléchargez votre fichier de licence déconnecté. Le paramètre DownloadLicense=True de votre commande docker run télécharge un fichier de licence qui permet à votre conteneur Docker de s’exécuter quand il n’est pas connecté à Internet. Il contient également une date d’expiration après laquelle le conteneur ne pourra plus être exécuté avec ce fichier de licence.

Vous pouvez utiliser un fichier de licence uniquement avec le conteneur et le modèle appropriés qui vous ont été autorisés. Par exemple, vous ne pouvez pas utiliser le fichier de licence pour un conteneur speech-to-text avec un conteneur neural-text-to-speech.

Espace réservé	Description
`{IMAGE}`	L’image conteneur que vous souhaitez utiliser. Par exemple : `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{LICENSE_MOUNT}`	Chemin où la licence est téléchargée, puis montée. Par exemple : `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	Le chemin d’accès où le modèle est situé. Par exemple : `/host/models:/usr/local/models`
`{ENDPOINT_URI}`	Point de terminaison permettant d’authentifier votre demande de service. Cette information est disponible dans le portail Azure, sur la page Key and endpoint (Clé et point de terminaison) de votre ressource. Par exemple : `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	Clé de votre ressource Speech. Cette information est disponible dans le portail Azure, sur la page Key and endpoint (Clé et point de terminaison) de votre ressource.
`{CONTAINER_LICENSE_DIRECTORY}`	Emplacement du dossier de licence sur le système de fichiers local du conteneur. Par exemple : `/path/to/license/directory`

Pour cette étape, utilisez une ressource Azure AI Speech configurée pour utiliser le plan tarifaire « Engagement DC0 (déconnecté) ».

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

Exécuter le conteneur déconnecté

Une fois le fichier de licence téléchargé, vous pourrez exécuter le conteneur dans un environnement déconnecté. L’exemple suivant vous indique le formatage de la commande docker run que vous utilisez, avec des valeurs d’espace réservé. Remplacez ces valeurs d’espace réservé par vos propres valeurs.

Quel que soit l’emplacement d’exécution du conteneur, le fichier de licence doit être monté sur le conteneur et l’emplacement du dossier de licence sur le système de fichiers local du conteneur doit être spécifié avec Mounts:License=. Un montage de sortie doit également être spécifié afin que les enregistrements d’utilisation puissent être écrits pour la facturation.

Espace réservé	Description
`{IMAGE}`	L’image conteneur que vous souhaitez utiliser. Par exemple : `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{MEMORY_SIZE}`	Quantité appropriée de mémoire à allouer à votre conteneur. Par exemple : `4g`
`{NUMBER_CPUS}`	Quantité appropriée de processeurs à allouer à votre conteneur. Par exemple : `4`
`{LICENSE_MOUNT}`	Chemin où la licence est téléchargée, puis montée. Par exemple : `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	Le chemin d’accès où le modèle est situé. Par exemple : `/host/models:/usr/local/models`
`{OUTPUT_PATH}`	Chemin de sortie de la journalisation. Par exemple : `/host/output:/path/to/output/directory` Pour plus d’informations, consultez les enregistrements d’utilisation dans la documentation Azure AI services.
`{ENDPOINT_URI}`	Point de terminaison permettant d’authentifier votre demande de service. Cette information est disponible dans le portail Azure, sur la page Key and endpoint (Clé et point de terminaison) de votre ressource. Par exemple : `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	Clé de votre ressource Speech. Cette information est disponible dans le portail Azure, sur la page Key and endpoint (Clé et point de terminaison) de votre ressource.
`{CONTAINER_LICENSE_DIRECTORY}`	Emplacement du dossier de licence sur le système de fichiers local du conteneur. Par exemple : `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	Emplacement du dossier de sortie sur le système de fichiers local du conteneur. Par exemple : `/path/to/output/directory`

Pour cette étape, utilisez une ressource Azure AI Speech configurée pour utiliser le plan tarifaire « Engagement DC0 (déconnecté) ».

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

Le conteneur de reconnaissance vocale personnalisée fournit un répertoire par défaut pour l’écriture du fichier de licence et du journal de facturation au moment de l’exécution. Les répertoires par défaut sont /license et /output respectivement.

Quand vous montez ces répertoires dans le conteneur avec la commande docker run -v, vérifiez que l’appartenance du répertoire de l’ordinateur local est définie sur user:group nonroot:nonroot avant d’exécuter le conteneur.

Voici un exemple de commande pour définir l’appartenance du fichier/répertoire.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

Utiliser le conteneur

Les conteneurs Speech fournissent des API de point de terminaison de requête basées sur WebSocket, accessibles via le Kit de développement logiciel (SDK) Speech et l’interface CLI Speech. Par défaut, le kit de développement logiciel (SDK) Speech et l’interface CLI Speech utilisent le service Speech public. Pour utiliser le conteneur, vous devez changer la méthode d’initialisation.

Important

Quand vous utilisez le service Speech avec des conteneurs, veillez à utiliser l’authentification de l’hôte. Si vous configurez la clé et la région, les demandes sont envoyées au service Speech public. Les résultats du service Speech peuvent ne pas correspondre à ce que vous attendez. Les demandes provenant des conteneurs déconnectés échouent.