Personnaliser un modèle de reconnaissance vocale

Article
10/09/2024

Remarque

La personnalisation du modèle speech, y compris la formation de prononciation, est prise en charge uniquement dans les comptes d’évaluation Azure Video Indexer et les comptes Resource Manager. Il n’est pas pris en charge dans les comptes classiques. Pour obtenir des conseils sur la façon de mettre à jour votre type de compte sans frais, consultez le compte Mettre à jour votre compte Azure AI Video Indexer. Pour obtenir des conseils sur l’utilisation de l’expérience de langue personnalisée, consultez Personnaliser un modèle de langue.

Azure AI Video Indexer vous permet de créer des modèles vocaux personnalisés pour personnaliser la reconnaissance vocale en chargeant des jeux de données utilisés pour créer un modèle vocal. Cet article décrit les étapes à suivre via le site web Video Indexer. Vous pouvez également utiliser l’API, comme décrit dans Personnaliser le modèle speech à l’aide de l’API.

Pour obtenir une vue d’ensemble détaillée et des meilleures pratiques pour les modèles vocaux personnalisés, consultez Personnaliser un modèle speech avec Azure AI Video Indexer.

Prérequis

Lisez le guide des meilleures pratiques de formation du modèle Speech.
un compte Azure ;
Un compte Azure AI Video Indexer

Portail Web
API

Créer un jeu de données

Comme tous les modèles personnalisés doivent contenir un jeu de données, nous allons commencer par le processus de création et de gestion des jeux de données.

Sélectionnez le bouton Personnalisation du modèle.
Sélectionnez l’onglet Speech (nouveau).
Sélectionnez Charger le jeu de données.
Sélectionnez texte brut ou prononciation dans le menu déroulant Type de jeu de données. Chaque modèle speech doit avoir un jeu de données de texte brut et peut éventuellement avoir un jeu de données de prononciation.
Sélectionnez Parcourir et sélectionnez le fichier de jeu de données. Vous ne pouvez en choisir qu’un.
Sélectionnez une langue pour le modèle. Choisissez la langue parlée dans les fichiers multimédias que vous prévoyez d’indexer avec ce modèle. Le nom du jeu de données est prérempli avec le nom du fichier, mais vous pouvez modifier le nom.
Vous pouvez éventuellement ajouter une description du jeu de données. Cela peut être utile pour distinguer chaque jeu de données si vous prévoyez d’avoir plusieurs jeux de données.
Sélectionnez Charger. Une fois la création du jeu de données terminée, vous pouvez l’utiliser pour l’apprentissage et la création de nouveaux modèles.

Examiner et mettre à jour un jeu de données

Vous pouvez afficher un jeu de données et ses propriétés en :

Clic sur le nom du jeu de données
Pointage sur le jeu de données
Sélection des points de suspension

Ensuite, sélectionnez Afficher le jeu de données.

Vous pouvez ensuite afficher le nom, la description, la langue et l’état du jeu de données, ainsi que les propriétés suivantes :

Nombre de lignes : indique le nombre de lignes correctement chargées en dehors du nombre total de lignes dans le fichier. Si l’intégralité du fichier est chargée, les nombres correspondent (par exemple, 10 sur 10 normalisés). Si les nombres ne correspondent pas (par exemple, 7 sur 10 normalisés), cela signifie que seules certaines lignes ont été correctement chargées et que le reste a eu des erreurs. Les causes courantes des erreurs sont des problèmes de mise en forme d’une ligne, tels que l’espacement d’un onglet entre chaque mot dans un fichier de prononciation. L’examen des données de texte brut et de prononciation pour les articles d’apprentissage doit être utile pour trouver le problème. Pour résoudre la cause, passez en revue les détails de l’erreur, qui sont contenus dans le rapport. Sélectionnez Afficher le rapport pour afficher les détails d’erreur concernant les lignes qui ne se chargent pas correctement (errorKind). Vous pouvez également l’afficher en sélectionnant l’onglet Rapport .

ID de jeu de données : chaque jeu de données a un GUID unique, ce qui est nécessaire lors de l’utilisation de l’API pour les opérations qui référencent le jeu de données.

Texte brut (normalisé) : contient le texte normalisé du fichier de jeu de données chargé. Le texte normalisé est le texte reconnu sous forme simple sans mise en forme.

Modifier les détails : pour modifier le nom ou la description d’un jeu de données, lorsque vous pointez sur le jeu de données, sélectionnez les points de suspension, puis sélectionnez Modifier les détails. Vous pouvez ensuite modifier le nom et la description du jeu de données.

Remarque

Les données d’un jeu de données ne peuvent pas être modifiées ou mises à jour une fois le jeu de données chargé. Si vous devez modifier ou mettre à jour les données dans un jeu de données, téléchargez le jeu de données, effectuez les modifications, enregistrez le fichier et chargez le nouveau fichier de jeu de données.

Télécharger : pour télécharger un fichier de jeu de données, lorsque vous pointez sur le jeu de données, sélectionnez les points de suspension, puis sélectionnez Télécharger. Vous pouvez également sélectionner Télécharger, puis télécharger le fichier de jeu de données ou télécharger le rapport au format JSON.

Supprimer : pour supprimer un jeu de données, lorsque vous pointez sur le jeu de données, sélectionnez les points de suspension, puis sélectionnez Supprimer.

Créer un modèle de reconnaissance vocale personnalisée

Les jeux de données sont utilisés dans la création et l’apprentissage des modèles. Une fois que vous avez créé un jeu de données de texte brut, vous pouvez créer et commencer à utiliser un modèle de reconnaissance vocale personnalisé.

Gardez à l’esprit les éléments suivants lors de la création et de l’utilisation de modèles vocaux personnalisés :

Un nouveau modèle doit inclure au moins un jeu de données de texte brut et peut avoir plusieurs jeux de données de texte brut.
Il est facultatif d’inclure un jeu de données de prononciation et aucun autre ne peut être inclus.
Une fois qu’un modèle est créé, vous ne pouvez pas y ajouter de jeux de données supplémentaires ni y effectuer de modifications. Si vous devez ajouter ou modifier des jeux de données, créez un modèle.
Si vous avez indexé une vidéo à l’aide d’un modèle de reconnaissance vocale personnalisée, puis supprimez le modèle, la transcription n’est pas affectée, sauf si vous effectuez une réindexation.
Si vous avez supprimé un jeu de données utilisé pour entraîner un modèle personnalisé, car le modèle vocal a déjà été entraîné par le jeu de données, il continue de l’utiliser jusqu’à ce que le modèle vocal soit supprimé.
Si vous supprimez un modèle personnalisé, il n’a aucun impact sur la transcription de vidéos déjà indexées à l’aide du modèle.

Entraîner un modèle

Remarque

Une fois qu’un modèle est créé, les jeux de données ne peuvent pas être ajoutés. Un modèle ne peut contenir que des jeux de données du même langage.

Il existe deux façons d’entraîner un modèle , par le biais de l’onglet jeu de données et de l’onglet modèle.

Entraîner un modèle via l’onglet Jeux de données

Affichez la liste des jeux de données.
Sélectionnez un jeu de données de texte brut. L’icône Entraîner un nouveau modèle ci-dessus peut ensuite être sélectionnée.
Sélectionnez Entraîner un nouveau modèle.
Entrez un nom pour le modèle, une langue et ajoutez éventuellement une description.
Sélectionnez l’onglet Jeux de données
Sélectionnez les jeux de données que vous souhaitez inclure dans le modèle.
Sélectionnez Créer et effectuer l'apprentissage.

Entraîner un modèle par le biais de l’onglet Modèles

Sélectionnez l’onglet Modèles.
Sélectionnez l’icône Entraîner un nouveau modèle .
Sélectionnez les jeux de données que vous souhaitez faire partie du modèle.
Entrez un nom pour le modèle, une langue et ajoutez éventuellement une description.
Sélectionnez l'onglet Jeux de données.
Sélectionnez les jeux de données que vous souhaitez inclure dans le modèle.
Sélectionnez Créer et effectuer l'apprentissage.

Examiner et mettre à jour un modèle

Afficher le modèle : vous pouvez afficher un modèle et ses propriétés en cliquant sur le nom du modèle ou en pointant sur le modèle, en cliquant sur les points de suspension, puis en sélectionnant Afficher le modèle.

Vous verrez ensuite dans l’onglet Détails le nom, la description, la langue et l’état du modèle, ainsi que les propriétés suivantes :

ID de modèle : chaque modèle a un GUID unique, ce qui est nécessaire lors de l’utilisation de l’API pour les opérations qui référencent le modèle.

Créé le : date de création du modèle.

Modifier les détails : pour modifier le nom ou la description d’un modèle, lorsque vous pointez sur le modèle, sélectionnez les points de suspension, puis sélectionnez Modifier les détails. Vous pouvez ensuite modifier le nom et la description du modèle.

Remarque

Seul le nom et la description du modèle peuvent être modifiés. Si vous souhaitez apporter des modifications à ses jeux de données ou ajouter des jeux de données, un nouveau modèle doit être créé.

Supprimer : pour supprimer un modèle, lorsque vous pointez sur le jeu de données, sélectionnez les points de suspension, puis sélectionnez Supprimer.

Jeux de données inclus : sélectionnez l’onglet Jeux de données inclus pour afficher les jeux de données du modèle.

Utiliser un modèle de langage personnalisé lors de l’indexation d’une vidéo

Un modèle de langage personnalisé n’est pas utilisé par défaut pour les travaux d’indexation. Il doit donc être sélectionné pendant le processus de chargement d’index.

Pendant le processus de chargement, sélectionnez votre source de modèle de langage personnalisé dans le menu déroulant de langue .
Sélectionnez Charger.

Les mêmes étapes s’appliquent lorsque vous souhaitez réindexer une vidéo avec un modèle personnalisé.

Remarque

Voici un tableau de descriptions de certains des paramètres utilisés avec les demandes de modèle vocal :

Nom	Tapez .	Description
`displayName`	corde	Nom souhaité du jeu de données/du modèle.
`locale`	corde	Code de langage du jeu de données/du modèle. Pour obtenir la liste complète, consultez la prise en charge linguistique.
`kind`	entier	0 pour un jeu de données de texte brut, 1 pour un jeu de données de prononciation.
`description`	corde	Description facultative du jeu de données/du modèle.
`contentUrl`	URI	URL du fichier source utilisé dans la création du jeu de données.
`customProperties`	objet	Propriétés facultatives du jeu de données/du modèle.

Créer un jeu de données speech

La requête Créer un jeu de données Speech crée un jeu de données pour l’apprentissage d’un modèle speech. Chargez un fichier utilisé pour créer un jeu de données avec cette requête. Le contenu d’un jeu de données ne peut pas être modifié après sa création.

Définissez les paramètres dans le corps de la requête, y compris une URL vers le fichier texte à charger. Les champs de propriétés personnalisées et de description sont facultatifs. Voici un exemple de corps de requête :

{
    "displayName": "Pronunciation Dataset",
    "locale": "en-US",
    "kind": "Pronunciation",
    "description": "This is a pronunciation dataset.",
    "contentUrl": https://contoso.com/location,
    "customProperties": {
        "tag": "Pronunciation Dataset Example"
    }
}

Exemple de réponse

{ 
    "id": "000000-0000-0000-0000-f58ac7002ae9", 
    "properties": { 
        "acceptedLineCount": 0, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Waiting", 
    "lastActionDateTime": "2023-02-28T13:24:27Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Créer un modèle speech

La requête Create Speech Model crée et entraîne un modèle de reconnaissance vocale personnalisé qui peut être utilisé pour améliorer la précision de transcription de vos vidéos. Il doit contenir au moins un jeu de données de texte brut. Il peut éventuellement avoir des jeux de données de prononciation. Créez-le avec tous les fichiers de jeu de données pertinents en tant que jeux de données d’un modèle ne peuvent pas être ajoutés ou mis à jour après sa création.

Définissez les paramètres dans le corps de la demande, y compris une liste de chaînes que le jeu de données ou les jeux de données pour le modèle à inclure. Les champs de propriétés personnalisées et de description sont facultatifs. Il s’agit d’un exemple de corps de requête :

{
    "displayName": "Contoso Speech Model",
    "locale": "en-US",
    "datasets": ["ff3d2bc4-ab5a-4522-b599-b3d5ba768c75", "87c8962d-1d3c-44e5-a2b2-c696fddb9bae"],
    "description": "Contoso ads example model",
    "customProperties": {
        "tag": "Example Model"
    }
}

Exemple de réponse

{ 
    "id": "00000000-0000-0000-0000-85be4454cf", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002ae9"], 
    "status": "Processing", 
    "lastActionDateTime": "2023-02-28T13:36:28Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Obtenir un jeu de données speech

L’API Get Speech Dataset retourne des informations sur le jeu de données spécifié.

Exemple de réponse

{ 
    "id": "00000000-0000-0000-0000-f58002ae9", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:24:43Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Obtenir des fichiers de jeux de données speech

La requête Get Speech Dataset Files retourne les fichiers et les métadonnées du jeu de données spécifié.

Exemple de réponse

[{ 
    "datasetId": "00000000-0000-0000-0000-f58ac72a", 
    "fileId": "00000000-0000-0000-0000-cb190769c", 
    "name": "languagedata", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac72” 
    "fileId": "00000000-0000-0000-0000-2369192e", 
    "name": "normalized.txt", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac7", 
    "fileId": "00000000-0000-0000-0000-05f1e306", 
    "name": "report.json", 
    "contentUrl": "", 
    "kind": "DatasetReport", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 78 
    } 
}]

Obtenir les jeux de données de compte spécifiés

La requête Get Speech Datasets retourne des informations sur tous les jeux de données de comptes spécifiés.

Exemple de réponse

[{ 
    "id": "00000000-0000-0000-abf5-4dad0f", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "test", 
    "description": "string", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-27T08:42:02Z", 
    "createdDateTime": "2023-02-27T08:41:39Z", 
    "customProperties": null 
}]

Obtenir le modèle de reconnaissance vocale spécifié

L’API Get Speech Model retourne des informations sur le modèle spécifié.

Exemple de réponse

{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Obtenir les modèles speech de compte spécifiés

L’API Get Speech Models retourne des informations sur tous les modèles du compte spécifié.

Exemple de réponse

[{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002a"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}]

Supprimer le jeu de données speech

L’API Supprimer le jeu de données Speech supprime le jeu de données spécifié. Tout modèle formé avec le jeu de données supprimé continue d’être disponible jusqu’à ce que le modèle soit supprimé. Vous ne pouvez pas supprimer un jeu de données lorsqu’il est utilisé pour l’indexation ou l’entraînement.

Exemple de réponse

Il n’existe aucun contenu retourné lorsque le jeu de données est supprimé avec succès.

Supprimer un modèle de reconnaissance vocale

L’API Supprimer le modèle speech supprime le modèle de reconnaissance vocale spécifié. Vous ne pouvez pas supprimer un modèle lorsqu’il est utilisé pour l’indexation ou l’entraînement.

Response

Il n’existe aucun contenu retourné lorsque le modèle de reconnaissance vocale est supprimé avec succès.

Partager via

Personnaliser un modèle de reconnaissance vocale

Prérequis

Créer un jeu de données

Examiner et mettre à jour un jeu de données

Créer un modèle de reconnaissance vocale personnalisée

Entraîner un modèle

Entraîner un modèle via l’onglet Jeux de données

Entraîner un modèle par le biais de l’onglet Modèles

Examiner et mettre à jour un modèle

Utiliser un modèle de langage personnalisé lors de l’indexation d’une vidéo

Créer un jeu de données speech

Exemple de réponse

Créer un modèle speech

Exemple de réponse

Obtenir un jeu de données speech

Exemple de réponse

Obtenir des fichiers de jeux de données speech

Exemple de réponse

Obtenir les jeux de données de compte spécifiés

Exemple de réponse

Obtenir le modèle de reconnaissance vocale spécifié

Exemple de réponse

Obtenir les modèles speech de compte spécifiés

Exemple de réponse

Supprimer le jeu de données speech

Exemple de réponse

Supprimer un modèle de reconnaissance vocale

Response

Commentaires

Ressources supplémentaires