Formats de données acceptés par la compréhension du langage courant
Si vous chargez vos données dans la compréhension du langage courant, elles doivent respecter un format spécifique. Lisez cet article pour en savoir plus sur les formats de données acceptés.
Importer le format des fichiers projet
Si vous importez un projet dans la compréhension du langage courant, le fichier chargé doit être au format suivant :
{
"projectFileVersion": "2022-10-01-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "Conversation",
"projectName": "{PROJECT-NAME}",
"multilingual": true,
"description": "DESCRIPTION",
"language": "{LANGUAGE-CODE}",
"settings": {
"confidenceThreshold": 0
}
},
"assets": {
"projectKind": "Conversation",
"intents": [
{
"category": "intent1"
}
],
"entities": [
{
"category": "entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "list1",
"synonyms": [
{
"language": "{LANGUAGE-CODE}",
"values": [
"{VALUES-FOR-LIST}"
]
}
]
}
]
},
"prebuilts": [
{
"category": "{PREBUILT-COMPONENTS}"
}
],
"regex": {
"expressions": [
{
"regexKey": "regex1",
"language": "{LANGUAGE-CODE}",
"regexPattern": "{REGEX-PATTERN}"
}
]
},
"requiredComponents": [
"{REQUIRED-COMPONENTS}"
]
}
],
"utterances": [
{
"text": "utterance1",
"intent": "intent1",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"category": "ENTITY1",
"offset": 6,
"length": 4
}
]
}
]
}
}
Clé | Espace réservé | Valeur | Exemple |
---|---|---|---|
{API-VERSION} |
Version de l’API que vous appelez. | 2023-04-01 |
|
confidenceThreshold |
{CONFIDENCE-THRESHOLD} |
Il s’agit du score seuil en dessous duquel l’intention est prédite en tant qu’intention None. Les valeurs sont comprises entre 0 et 1 . |
0.7 |
projectName |
{PROJECT-NAME} |
Nom de votre projet. Vous devez respecter la casse de cette valeur. | EmailApp |
multilingual |
true |
Valeur booléenne qui vous permet d’avoir des énoncés en plusieurs langues dans votre jeu de données. Lorsque votre modèle est déployé, vous pouvez interroger le modèle dans n’importe quelle langue prise en charge (pas nécessairement incluse dans vos documents d’apprentissage). Pour plus d’informations sur les codes de langue pris en charge, consultez Prise en charge des langues. | true |
sublists |
[] |
Tableau contenant des sous-listes. Chaque sous-liste est une clé avec ses valeurs associées. | [] |
compositionSetting |
{COMPOSITION-SETTING} |
Règle qui définit comment gérer plusieurs composants dans votre entité. Les options sont combineComponents ou separateComponents . |
combineComponents |
synonyms |
[] |
Tableau contenant tous les synonymes. | synonyme |
language |
{LANGUAGE-CODE} |
Chaîne spécifiant le code de langue des énoncés, des synonymes et des expressions régulières utilisés dans votre projet. Si votre projet est multilingue, choisissez le code de langue de la majorité des énoncés. | en-us |
intents |
[] |
Tableau contenant toutes les intentions que vous avez dans le projet. Ces intentions sont classées à partir de vos énoncés. | [] |
entities |
[] |
Tableau contenant toutes les entités de votre projet. Ces entités sont extraites de vos énoncés. Chaque entité peut être accompagnée d’autres composants facultatifs : composants de liste, prédéfinis ou regex. | [] |
dataset |
{DATASET} |
Jeu de test auquel cet énoncé est envoyé lors du fractionnement avant l’entraînement. Pour en savoir plus sur le fractionnement des données, consultez Entraîner votre modèle de compréhension du langage courant. Les valeurs possibles pour cette propriété sont Train et Test . |
Train |
category |
|
Type d’entité associé à l’étendue de texte spécifiée. | Entity1 |
offset |
|
La position du caractère inclusif du début de l'entité. | 5 |
length |
|
Longueur du caractère de l’entité. | 5 |
listKey |
|
Valeur normalisée pour la liste des synonymes à mapper dans la prédiction. | Microsoft |
values |
{VALUES-FOR-LIST} |
Liste de chaînes séparées par des virgules qui sont mises en correspondance de manière exacte pour l’extraction et qui sont mappées à la clé de liste. | "msft", "microsoft", "MS" |
regexKey |
{REGEX-PATTERN} |
Valeur normalisée pour l’expression régulière à mapper dans la prédiction. | ProductPattern1 |
regexPattern |
{REGEX-PATTERN} |
Expression régulière. | ^pre |
prebuilts |
{PREBUILT-COMPONENTS} |
Composants prédéfinis qui peuvent extraire les types courants. Pour obtenir la liste des composants prédéfinis que vous pouvez ajouter, consultez Composants d’entité prédéfinis pris en charge. | Quantity.Number |
requiredComponents |
{REQUIRED-COMPONENTS} |
Paramètre spécifiant la présence obligatoire d’un composant spécifique pour retourner l’entité. Pour en savoir plus, consultez Composants d’entité. Les valeurs possibles sont learned , regex , list ou prebuilts . |
"learned", "prebuilt" |
Format de fichier de l’énoncé
La compréhension du langage courant vous permet de charger vos énoncés directement dans le projet plutôt que de les taper un par un. Vous trouverez cette option dans la page Étiquetage des données de votre projet.
[
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 19,
"length": 10
}
]
},
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 20,
"length": 10
},
{
"category": "{entity}",
"offset": 31,
"length": 5
}
]
}
]
Clé | Espace réservé | Valeur | Exemple |
---|---|---|---|
text |
{Utterance-Text} |
Texte de votre énoncé. | Test |
language |
{LANGUAGE-CODE} |
Chaîne spécifiant le code de langue des énoncés utilisés dans votre projet. Si votre projet est multilingue, choisissez le code de langue de la majorité des énoncés. Pour plus d’informations sur les codes de langue pris en charge, consultez Prise en charge des langues. | en-us |
dataset |
{DATASET} |
Jeu de test auquel cet énoncé est envoyé lors du fractionnement avant l’entraînement. Pour en savoir plus sur le fractionnement des données, consultez Entraîner votre modèle de compréhension du langage courant. Les valeurs possibles pour cette propriété sont Train et Test . |
Train |
intent |
{intent} |
Intention affectée. | intent1 |
entity |
{entity} |
Entité à extraire. | entity1 |
category |
|
Type d’entité associé à l’étendue de texte spécifiée. | Entity1 |
offset |
|
Position de caractère inclusive du début du texte. | 0 |
length |
|
Longueur du rectangle englobant en caractères UTF-16. L’apprentissage prend uniquement en compte les données de cette région. | 500 |
Contenu connexe
- Pour plus d’informations sur l’importation de vos données étiquetées directement dans votre projet, consultez Importer le projet.
- Pour plus d’informations sur l’étiquetage de vos données, consultez Étiqueter vos énoncés dans Language Studio. Une fois vos données étiquetées, vous pouvez entraîner votre modèle.