Formaty danych akceptowane przez interpretację języka konwersacyjnego
Jeśli przekazujesz dane do interpretacji języka konwersacyjnego, musi ona być zgodna z określonym formatem. Skorzystaj z tego artykułu, aby dowiedzieć się więcej na temat akceptowanych formatów danych.
Importowanie formatu pliku projektu
Jeśli importujesz projekt do interpretacji języka konwersacji, przekazany plik musi mieć następujący format:
{
"projectFileVersion": "2022-10-01-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "Conversation",
"projectName": "{PROJECT-NAME}",
"multilingual": true,
"description": "DESCRIPTION",
"language": "{LANGUAGE-CODE}",
"settings": {
"confidenceThreshold": 0
}
},
"assets": {
"projectKind": "Conversation",
"intents": [
{
"category": "intent1"
}
],
"entities": [
{
"category": "entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "list1",
"synonyms": [
{
"language": "{LANGUAGE-CODE}",
"values": [
"{VALUES-FOR-LIST}"
]
}
]
}
]
},
"prebuilts": [
{
"category": "{PREBUILT-COMPONENTS}"
}
],
"regex": {
"expressions": [
{
"regexKey": "regex1",
"language": "{LANGUAGE-CODE}",
"regexPattern": "{REGEX-PATTERN}"
}
]
},
"requiredComponents": [
"{REQUIRED-COMPONENTS}"
]
}
],
"utterances": [
{
"text": "utterance1",
"intent": "intent1",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"category": "ENTITY1",
"offset": 6,
"length": 4
}
]
}
]
}
}
Klucz | Symbol zastępczy | Wartość | Przykład |
---|---|---|---|
{API-VERSION} |
Wersja wywoływanego interfejsu API. | 2023-04-01 |
|
confidenceThreshold |
{CONFIDENCE-THRESHOLD} |
Jest to wynik progu poniżej, poniżej którego intencja jest przewidywana jako intencja None. Wartości to od 0 do 1 . |
0.7 |
projectName |
{PROJECT-NAME} |
Nazwa projektu. Ta wartość jest uwzględniana w wielkości liter. | EmailApp |
multilingual |
true |
Wartość logiczna, która umożliwia wykonywanie wypowiedzi w wielu językach w zestawie danych. Po wdrożeniu modelu można wykonywać zapytania dotyczące modelu w dowolnym obsługiwanym języku (niekoniecznie zawarte w dokumentach szkoleniowych). Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języków. | true |
sublists |
[] |
Tablica zawierająca listy podrzędne. Każda lista podrzędna jest kluczem i skojarzonymi z nimi wartościami. | [] |
compositionSetting |
{COMPOSITION-SETTING} |
Reguła definiująca sposób zarządzania wieloma składnikami w jednostce. Opcje to combineComponents lub separateComponents . |
combineComponents |
synonyms |
[] |
Tablica zawierająca wszystkie synonimy. | synonim |
language |
{LANGUAGE-CODE} |
Ciąg określający kod języka wypowiedzi, synonimów i wyrażeń regularnych używanych w projekcie. Jeśli projekt jest projektem wielojęzycznym, wybierz kod języka większości wypowiedzi. | en-us |
intents |
[] |
Tablica zawierająca wszystkie intencje, które znajdują się w projekcie. Te intencje są klasyfikowane z wypowiedzi. | [] |
entities |
[] |
Tablica zawierająca wszystkie jednostki w projekcie. Te jednostki są wyodrębniane z wypowiedzi. Każda jednostka może mieć inne opcjonalne składniki zdefiniowane za ich pomocą: listę, wstępnie skompilowane lub regex. | [] |
dataset |
{DATASET} |
Zestaw testowy, do którego ta wypowiedź jest dzielona przed szkoleniem. Aby dowiedzieć się więcej na temat dzielenia danych, zobacz Trenowanie modelu interpretacji języka konwersacji. Możliwe wartości dla tego pola to Train i Test . |
Train |
category |
|
Typ jednostki skojarzonej z określonym zakresem tekstu. | Entity1 |
offset |
|
Położenie znaku inkluzywnego początku jednostki. | 5 |
length |
|
Długość znaku jednostki. | 5 |
listKey |
|
Znormalizowana wartość listy synonimów, które mają być mapowane z powrotem na w przewidywaniu. | Microsoft |
values |
{VALUES-FOR-LIST} |
Lista ciągów rozdzielonych przecinkami, które są dokładnie dopasowane do wyodrębniania i mapowania na klucz listy. | "msft", "microsoft", "MS" |
regexKey |
{REGEX-PATTERN} |
Znormalizowana wartość wyrażenia regularnego do mapowania z powrotem na wartość w przewidywaniu. | ProductPattern1 |
regexPattern |
{REGEX-PATTERN} |
Wyrażenie regularne. | ^pre |
prebuilts |
{PREBUILT-COMPONENTS} |
Wstępnie utworzone składniki, które mogą wyodrębniać typowe typy. Aby uzyskać listę wstępnie utworzonych składników jednostki, które można dodać, zobacz Obsługiwane wstępnie utworzone składniki jednostki. | Quantity.Number |
requiredComponents |
{REQUIRED-COMPONENTS} |
Ustawienie, które określa wymaganie, aby określony składnik musiał być obecny, aby zwrócić jednostkę. Aby dowiedzieć się więcej, zobacz Składniki jednostki. Możliwe wartości to learned , regex , list lub prebuilts . |
"learned", "prebuilt" |
Format pliku wypowiedzi
Znajomość języka konwersacyjnego umożliwia przekazywanie wypowiedzi bezpośrednio do projektu, a nie wpisywanie ich w jednym po drugim. Tę opcję można znaleźć na stronie etykietowania danych dla projektu.
[
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 19,
"length": 10
}
]
},
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 20,
"length": 10
},
{
"category": "{entity}",
"offset": 31,
"length": 5
}
]
}
]
Klucz | Symbol zastępczy | Wartość | Przykład |
---|---|---|---|
text |
{Utterance-Text} |
Tekst wypowiedzi. | Testowanie |
language |
{LANGUAGE-CODE} |
Ciąg określający kod języka wypowiedzi używanych w projekcie. Jeśli projekt jest projektem wielojęzycznym, wybierz kod języka większości wypowiedzi. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języków. | en-us |
dataset |
{DATASET} |
Zestaw testowy, do którego ta wypowiedź jest dzielona przed szkoleniem. Aby dowiedzieć się więcej na temat dzielenia danych, zobacz Trenowanie modelu interpretacji języka konwersacji. Możliwe wartości dla tego pola to Train i Test . |
Train |
intent |
{intent} |
Przypisana intencja. | intent1 |
entity |
{entity} |
Jednostka, która ma zostać wyodrębniona. | entity1 |
category |
|
Typ jednostki skojarzonej z określonym zakresem tekstu. | Entity1 |
offset |
|
Położenie znaku inkluzywnego początku tekstu. | 0 |
length |
|
Długość pola ograniczenia pod względem znaków UTF16. Szkolenie uwzględnia tylko dane w tym regionie. | 500 |
Powiązana zawartość
- Aby uzyskać więcej informacji na temat bezpośredniego importowania etykietowanych danych do projektu, zobacz Importowanie projektu.
- Aby uzyskać więcej informacji na temat etykietowania danych, zobacz Etykietowanie wypowiedzi w programie Language Studio. Po oznaczeniu danych możesz wytrenować model.