Udostępnij za pośrednictwem


Formaty danych akceptowane przez interpretację języka konwersacyjnego

Jeśli przekazujesz dane do interpretacji języka konwersacyjnego, musi ona być zgodna z określonym formatem. Skorzystaj z tego artykułu, aby dowiedzieć się więcej na temat akceptowanych formatów danych.

Importowanie formatu pliku projektu

Jeśli importujesz projekt do interpretacji języka konwersacji, przekazany plik musi mieć następujący format:

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Klucz Symbol zastępczy Wartość Przykład
{API-VERSION} Wersja wywoływanego interfejsu API. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} Jest to wynik progu poniżej, poniżej którego intencja jest przewidywana jako intencja None. Wartości to od 0 do 1. 0.7
projectName {PROJECT-NAME} Nazwa projektu. Ta wartość jest uwzględniana w wielkości liter. EmailApp
multilingual true Wartość logiczna, która umożliwia wykonywanie wypowiedzi w wielu językach w zestawie danych. Po wdrożeniu modelu można wykonywać zapytania dotyczące modelu w dowolnym obsługiwanym języku (niekoniecznie zawarte w dokumentach szkoleniowych). Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języków. true
sublists [] Tablica zawierająca listy podrzędne. Każda lista podrzędna jest kluczem i skojarzonymi z nimi wartościami. []
compositionSetting {COMPOSITION-SETTING} Reguła definiująca sposób zarządzania wieloma składnikami w jednostce. Opcje to combineComponents lub separateComponents. combineComponents
synonyms [] Tablica zawierająca wszystkie synonimy. synonim
language {LANGUAGE-CODE} Ciąg określający kod języka wypowiedzi, synonimów i wyrażeń regularnych używanych w projekcie. Jeśli projekt jest projektem wielojęzycznym, wybierz kod języka większości wypowiedzi. en-us
intents [] Tablica zawierająca wszystkie intencje, które znajdują się w projekcie. Te intencje są klasyfikowane z wypowiedzi. []
entities [] Tablica zawierająca wszystkie jednostki w projekcie. Te jednostki są wyodrębniane z wypowiedzi. Każda jednostka może mieć inne opcjonalne składniki zdefiniowane za ich pomocą: listę, wstępnie skompilowane lub regex. []
dataset {DATASET} Zestaw testowy, do którego ta wypowiedź jest dzielona przed szkoleniem. Aby dowiedzieć się więcej na temat dzielenia danych, zobacz Trenowanie modelu interpretacji języka konwersacji. Możliwe wartości dla tego pola to Train i Test. Train
category Typ jednostki skojarzonej z określonym zakresem tekstu. Entity1
offset Położenie znaku inkluzywnego początku jednostki. 5
length Długość znaku jednostki. 5
listKey Znormalizowana wartość listy synonimów, które mają być mapowane z powrotem na w przewidywaniu. Microsoft
values {VALUES-FOR-LIST} Lista ciągów rozdzielonych przecinkami, które są dokładnie dopasowane do wyodrębniania i mapowania na klucz listy. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} Znormalizowana wartość wyrażenia regularnego do mapowania z powrotem na wartość w przewidywaniu. ProductPattern1
regexPattern {REGEX-PATTERN} Wyrażenie regularne. ^pre
prebuilts {PREBUILT-COMPONENTS} Wstępnie utworzone składniki, które mogą wyodrębniać typowe typy. Aby uzyskać listę wstępnie utworzonych składników jednostki, które można dodać, zobacz Obsługiwane wstępnie utworzone składniki jednostki. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} Ustawienie, które określa wymaganie, aby określony składnik musiał być obecny, aby zwrócić jednostkę. Aby dowiedzieć się więcej, zobacz Składniki jednostki. Możliwe wartości to learned, regex, listlub prebuilts. "learned", "prebuilt"

Format pliku wypowiedzi

Znajomość języka konwersacyjnego umożliwia przekazywanie wypowiedzi bezpośrednio do projektu, a nie wpisywanie ich w jednym po drugim. Tę opcję można znaleźć na stronie etykietowania danych dla projektu.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Klucz Symbol zastępczy Wartość Przykład
text {Utterance-Text} Tekst wypowiedzi. Testowanie
language {LANGUAGE-CODE} Ciąg określający kod języka wypowiedzi używanych w projekcie. Jeśli projekt jest projektem wielojęzycznym, wybierz kod języka większości wypowiedzi. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języków. en-us
dataset {DATASET} Zestaw testowy, do którego ta wypowiedź jest dzielona przed szkoleniem. Aby dowiedzieć się więcej na temat dzielenia danych, zobacz Trenowanie modelu interpretacji języka konwersacji. Możliwe wartości dla tego pola to Train i Test. Train
intent {intent} Przypisana intencja. intent1
entity {entity} Jednostka, która ma zostać wyodrębniona. entity1
category Typ jednostki skojarzonej z określonym zakresem tekstu. Entity1
offset Położenie znaku inkluzywnego początku tekstu. 0
length Długość pola ograniczenia pod względem znaków UTF16. Szkolenie uwzględnia tylko dane w tym regionie. 500