Sdílet prostřednictvím


Formáty dat přijímané konverzačním jazykem

Pokud data nahráváte do porozumění konverzačnímu jazyku, musí se řídit určitým formátem. V tomto článku najdete další informace o přijatých formátech dat.

Import formátu souboru projektu

Pokud importujete projekt do porozumění konverzačnímu jazyku, musí být nahraný soubor v následujícím formátu:

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Klíč Zástupný symbol Hodnota Příklad
{API-VERSION} Verze rozhraní API, které voláte. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} Toto je prahové skóre, pod kterým se záměr predikuje jako záměr None (Žádný). Hodnoty jsou od 0 do 1. 0.7
projectName {PROJECT-NAME} Název projektu. U této hodnoty se rozlišují malá a velká písmena. EmailApp
multilingual true Logická hodnota, která umožňuje mít v datové sadě promluvy ve více jazycích. Když je model nasazený, můžete ho dotazovat v libovolném podporovaném jazyce (nemusí být nutně součástí trénovacích dokumentů). Další informace o podporovaných kódech jazyků najdete v tématu Podpora jazyků. true
sublists [] Pole, které obsahuje podsestavy Každý dílčí seznam je klíč a jeho přidružené hodnoty. []
compositionSetting {COMPOSITION-SETTING} Pravidlo, které definuje, jak spravovat více komponent ve vaší entitě. Možnosti jsou combineComponents nebo separateComponents. combineComponents
synonyms [] Pole obsahující všechna synonyma synonymum
language {LANGUAGE-CODE} Řetězec určující kód jazyka pro promluvy, synonyma a regulární výrazy používané v projektu. Pokud je projekt vícejazyčný, zvolte kód jazyka většiny promluv. en-us
intents [] Pole obsahující všechny záměry, které máte v projektu. Tyto záměry jsou klasifikovány z promluv. []
entities [] Pole, které obsahuje všechny entity v projektu. Tyto entity se extrahují z promluv. Každá entita může mít definované další volitelné komponenty: seznam, předem připravenou entitu nebo regulární výraz. []
dataset {DATASET} Testovací sada, na kterou se tato promluva před trénováním rozdělí. Další informace o rozdělení dat najdete v tématu Trénování konverzačního modelu pro porozumění jazyku. Možné hodnoty pro toto pole jsou Train a Test. Train
category Typ entity přidružené k rozsahu zadaného textu. Entity1
offset Pozice inkluzivního znaku začátku entity. 5
length Délka znaku entity. 5
listKey Normalizovaná hodnota pro seznam synonym, která se mají namapovat zpět do predikce. Microsoft
values {VALUES-FOR-LIST} Seznam řetězců oddělených čárkami, které se přesně shodují pro extrakci a mapování na klíč seznamu. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} Normalizovaná hodnota regulárního výrazu, která se má namapovat zpět do předpovědi. ProductPattern1
regexPattern {REGEX-PATTERN} Regulární výraz. ^pre
prebuilts {PREBUILT-COMPONENTS} Předem připravené komponenty, které mohou extrahovat běžné typy. Seznam předem připravených součástí, které můžete přidat, najdete v tématu Podporované předem připravené komponenty entity. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} Nastavení, které určuje požadavek, že musí být k dispozici konkrétní komponenta pro vrácení entity. Další informace najdete v tématu Komponenty entity. Možné hodnoty jsou learned, , regexlistnebo prebuilts. "learned", "prebuilt"

Formát souboru promluvy

Porozumění konverzačnímu jazyku nabízí možnost nahrát promluvy přímo do projektu, nikoli je zadat do jednoho po druhém. Tuto možnost najdete na stránce popisků dat pro váš projekt.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Klíč Zástupný symbol Hodnota Příklad
text {Utterance-Text} Váš text promluvy. Testování
language {LANGUAGE-CODE} Řetězec, který určuje kód jazyka pro promluvy použité v projektu. Pokud je projekt vícejazyčný, zvolte kód jazyka většiny promluv. Další informace o podporovaných kódech jazyků najdete v tématu Podpora jazyků. en-us
dataset {DATASET} Testovací sada, na kterou se tato promluva před trénováním rozdělí. Další informace o rozdělení dat najdete v tématu Trénování konverzačního modelu pro porozumění jazyku. Možné hodnoty pro toto pole jsou Train a Test. Train
intent {intent} Přiřazený záměr. intent1
entity {entity} Entita, která se má extrahovat. entita 1
category Typ entity přidružené k rozsahu zadaného textu. Entity1
offset Inkluzivní pozice znaku začátku textu. 0
length Délka ohraničujícího rámečku z hlediska znaků UTF16. Trénování bere v úvahu pouze data v této oblasti. 500