Dataformat som accepteras av konversationsspråkförståelse

Artikel
11/21/2024

Om du laddar upp dina data till konversationsspråkförståelse måste de följa ett visst format. Använd den här artikeln om du vill veta mer om godkända dataformat.

Importera projektfilformat

Om du importerar ett projekt till förståelse för konversationsspråk måste den uppladdade filen ha följande format:

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Nyckel	Platshållare	Värde	Exempel
`{API-VERSION}`	Den version av API:et som du anropar.	`2023-04-01`
`confidenceThreshold`	`{CONFIDENCE-THRESHOLD}`	Det här är tröskelvärdet under vilket avsikten förutsägs som Ingen avsikt. Värden är från `0` till `1`.	`0.7`
`projectName`	`{PROJECT-NAME}`	Namnet på projektet. Det här värdet är skiftlägeskänsligt.	`EmailApp`
`multilingual`	`true`	Ett booleskt värde som gör att du kan ha yttranden på flera språk i din datauppsättning. När din modell har distribuerats kan du fråga modellen på valfritt språk som stöds (inte nödvändigtvis i dina träningsdokument. Mer information om språkkoder som stöds finns i Språkstöd.	`true`
`sublists`	`[]`	Matris som innehåller underlistor. Varje underlista är en nyckel och dess associerade värden.	`[]`
`compositionSetting`	`{COMPOSITION-SETTING}`	Regel som definierar hur du hanterar flera komponenter i entiteten. Alternativen är `combineComponents` eller `separateComponents`.	`combineComponents`
`synonyms`	`[]`	Matris som innehåller alla synonymer.	synonym
`language`	`{LANGUAGE-CODE}`	En sträng som anger språkkoden för yttranden, synonymer och reguljära uttryck som används i projektet. Om projektet är ett flerspråkigt projekt väljer du språkkoden för de flesta yttrandena.	`en-us`
`intents`	`[]`	Matris som innehåller alla avsikter som du har i projektet. Dessa avsikter klassificeras från dina yttranden.	`[]`
`entities`	`[]`	Matris som innehåller alla entiteter i projektet. Dessa entiteter extraheras från dina yttranden. Varje entitet kan ha andra valfria komponenter definierade med sig: lista, fördefinierad eller regex.	`[]`
`dataset`	`{DATASET}`	Testuppsättningen som det här yttrandet går till när det delas upp före träningen. Mer information om datadelning finns i Träna modellen för förståelse av konversationsspråk. Möjliga värden för det här fältet är `Train` och `Test`.	`Train`
`category`		Den typ av entitet som är associerad med det angivna textintervallet.	`Entity1`
`offset`		Den inkluderande teckenpositionen i början av entiteten.	`5`
`length`		Entitetens teckenlängd.	`5`
`listKey`		Ett normaliserat värde för listan över synonymer som ska mappas tillbaka till i förutsägelsen.	`Microsoft`
`values`	`{VALUES-FOR-LIST}`	En lista över kommaavgränsade strängar som matchas exakt för extrahering och mappning till listnyckeln.	`"msft", "microsoft", "MS"`
`regexKey`	`{REGEX-PATTERN}`	Ett normaliserat värde för det reguljära uttrycket som ska mappas tillbaka till i förutsägelsen.	`ProductPattern1`
`regexPattern`	`{REGEX-PATTERN}`	Ett reguljärt uttryck.	`^pre`
`prebuilts`	`{PREBUILT-COMPONENTS}`	De fördefinierade komponenterna som kan extrahera vanliga typer. Listan över fördefinierade komponenter som du kan lägga till finns i Fördefinierade entitetskomponenter som stöds.	`Quantity.Number`
`requiredComponents`	`{REQUIRED-COMPONENTS}`	En inställning som anger ett krav på att en specifik komponent måste finnas för att returnera entiteten. Mer information finns i Entitetskomponenter. Möjliga värden är `learned`, `regex`, `list`eller `prebuilts`.	`"learned", "prebuilt"`

Format för yttrandefil

Med förståelse för konversationsspråk kan du ladda upp dina yttranden direkt till projektet i stället för att skriva in dem en i taget. Du hittar det här alternativet på sidan med dataetiketter för projektet.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Nyckel	Platshållare	Värde	Exempel
`text`	`{Utterance-Text}`	Din yttrandetext.	Testning
`language`	`{LANGUAGE-CODE}`	En sträng som anger språkkoden för de yttranden som används i projektet. Om projektet är ett flerspråkigt projekt väljer du språkkoden för de flesta yttrandena. Mer information om språkkoder som stöds finns i Språkstöd.	`en-us`
`dataset`	`{DATASET}`	Testuppsättningen som det här yttrandet går till när det delas upp före träningen. Mer information om datadelning finns i Träna modellen för förståelse av konversationsspråk. Möjliga värden för det här fältet är `Train` och `Test`.	`Train`
`intent`	`{intent}`	Den tilldelade avsikten.	intent1
`entity`	`{entity}`	Entiteten som ska extraheras.	entity1
`category`		Den typ av entitet som är associerad med det angivna textintervallet.	`Entity1`
`offset`		Den inkluderande teckenpositionen i början av texten.	`0`
`length`		Längden på avgränsningsrutan i termer av UTF16-tecken. Utbildningen tar endast hänsyn till data i den här regionen.	`500`

Mer information om hur du importerar dina etiketterade data till projektet direkt finns i Importera projekt.
Mer information om hur du etiketterar dina data finns i Märka dina yttranden i Language Studio. När du har märkt dina data kan du träna din modell.

Dela via

Dataformat som accepteras av konversationsspråkförståelse

Importera projektfilformat

Format för yttrandefil

Feedback

Ytterligare resurser

Dela via

Dataformat som accepteras av konversationsspråkförståelse

Importera projektfilformat

Format för yttrandefil

Relaterat innehåll

Feedback

Ytterligare resurser