Delen via


Gegevensindelingen die worden geaccepteerd door het begrip van gesprekstalen

Als u uw gegevens uploadt naar een gesprekstaal, moet deze een specifieke indeling volgen. Gebruik dit artikel voor meer informatie over geaccepteerde gegevensindelingen.

Projectbestandsindeling importeren

Als u een project importeert in gesprekstaal, moet het geüploade bestand de volgende indeling hebben:

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Sleutel Tijdelijke aanduiding Weergegeven als Opmerking
{API-VERSION} De versie van de API die u aanroept. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} Dit is de drempelwaardescore waaronder de intentie wordt voorspeld als Geen-intentie. Waarden zijn van 0 tot 1. 0.7
projectName {PROJECT-NAME} De naam van uw project. Deze waarde is hoofdlettergevoelig. EmailApp
multilingual true Een Booleaanse waarde waarmee u uitingen in meerdere talen in uw gegevensset kunt hebben. Wanneer uw model is geïmplementeerd, kunt u een query uitvoeren op het model in elke ondersteunde taal (niet noodzakelijkerwijs opgenomen in uw trainingsdocumenten. Zie Taalondersteuning voor meer informatie over ondersteunde taalcodes. true
sublists [] Matrix die sublijsten bevat. Elke sublijst is een sleutel en de bijbehorende waarden. []
compositionSetting {COMPOSITION-SETTING} Regel waarmee wordt gedefinieerd hoe u meerdere onderdelen in uw entiteit beheert. Opties zijn combineComponents of separateComponents. combineComponents
synonyms [] Matrix die alle synoniemen bevat. synoniem
language {LANGUAGE-CODE} Een tekenreeks die de taalcode opgeeft voor de utterances, synoniemen en reguliere expressies die in uw project worden gebruikt. Als uw project een meertalige project is, kiest u de taalcode van de meeste uitingen. en-us
intents [] Matrix die alle intenties bevat die u in het project hebt. Deze intenties worden geclassificeerd vanuit uw utterances. []
entities [] Matrix die alle entiteiten in uw project bevat. Deze entiteiten worden geëxtraheerd uit uw utterances. Voor elke entiteit kunnen andere optionele onderdelen zijn gedefinieerd: lijst, vooraf gedefinieerd of regex. []
dataset {DATASET} De testset waarnaar deze utterance gaat wanneer deze wordt gesplitst voordat de training wordt uitgevoerd. Zie Uw model voor gesprekstaal begrijpen trainen voor meer informatie over het splitsen van gegevens. Mogelijke waarden voor dit veld zijn Train en Test. Train
category Het type entiteit dat is gekoppeld aan de opgegeven reeks tekst. Entity1
offset De inclusieve tekenpositie van het begin van de entiteit. 5
length De tekenlengte van de entiteit. 5
listKey Een genormaliseerde waarde voor de lijst met synoniemen waaraan moet worden toegewezen in voorspelling. Microsoft
values {VALUES-FOR-LIST} Een lijst met door komma's gescheiden tekenreeksen die exact overeenkomen voor extractie en toewijzing aan de lijstsleutel. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} Een genormaliseerde waarde voor de reguliere expressie om weer toe te wijzen aan in voorspelling. ProductPattern1
regexPattern {REGEX-PATTERN} Een reguliere expressie. ^pre
prebuilts {PREBUILT-COMPONENTS} De vooraf gemaakte onderdelen die algemene typen kunnen extraheren. Zie Ondersteunde vooraf gedefinieerde entiteitsonderdelen voor de lijst met vooraf gedefinieerde onderdelen. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} Een instelling die aangeeft dat een specifiek onderdeel aanwezig moet zijn om de entiteit te retourneren. Zie Entiteitsonderdelen voor meer informatie. De mogelijke waarden zijn learned, regex, listof prebuilts. "learned", "prebuilt"

Utterance-bestandsindeling

Het begrip van gesprekstaal biedt de mogelijkheid om uw utterances rechtstreeks naar het project te uploaden in plaats van ze één voor één te typen. U vindt deze optie op de pagina met gegevenslabels voor uw project.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Sleutel Tijdelijke aanduiding Weergegeven als Opmerking
text {Utterance-Text} Uw uitingstekst. Testen
language {LANGUAGE-CODE} Een tekenreeks die de taalcode opgeeft voor de uitingen die in uw project worden gebruikt. Als uw project een meertalige project is, kiest u de taalcode van de meeste uitingen. Zie Taalondersteuning voor meer informatie over ondersteunde taalcodes. en-us
dataset {DATASET} De testset waarnaar deze utterance gaat wanneer deze wordt gesplitst voordat de training wordt uitgevoerd. Zie Uw model voor gesprekstaal begrijpen trainen voor meer informatie over het splitsen van gegevens. Mogelijke waarden voor dit veld zijn Train en Test. Train
intent {intent} De toegewezen intentie. intent1
entity {entity} De entiteit die moet worden geëxtraheerd. entiteit1
category Het type entiteit dat is gekoppeld aan de opgegeven reeks tekst. Entity1
offset De inclusieve tekenpositie van het begin van de tekst. 0
length De lengte van het begrenzingsvak in termen van UTF16-tekens. Training houdt alleen rekening met de gegevens in deze regio. 500