Gegevensindelingen die worden geaccepteerd door het begrip van gesprekstalen

Artikel
2024-11-21

Als u uw gegevens uploadt naar een gesprekstaal, moet deze een specifieke indeling volgen. Gebruik dit artikel voor meer informatie over geaccepteerde gegevensindelingen.

Projectbestandsindeling importeren

Als u een project importeert in gesprekstaal, moet het geüploade bestand de volgende indeling hebben:

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Sleutel	Tijdelijke aanduiding	Weergegeven als	Opmerking
`{API-VERSION}`	De versie van de API die u aanroept.	`2023-04-01`
`confidenceThreshold`	`{CONFIDENCE-THRESHOLD}`	Dit is de drempelwaardescore waaronder de intentie wordt voorspeld als Geen-intentie. Waarden zijn van `0` tot `1`.	`0.7`
`projectName`	`{PROJECT-NAME}`	De naam van uw project. Deze waarde is hoofdlettergevoelig.	`EmailApp`
`multilingual`	`true`	Een Booleaanse waarde waarmee u uitingen in meerdere talen in uw gegevensset kunt hebben. Wanneer uw model is geïmplementeerd, kunt u een query uitvoeren op het model in elke ondersteunde taal (niet noodzakelijkerwijs opgenomen in uw trainingsdocumenten. Zie Taalondersteuning voor meer informatie over ondersteunde taalcodes.	`true`
`sublists`	`[]`	Matrix die sublijsten bevat. Elke sublijst is een sleutel en de bijbehorende waarden.	`[]`
`compositionSetting`	`{COMPOSITION-SETTING}`	Regel waarmee wordt gedefinieerd hoe u meerdere onderdelen in uw entiteit beheert. Opties zijn `combineComponents` of `separateComponents`.	`combineComponents`
`synonyms`	`[]`	Matrix die alle synoniemen bevat.	synoniem
`language`	`{LANGUAGE-CODE}`	Een tekenreeks die de taalcode opgeeft voor de utterances, synoniemen en reguliere expressies die in uw project worden gebruikt. Als uw project een meertalige project is, kiest u de taalcode van de meeste uitingen.	`en-us`
`intents`	`[]`	Matrix die alle intenties bevat die u in het project hebt. Deze intenties worden geclassificeerd vanuit uw utterances.	`[]`
`entities`	`[]`	Matrix die alle entiteiten in uw project bevat. Deze entiteiten worden geëxtraheerd uit uw utterances. Voor elke entiteit kunnen andere optionele onderdelen zijn gedefinieerd: lijst, vooraf gedefinieerd of regex.	`[]`
`dataset`	`{DATASET}`	De testset waarnaar deze utterance gaat wanneer deze wordt gesplitst voordat de training wordt uitgevoerd. Zie Uw model voor gesprekstaal begrijpen trainen voor meer informatie over het splitsen van gegevens. Mogelijke waarden voor dit veld zijn `Train` en `Test`.	`Train`
`category`		Het type entiteit dat is gekoppeld aan de opgegeven reeks tekst.	`Entity1`
`offset`		De inclusieve tekenpositie van het begin van de entiteit.	`5`
`length`		De tekenlengte van de entiteit.	`5`
`listKey`		Een genormaliseerde waarde voor de lijst met synoniemen waaraan moet worden toegewezen in voorspelling.	`Microsoft`
`values`	`{VALUES-FOR-LIST}`	Een lijst met door komma's gescheiden tekenreeksen die exact overeenkomen voor extractie en toewijzing aan de lijstsleutel.	`"msft", "microsoft", "MS"`
`regexKey`	`{REGEX-PATTERN}`	Een genormaliseerde waarde voor de reguliere expressie om weer toe te wijzen aan in voorspelling.	`ProductPattern1`
`regexPattern`	`{REGEX-PATTERN}`	Een reguliere expressie.	`^pre`
`prebuilts`	`{PREBUILT-COMPONENTS}`	De vooraf gemaakte onderdelen die algemene typen kunnen extraheren. Zie Ondersteunde vooraf gedefinieerde entiteitsonderdelen voor de lijst met vooraf gedefinieerde onderdelen.	`Quantity.Number`
`requiredComponents`	`{REQUIRED-COMPONENTS}`	Een instelling die aangeeft dat een specifiek onderdeel aanwezig moet zijn om de entiteit te retourneren. Zie Entiteitsonderdelen voor meer informatie. De mogelijke waarden zijn `learned`, `regex`, `list`of `prebuilts`.	`"learned", "prebuilt"`

Utterance-bestandsindeling

Het begrip van gesprekstaal biedt de mogelijkheid om uw utterances rechtstreeks naar het project te uploaden in plaats van ze één voor één te typen. U vindt deze optie op de pagina met gegevenslabels voor uw project.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Sleutel	Tijdelijke aanduiding	Weergegeven als	Opmerking
`text`	`{Utterance-Text}`	Uw uitingstekst.	Testen
`language`	`{LANGUAGE-CODE}`	Een tekenreeks die de taalcode opgeeft voor de uitingen die in uw project worden gebruikt. Als uw project een meertalige project is, kiest u de taalcode van de meeste uitingen. Zie Taalondersteuning voor meer informatie over ondersteunde taalcodes.	`en-us`
`dataset`	`{DATASET}`	De testset waarnaar deze utterance gaat wanneer deze wordt gesplitst voordat de training wordt uitgevoerd. Zie Uw model voor gesprekstaal begrijpen trainen voor meer informatie over het splitsen van gegevens. Mogelijke waarden voor dit veld zijn `Train` en `Test`.	`Train`
`intent`	`{intent}`	De toegewezen intentie.	intent1
`entity`	`{entity}`	De entiteit die moet worden geëxtraheerd.	entiteit1
`category`		Het type entiteit dat is gekoppeld aan de opgegeven reeks tekst.	`Entity1`
`offset`		De inclusieve tekenpositie van het begin van de tekst.	`0`
`length`		De lengte van het begrenzingsvak in termen van UTF16-tekens. Training houdt alleen rekening met de gegevens in deze regio.	`500`

Zie Project importeren voor meer informatie over het rechtstreeks importeren van uw gelabelde gegevens in uw project.
Zie Uw utterances labelen in Language Studio voor meer informatie over het labelen van uw gegevens. Nadat u uw gegevens hebt gelabeld, kunt u uw model trainen.

Delen via

Gegevensindelingen die worden geaccepteerd door het begrip van gesprekstalen

Projectbestandsindeling importeren

Utterance-bestandsindeling

Gerelateerde inhoud

Feedback

Aanvullende resources