Formaty danych akceptowane przez interpretację języka konwersacyjnego

Artykuł
2024-11-21

Jeśli przekazujesz dane do interpretacji języka konwersacyjnego, musi ona być zgodna z określonym formatem. Skorzystaj z tego artykułu, aby dowiedzieć się więcej na temat akceptowanych formatów danych.

Importowanie formatu pliku projektu

Jeśli importujesz projekt do interpretacji języka konwersacji, przekazany plik musi mieć następujący format:

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Klucz	Symbol zastępczy	Wartość	Przykład
`{API-VERSION}`	Wersja wywoływanego interfejsu API.	`2023-04-01`
`confidenceThreshold`	`{CONFIDENCE-THRESHOLD}`	Jest to wynik progu poniżej, poniżej którego intencja jest przewidywana jako intencja None. Wartości to od `0` do `1`.	`0.7`
`projectName`	`{PROJECT-NAME}`	Nazwa projektu. Ta wartość jest uwzględniana w wielkości liter.	`EmailApp`
`multilingual`	`true`	Wartość logiczna, która umożliwia wykonywanie wypowiedzi w wielu językach w zestawie danych. Po wdrożeniu modelu można wykonywać zapytania dotyczące modelu w dowolnym obsługiwanym języku (niekoniecznie zawarte w dokumentach szkoleniowych). Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języków.	`true`
`sublists`	`[]`	Tablica zawierająca listy podrzędne. Każda lista podrzędna jest kluczem i skojarzonymi z nimi wartościami.	`[]`
`compositionSetting`	`{COMPOSITION-SETTING}`	Reguła definiująca sposób zarządzania wieloma składnikami w jednostce. Opcje to `combineComponents` lub `separateComponents`.	`combineComponents`
`synonyms`	`[]`	Tablica zawierająca wszystkie synonimy.	synonim
`language`	`{LANGUAGE-CODE}`	Ciąg określający kod języka wypowiedzi, synonimów i wyrażeń regularnych używanych w projekcie. Jeśli projekt jest projektem wielojęzycznym, wybierz kod języka większości wypowiedzi.	`en-us`
`intents`	`[]`	Tablica zawierająca wszystkie intencje, które znajdują się w projekcie. Te intencje są klasyfikowane z wypowiedzi.	`[]`
`entities`	`[]`	Tablica zawierająca wszystkie jednostki w projekcie. Te jednostki są wyodrębniane z wypowiedzi. Każda jednostka może mieć inne opcjonalne składniki zdefiniowane za ich pomocą: listę, wstępnie skompilowane lub regex.	`[]`
`dataset`	`{DATASET}`	Zestaw testowy, do którego ta wypowiedź jest dzielona przed szkoleniem. Aby dowiedzieć się więcej na temat dzielenia danych, zobacz Trenowanie modelu interpretacji języka konwersacji. Możliwe wartości dla tego pola to `Train` i `Test`.	`Train`
`category`		Typ jednostki skojarzonej z określonym zakresem tekstu.	`Entity1`
`offset`		Położenie znaku inkluzywnego początku jednostki.	`5`
`length`		Długość znaku jednostki.	`5`
`listKey`		Znormalizowana wartość listy synonimów, które mają być mapowane z powrotem na w przewidywaniu.	`Microsoft`
`values`	`{VALUES-FOR-LIST}`	Lista ciągów rozdzielonych przecinkami, które są dokładnie dopasowane do wyodrębniania i mapowania na klucz listy.	`"msft", "microsoft", "MS"`
`regexKey`	`{REGEX-PATTERN}`	Znormalizowana wartość wyrażenia regularnego do mapowania z powrotem na wartość w przewidywaniu.	`ProductPattern1`
`regexPattern`	`{REGEX-PATTERN}`	Wyrażenie regularne.	`^pre`
`prebuilts`	`{PREBUILT-COMPONENTS}`	Wstępnie utworzone składniki, które mogą wyodrębniać typowe typy. Aby uzyskać listę wstępnie utworzonych składników jednostki, które można dodać, zobacz Obsługiwane wstępnie utworzone składniki jednostki.	`Quantity.Number`
`requiredComponents`	`{REQUIRED-COMPONENTS}`	Ustawienie, które określa wymaganie, aby określony składnik musiał być obecny, aby zwrócić jednostkę. Aby dowiedzieć się więcej, zobacz Składniki jednostki. Możliwe wartości to `learned`, `regex`, `list`lub `prebuilts`.	`"learned", "prebuilt"`

Format pliku wypowiedzi

Znajomość języka konwersacyjnego umożliwia przekazywanie wypowiedzi bezpośrednio do projektu, a nie wpisywanie ich w jednym po drugim. Tę opcję można znaleźć na stronie etykietowania danych dla projektu.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Klucz	Symbol zastępczy	Wartość	Przykład
`text`	`{Utterance-Text}`	Tekst wypowiedzi.	Testowanie
`language`	`{LANGUAGE-CODE}`	Ciąg określający kod języka wypowiedzi używanych w projekcie. Jeśli projekt jest projektem wielojęzycznym, wybierz kod języka większości wypowiedzi. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języków.	`en-us`
`dataset`	`{DATASET}`	Zestaw testowy, do którego ta wypowiedź jest dzielona przed szkoleniem. Aby dowiedzieć się więcej na temat dzielenia danych, zobacz Trenowanie modelu interpretacji języka konwersacji. Możliwe wartości dla tego pola to `Train` i `Test`.	`Train`
`intent`	`{intent}`	Przypisana intencja.	intent1
`entity`	`{entity}`	Jednostka, która ma zostać wyodrębniona.	entity1
`category`		Typ jednostki skojarzonej z określonym zakresem tekstu.	`Entity1`
`offset`		Położenie znaku inkluzywnego początku tekstu.	`0`
`length`		Długość pola ograniczenia pod względem znaków UTF16. Szkolenie uwzględnia tylko dane w tym regionie.	`500`

Aby uzyskać więcej informacji na temat bezpośredniego importowania etykietowanych danych do projektu, zobacz Importowanie projektu.
Aby uzyskać więcej informacji na temat etykietowania danych, zobacz Etykietowanie wypowiedzi w programie Language Studio. Po oznaczeniu danych możesz wytrenować model.

Udostępnij za pośrednictwem

Formaty danych akceptowane przez interpretację języka konwersacyjnego

Importowanie formatu pliku projektu

Format pliku wypowiedzi

Powiązana zawartość

Opinia

Dodatkowe zasoby