Partilhar via


Formatos de dados aceitos pela compreensão da linguagem conversacional

Se você estiver carregando seus dados para o entendimento de linguagem conversacional, eles devem seguir um formato específico. Use este artigo para saber mais sobre os formatos de dados aceitos.

Importar formato de arquivo de projeto

Se você estiver importando um projeto para compreensão de linguagem conversacional, o arquivo carregado deverá estar no seguinte formato:

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Chave Marcador de Posição valor Exemplo
{API-VERSION} A versão da API que você está chamando. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} Esta é a pontuação limite abaixo da qual a intenção é prevista como Nenhuma intenção. Os valores são de 0 até 1. 0.7
projectName {PROJECT-NAME} O nome do seu projeto. Esse valor diferencia maiúsculas de minúsculas. EmailApp
multilingual true Um valor booleano que permite que você tenha enunciados em vários idiomas em seu conjunto de dados. Quando seu modelo é implantado, você pode consultá-lo em qualquer idioma suportado (não necessariamente incluído em seus documentos de treinamento. Para obter mais informações sobre códigos de idioma suportados, consulte Suporte a idiomas. true
sublists [] Matriz que contém sublistas. Cada sublista é uma chave e seus valores associados. []
compositionSetting {COMPOSITION-SETTING} Regra que define como gerenciar vários componentes em sua entidade. As opções são combineComponents ou separateComponents. combineComponents
synonyms [] Matriz que contém todos os sinônimos. sinónimo
language {LANGUAGE-CODE} Uma cadeia de caracteres especificando o código de idioma para os enunciados, sinônimos e expressões regulares usadas em seu projeto. Se o seu projeto for multilingue, escolha o código linguístico da maioria dos enunciados. en-us
intents [] Matriz que contém todas as intenções que você tem no projeto. Estas intenções são classificadas a partir das suas declarações. []
entities [] Matriz que contém todas as entidades em seu projeto. Essas entidades são extraídas de seus enunciados. Cada entidade pode ter outros componentes opcionais definidos com eles: lista, pré-construído ou regex. []
dataset {DATASET} O conjunto de testes para o qual este enunciado vai quando é dividido antes do treino. Para saber mais sobre a divisão de dados, consulte Treinar seu modelo de compreensão de linguagem conversacional. Os valores possíveis para este campo são Train e Test. Train
category O tipo de entidade associada à extensão de texto especificada. Entity1
offset A posição de caráter inclusivo do início da entidade. 5
length O comprimento do caractere da entidade. 5
listKey Um valor normalizado para a lista de sinônimos a serem mapeados de volta na previsão. Microsoft
values {VALUES-FOR-LIST} Uma lista de cadeias de caracteres separadas por vírgulas que são correspondidas exatamente para extração e mapeadas para a chave de lista. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} Um valor normalizado para a expressão regular a ser mapeada de volta na previsão. ProductPattern1
regexPattern {REGEX-PATTERN} Uma expressão regular. ^pre
prebuilts {PREBUILT-COMPONENTS} Os componentes pré-construídos que podem extrair tipos comuns. Para obter a lista de pré-construídos que você pode adicionar, consulte Componentes de entidade pré-construídos suportados. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} Uma configuração que especifica um requisito de que um componente específico deve estar presente para retornar a entidade. Para saber mais, consulte Componentes de entidade. Os valores possíveis são learned, regex, list, ou prebuilts. "learned", "prebuilt"

Formato de arquivo de emissão

A compreensão de linguagem conversacional oferece a opção de carregar seus enunciados diretamente para o projeto, em vez de digitá-los um a um. Você pode encontrar essa opção na página de rotulagem de dados do seu projeto.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Chave Marcador de Posição valor Exemplo
text {Utterance-Text} O seu texto de enunciado. Testar
language {LANGUAGE-CODE} Uma cadeia de caracteres que especifica o código de idioma para os enunciados usados em seu projeto. Se o seu projeto for multilingue, escolha o código linguístico da maioria dos enunciados. Para obter mais informações sobre códigos de idioma suportados, consulte Suporte a idiomas. en-us
dataset {DATASET} O conjunto de testes para o qual este enunciado vai quando é dividido antes do treino. Para saber mais sobre a divisão de dados, consulte Treinar seu modelo de compreensão de linguagem conversacional. Os valores possíveis para este campo são Train e Test. Train
intent {intent} A intenção atribuída. intenção1
entity {entity} A entidade a ser extraída. entidade1
category O tipo de entidade associada à extensão de texto especificada. Entity1
offset A posição de caracteres inclusivos do início do texto. 0
length O comprimento da caixa delimitadora em termos de caracteres UTF16. A formação considera apenas os dados desta região. 500