Formatos de dados aceitos pela compreensão da linguagem conversacional

Artigo
11/21/2024

Se você estiver carregando seus dados para o entendimento de linguagem conversacional, eles devem seguir um formato específico. Use este artigo para saber mais sobre os formatos de dados aceitos.

Importar formato de arquivo de projeto

Se você estiver importando um projeto para compreensão de linguagem conversacional, o arquivo carregado deverá estar no seguinte formato:

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Chave	Marcador de Posição	valor	Exemplo
`{API-VERSION}`	A versão da API que você está chamando.	`2023-04-01`
`confidenceThreshold`	`{CONFIDENCE-THRESHOLD}`	Esta é a pontuação limite abaixo da qual a intenção é prevista como Nenhuma intenção. Os valores são de `0` até `1`.	`0.7`
`projectName`	`{PROJECT-NAME}`	O nome do seu projeto. Esse valor diferencia maiúsculas de minúsculas.	`EmailApp`
`multilingual`	`true`	Um valor booleano que permite que você tenha enunciados em vários idiomas em seu conjunto de dados. Quando seu modelo é implantado, você pode consultá-lo em qualquer idioma suportado (não necessariamente incluído em seus documentos de treinamento. Para obter mais informações sobre códigos de idioma suportados, consulte Suporte a idiomas.	`true`
`sublists`	`[]`	Matriz que contém sublistas. Cada sublista é uma chave e seus valores associados.	`[]`
`compositionSetting`	`{COMPOSITION-SETTING}`	Regra que define como gerenciar vários componentes em sua entidade. As opções são `combineComponents` ou `separateComponents`.	`combineComponents`
`synonyms`	`[]`	Matriz que contém todos os sinônimos.	sinónimo
`language`	`{LANGUAGE-CODE}`	Uma cadeia de caracteres especificando o código de idioma para os enunciados, sinônimos e expressões regulares usadas em seu projeto. Se o seu projeto for multilingue, escolha o código linguístico da maioria dos enunciados.	`en-us`
`intents`	`[]`	Matriz que contém todas as intenções que você tem no projeto. Estas intenções são classificadas a partir das suas declarações.	`[]`
`entities`	`[]`	Matriz que contém todas as entidades em seu projeto. Essas entidades são extraídas de seus enunciados. Cada entidade pode ter outros componentes opcionais definidos com eles: lista, pré-construído ou regex.	`[]`
`dataset`	`{DATASET}`	O conjunto de testes para o qual este enunciado vai quando é dividido antes do treino. Para saber mais sobre a divisão de dados, consulte Treinar seu modelo de compreensão de linguagem conversacional. Os valores possíveis para este campo são `Train` e `Test`.	`Train`
`category`		O tipo de entidade associada à extensão de texto especificada.	`Entity1`
`offset`		A posição de caráter inclusivo do início da entidade.	`5`
`length`		O comprimento do caractere da entidade.	`5`
`listKey`		Um valor normalizado para a lista de sinônimos a serem mapeados de volta na previsão.	`Microsoft`
`values`	`{VALUES-FOR-LIST}`	Uma lista de cadeias de caracteres separadas por vírgulas que são correspondidas exatamente para extração e mapeadas para a chave de lista.	`"msft", "microsoft", "MS"`
`regexKey`	`{REGEX-PATTERN}`	Um valor normalizado para a expressão regular a ser mapeada de volta na previsão.	`ProductPattern1`
`regexPattern`	`{REGEX-PATTERN}`	Uma expressão regular.	`^pre`
`prebuilts`	`{PREBUILT-COMPONENTS}`	Os componentes pré-construídos que podem extrair tipos comuns. Para obter a lista de pré-construídos que você pode adicionar, consulte Componentes de entidade pré-construídos suportados.	`Quantity.Number`
`requiredComponents`	`{REQUIRED-COMPONENTS}`	Uma configuração que especifica um requisito de que um componente específico deve estar presente para retornar a entidade. Para saber mais, consulte Componentes de entidade. Os valores possíveis são `learned`, `regex`, `list`, ou `prebuilts`.	`"learned", "prebuilt"`

Formato de arquivo de emissão

A compreensão de linguagem conversacional oferece a opção de carregar seus enunciados diretamente para o projeto, em vez de digitá-los um a um. Você pode encontrar essa opção na página de rotulagem de dados do seu projeto.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Chave	Marcador de Posição	valor	Exemplo
`text`	`{Utterance-Text}`	O seu texto de enunciado.	Testar
`language`	`{LANGUAGE-CODE}`	Uma cadeia de caracteres que especifica o código de idioma para os enunciados usados em seu projeto. Se o seu projeto for multilingue, escolha o código linguístico da maioria dos enunciados. Para obter mais informações sobre códigos de idioma suportados, consulte Suporte a idiomas.	`en-us`
`dataset`	`{DATASET}`	O conjunto de testes para o qual este enunciado vai quando é dividido antes do treino. Para saber mais sobre a divisão de dados, consulte Treinar seu modelo de compreensão de linguagem conversacional. Os valores possíveis para este campo são `Train` e `Test`.	`Train`
`intent`	`{intent}`	A intenção atribuída.	intenção1
`entity`	`{entity}`	A entidade a ser extraída.	entidade1
`category`		O tipo de entidade associada à extensão de texto especificada.	`Entity1`
`offset`		A posição de caracteres inclusivos do início do texto.	`0`
`length`		O comprimento da caixa delimitadora em termos de caracteres UTF16. A formação considera apenas os dados desta região.	`500`

Para obter mais informações sobre como importar os dados rotulados diretamente para o projeto, consulte Importar projeto.
Para obter mais informações sobre como rotular seus dados, consulte Rotular seus enunciados no Language Studio. Depois de rotular seus dados, você pode treinar seu modelo.

Partilhar via

Formatos de dados aceitos pela compreensão da linguagem conversacional

Importar formato de arquivo de projeto

Formato de arquivo de emissão

Comentários

Recursos adicionais

Partilhar via

Formatos de dados aceitos pela compreensão da linguagem conversacional

Importar formato de arquivo de projeto

Formato de arquivo de emissão

Conteúdos relacionados

Comentários

Recursos adicionais