Partilhar via


Mesclagem de texto habilidade cognitiva

A habilidade Mesclagem de texto consolida o texto de uma matriz de cadeias de caracteres em um único campo.

Nota

Essa habilidade não está vinculada aos serviços de IA do Azure. Ele não é faturável e não tem nenhum requisito de chave de serviços de IA do Azure.

@odata.type

Microsoft.Skills.Text.MergeSkill

Parâmetros de habilidade

Os parâmetros diferenciam maiúsculas de minúsculas.

Nome do parâmetro Description
insertPreTag String a ser incluída antes de cada inserção. O valor predefinido é " ". Para omitir o espaço, defina o valor como "".
insertPostTag String a ser incluída após cada inserção. O valor predefinido é " ". Para omitir o espaço, defina o valor como "".

Contributos para as competências

Nome de entrada Description
itemsToInsert Matriz de cadeias de caracteres a serem mescladas.
text (facultativo) Corpo do texto principal a ser inserido. Se text não for fornecido, os elementos de itemsToInsert serão concatenados.
offsets (facultativo) Matriz de posições dentro text de onde itemsToInsert deve ser inserido. Se fornecido, o número de elementos de deve ser igual ao número de elementos de text textToInsert. Caso contrário, todos os itens serão anexados no final de text.

Resultados em termos de competências

Nome da saída Description
mergedText O texto mesclado resultante.
mergedOffsets Matriz de posições dentro mergedText de onde os elementos de itemsToInsert foram inseridos.

Entrada de exemplo

Um documento JSON que forneça informações utilizáveis para essa habilidade pode ser:

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

Saída de exemplo

Este exemplo mostra a saída da entrada anterior, supondo que insertPreTag esteja definido como " ", e insertPostTag esteja definido como "".

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

Definição estendida do conjunto de habilidades de amostra

Um cenário comum para usar a Mesclagem de Texto é mesclar a representação textual de imagens (texto de uma habilidade OCR ou a legenda de uma imagem) no campo de conteúdo de um documento.

O conjunto de habilidades de exemplo a seguir usa a habilidade OCR para extrair texto de imagens incorporadas no documento. Em seguida, ele cria um campo merged_text para conter texto original e OCRed de cada imagem. Você pode aprender mais sobre a habilidade OCR aqui.

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

O exemplo acima pressupõe a existência de um campo de imagens normalizadas. Para obter o campo normalized-images, defina a configuração imageAction na definição do indexador para generateNormalizedImages, conforme mostrado abaixo:

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

Consulte também