Mesclagem de texto habilidade cognitiva
A habilidade Mesclagem de texto consolida o texto de uma matriz de cadeias de caracteres em um único campo.
Nota
Essa habilidade não está vinculada aos serviços de IA do Azure. Ele não é faturável e não tem nenhum requisito de chave de serviços de IA do Azure.
@odata.type
Microsoft.Skills.Text.MergeSkill
Parâmetros de habilidade
Os parâmetros diferenciam maiúsculas de minúsculas.
Nome do parâmetro | Description |
---|---|
insertPreTag |
String a ser incluída antes de cada inserção. O valor predefinido é " " . Para omitir o espaço, defina o valor como "" . |
insertPostTag |
String a ser incluída após cada inserção. O valor predefinido é " " . Para omitir o espaço, defina o valor como "" . |
Contributos para as competências
Nome de entrada | Description |
---|---|
itemsToInsert |
Matriz de cadeias de caracteres a serem mescladas. |
text |
(facultativo) Corpo do texto principal a ser inserido. Se text não for fornecido, os elementos de itemsToInsert serão concatenados. |
offsets |
(facultativo) Matriz de posições dentro text de onde itemsToInsert deve ser inserido. Se fornecido, o número de elementos de deve ser igual ao número de elementos de text textToInsert . Caso contrário, todos os itens serão anexados no final de text . |
Resultados em termos de competências
Nome da saída | Description |
---|---|
mergedText |
O texto mesclado resultante. |
mergedOffsets |
Matriz de posições dentro mergedText de onde os elementos de itemsToInsert foram inseridos. |
Entrada de exemplo
Um documento JSON que forneça informações utilizáveis para essa habilidade pode ser:
{
"values": [
{
"recordId": "1",
"data":
{
"text": "The brown fox jumps over the dog",
"itemsToInsert": ["quick", "lazy"],
"offsets": [3, 28]
}
}
]
}
Saída de exemplo
Este exemplo mostra a saída da entrada anterior, supondo que insertPreTag esteja definido como " "
, e insertPostTag esteja definido como ""
.
{
"values": [
{
"recordId": "1",
"data":
{
"mergedText": "The quick brown fox jumps over the lazy dog"
}
}
]
}
Definição estendida do conjunto de habilidades de amostra
Um cenário comum para usar a Mesclagem de Texto é mesclar a representação textual de imagens (texto de uma habilidade OCR ou a legenda de uma imagem) no campo de conteúdo de um documento.
O conjunto de habilidades de exemplo a seguir usa a habilidade OCR para extrair texto de imagens incorporadas no documento. Em seguida, ele cria um campo merged_text para conter texto original e OCRed de cada imagem. Você pode aprender mais sobre a habilidade OCR aqui.
{
"description": "Extract text from images and merge with content text to produce merged_text",
"skills":
[
{
"description": "Extract text (plain and structured) from image.",
"@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
"context": "/document/normalized_images/*",
"defaultLanguageCode": "en",
"detectOrientation": true,
"inputs": [
{
"name": "image",
"source": "/document/normalized_images/*"
}
],
"outputs": [
{
"name": "text"
}
]
},
{
"@odata.type": "#Microsoft.Skills.Text.MergeSkill",
"description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
"context": "/document",
"insertPreTag": " ",
"insertPostTag": " ",
"inputs": [
{
"name":"text",
"source": "/document/content"
},
{
"name": "itemsToInsert",
"source": "/document/normalized_images/*/text"
},
{
"name":"offsets",
"source": "/document/normalized_images/*/contentOffset"
}
],
"outputs": [
{
"name": "mergedText",
"targetName" : "merged_text"
}
]
}
]
}
O exemplo acima pressupõe a existência de um campo de imagens normalizadas. Para obter o campo normalized-images, defina a configuração imageAction na definição do indexador para generateNormalizedImages, conforme mostrado abaixo:
{
//...rest of your indexer definition goes here ...
"parameters":{
"configuration":{
"dataToExtract":"contentAndMetadata",
"imageAction":"generateNormalizedImages"
}
}
}