Kognitiv skicklighet för textsammanslagning
Kunskaper för sammanslagning av text konsoliderar text från en matris med strängar till ett enda fält.
Kommentar
Den här färdigheten är inte kopplad till Azure AI-tjänster. Den kan inte faktureras och har inga nyckelkrav för Azure AI-tjänster.
@odata.type
Microsoft.Skills.Text.MergeSkill
Kompetensparametrar
Parametrar är skiftlägeskänsliga.
Parameternamn | beskrivning |
---|---|
insertPreTag |
Sträng som ska inkluderas före varje infogning. Standardvärdet är " " . Om du vill utelämna utrymmet anger du värdet till "" . |
insertPostTag |
Sträng som ska inkluderas efter varje infogning. Standardvärdet är " " . Om du vill utelämna utrymmet anger du värdet till "" . |
Kunskapsindata
Indatanamn | beskrivning |
---|---|
itemsToInsert |
Matris med strängar som ska sammanfogas. |
text |
(valfritt) Huvudtexttext som ska infogas i. Om text inte anges sammanfogas elementen itemsToInsert i. |
offsets |
(valfritt) Matris med positioner inom text där itemsToInsert ska infogas. Om det anges måste antalet element text i vara lika med antalet element textToInsert i . Annars läggs alla objekt till i slutet av text . |
Kunskapsutdata
Utdatanamn | beskrivning |
---|---|
mergedText |
Den resulterande sammanfogade texten. |
mergedOffsets |
Matris med positioner inom mergedText där element i itemsToInsert infogades. |
Exempelindata
Ett JSON-dokument som tillhandahåller användbara indata för den här färdigheten kan vara:
{
"values": [
{
"recordId": "1",
"data":
{
"text": "The brown fox jumps over the dog",
"itemsToInsert": ["quick", "lazy"],
"offsets": [3, 28]
}
}
]
}
Exempelutdata
Det här exemplet visar utdata från föregående indata, förutsatt att insertPreTag är inställt på " "
, och insertPostTag är inställt på ""
.
{
"values": [
{
"recordId": "1",
"data":
{
"mergedText": "The quick brown fox jumps over the lazy dog"
}
}
]
}
Definition av utökad exempelkunskapsuppsättning
Ett vanligt scenario för att använda textsammanslagning är att sammanfoga textrepresentationen av bilder (text från en OCR-färdighet eller bildtexten för en bild) till innehållsfältet i ett dokument.
I följande exempelkunskaper används OCR-färdigheten för att extrahera text från bilder som är inbäddade i dokumentet. Därefter skapas ett merged_text fält som innehåller både originaltext och OCRed-text från varje bild. Du kan lära dig mer om OCR-kompetensen här.
{
"description": "Extract text from images and merge with content text to produce merged_text",
"skills":
[
{
"description": "Extract text (plain and structured) from image.",
"@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
"context": "/document/normalized_images/*",
"defaultLanguageCode": "en",
"detectOrientation": true,
"inputs": [
{
"name": "image",
"source": "/document/normalized_images/*"
}
],
"outputs": [
{
"name": "text"
}
]
},
{
"@odata.type": "#Microsoft.Skills.Text.MergeSkill",
"description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
"context": "/document",
"insertPreTag": " ",
"insertPostTag": " ",
"inputs": [
{
"name":"text",
"source": "/document/content"
},
{
"name": "itemsToInsert",
"source": "/document/normalized_images/*/text"
},
{
"name":"offsets",
"source": "/document/normalized_images/*/contentOffset"
}
],
"outputs": [
{
"name": "mergedText",
"targetName" : "merged_text"
}
]
}
]
}
Exemplet ovan förutsätter att det finns ett normaliserat bildfält. Om du vill hämta fältet normalized-images ställer du in imageAction-konfigurationen i indexerarens definition för att genereraNormalizedImages enligt nedan:
{
//...rest of your indexer definition goes here ...
"parameters":{
"configuration":{
"dataToExtract":"contentAndMetadata",
"imageAction":"generateNormalizedImages"
}
}
}