文字合併認知技能
文字合併技能會將字串數位中的文字合併成單一欄位。
注意
此技能未系結至 Azure AI 服務。 這是不可計費的,而且沒有 Azure AI 服務的主要需求。
@odata.type
Microsoft.Skills.Text.MergeSkill
技能參數
這些參數會區分大小寫。
參數名稱 | 描述 |
---|---|
insertPreTag |
在每次插入之前要包含的字串。 預設值是 " " 。 若要省略空格,請將 值設定為 "" 。 |
insertPostTag |
要包含在每次插入之後的字串。 預設值是 " " 。 若要省略空格,請將 值設定為 "" 。 |
技能輸入
輸入名稱 | 描述 |
---|---|
itemsToInsert |
要合併的字串陣列。 |
text |
(選擇性)要插入的主文字本文。 如果未 text 提供 ,則會串連 的 itemsToInsert 元素。 |
offsets |
(選擇性)應插入位置itemsToInsert 內text 的位置陣列。 如果提供,的項目 text 數目必須等於的項目 textToInsert 數目。 否則,所有項目都會附加在 的 text 結尾。 |
技能輸出
輸出名稱 | 描述 |
---|---|
mergedText |
產生的合併文字。 |
mergedOffsets |
插入專案的位置mergedText itemsToInsert 陣列。 |
範例輸入
提供此技能可用輸入的 JSON 檔案可能是:
{
"values": [
{
"recordId": "1",
"data":
{
"text": "The brown fox jumps over the dog",
"itemsToInsert": ["quick", "lazy"],
"offsets": [3, 28]
}
}
]
}
範例輸出
這個範例顯示上一個輸入的輸出,假設 insertPreTag 設定為 " "
,且 insertPostTag 設定為 ""
。
{
"values": [
{
"recordId": "1",
"data":
{
"mergedText": "The quick brown fox jumps over the lazy dog"
}
}
]
}
擴充範例技能集定義
使用文字合併的常見案例是將影像的文字表示法(OCR 技能中的文字或影像的標題)合併到檔的內容欄位中。
下列範例技能集會使用 OCR 技能,從內嵌在檔中的影像擷取文字。 接下來,它會建立merged_text欄位,以包含每個影像的原始和 OCRed 文字。 您可以在這裡深入瞭解 OCR 技能。
{
"description": "Extract text from images and merge with content text to produce merged_text",
"skills":
[
{
"description": "Extract text (plain and structured) from image.",
"@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
"context": "/document/normalized_images/*",
"defaultLanguageCode": "en",
"detectOrientation": true,
"inputs": [
{
"name": "image",
"source": "/document/normalized_images/*"
}
],
"outputs": [
{
"name": "text"
}
]
},
{
"@odata.type": "#Microsoft.Skills.Text.MergeSkill",
"description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
"context": "/document",
"insertPreTag": " ",
"insertPostTag": " ",
"inputs": [
{
"name":"text",
"source": "/document/content"
},
{
"name": "itemsToInsert",
"source": "/document/normalized_images/*/text"
},
{
"name":"offsets",
"source": "/document/normalized_images/*/contentOffset"
}
],
"outputs": [
{
"name": "mergedText",
"targetName" : "merged_text"
}
]
}
]
}
上述範例假設有標準化影像欄位。 若要取得 normalized-images 字段,請在索引器定義中設定 imageAction 組態以 產生NormalizedImages ,如下所示:
{
//...rest of your indexer definition goes here ...
"parameters":{
"configuration":{
"dataToExtract":"contentAndMetadata",
"imageAction":"generateNormalizedImages"
}
}
}
另請參閱
- 內建技能
- 如何定義技能集 (英文)
- 建立索引器 (REST)