テキスト マージ コグニティブ スキル
テキスト マージスキルは、文字列の配列からのテキストを 1 つのフィールドに統合します。
Note
このスキルは Azure AI サービスにバインドされていません。 これは課金対象外で、Azure AI サービスの重要な要件はありません。
@odata.type
Microsoft.Skills.Text.MergeSkill
スキルのパラメーター
パラメーターの大文字と小文字は区別されます。
パラメーター名 | 説明 |
---|---|
insertPreTag |
各挿入前に含まれる文字列。 既定値は " " です。 スペースを省略するには、値を "" に設定します。 |
insertPostTag |
各挿入後に含まれる文字列。 既定値は " " です。 スペースを省略するには、値を "" に設定します。 |
スキルの入力
入力名 | 説明 |
---|---|
itemsToInsert |
マージする文字列の配列。 |
text |
(省略可能) 挿入するメイン テキスト本文。 text が指定されていない場合、itemsToInsert の要素は連結されます。 |
offsets |
(省略可能) text 内の配列の位置。ここで、itemsToInsert を挿入する必要があります。 指定する場合、textToInsert の要素の数は text の要素数と等しくする必要があります。 それ以外の場合は、すべての項目が text の末尾に追加されます。 |
スキルの出力
出力名 | 説明 |
---|---|
mergedText |
結果としてマージされたテキスト。 |
mergedOffsets |
mergedText 内の配列の位置。これは、itemsToInsert の要素が挿入された場所です。 |
サンプル入力
このスキルに使用可能な入力を提供する JSON ドキュメントは、次のようになります。
{
"values": [
{
"recordId": "1",
"data":
{
"text": "The brown fox jumps over the dog",
"itemsToInsert": ["quick", "lazy"],
"offsets": [3, 28]
}
}
]
}
サンプル出力
この例は、insertPreTag が " "
に設定され、insertPostTag が ""
に設定されているという想定で、以前の入力の出力を示しています。
{
"values": [
{
"recordId": "1",
"data":
{
"mergedText": "The quick brown fox jumps over the lazy dog"
}
}
]
}
拡張サンプル スキルの定義
テキスト マージ使用の一般的なシナリオは、イメージのテキスト表現 (OCR スキルからのテキストかイメージのキャプション) をドキュメントの content フィールドにマージすることです。
次のサンプル スキルセットでは、OCR スキルを使用して、ドキュメントに埋め込まれた画像からテキストを抽出します。 次に、merged_text フィールドを作成して、元のテキストと各イメージから OCR されたテキストの両方を格納します。 OCR スキルについて詳しくは、こちらをご覧ください。
{
"description": "Extract text from images and merge with content text to produce merged_text",
"skills":
[
{
"description": "Extract text (plain and structured) from image.",
"@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
"context": "/document/normalized_images/*",
"defaultLanguageCode": "en",
"detectOrientation": true,
"inputs": [
{
"name": "image",
"source": "/document/normalized_images/*"
}
],
"outputs": [
{
"name": "text"
}
]
},
{
"@odata.type": "#Microsoft.Skills.Text.MergeSkill",
"description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
"context": "/document",
"insertPreTag": " ",
"insertPostTag": " ",
"inputs": [
{
"name":"text",
"source": "/document/content"
},
{
"name": "itemsToInsert",
"source": "/document/normalized_images/*/text"
},
{
"name":"offsets",
"source": "/document/normalized_images/*/contentOffset"
}
],
"outputs": [
{
"name": "mergedText",
"targetName" : "merged_text"
}
]
}
]
}
上記のサンプル スキルセットは、normalized-images フィールドが存在していることを前提としています。 normalized-images フィールドを取得するには、以下に示すように、インデクサー定義内の imageAction 構成を generateNormalizedImages に設定します。
{
//...rest of your indexer definition goes here ...
"parameters":{
"configuration":{
"dataToExtract":"contentAndMetadata",
"imageAction":"generateNormalizedImages"
}
}
}