テキストマージコグニティブスキル

[アーティクル]
09/01/2024

テキストマージスキルは、文字列の配列からのテキストを 1 つのフィールドに統合します。

Note

このスキルは Azure AI サービスにバインドされていません。これは課金対象外で、Azure AI サービスの重要な要件はありません。

@odata.type

Microsoft.Skills.Text.MergeSkill

スキルのパラメーター

パラメーターの大文字と小文字は区別されます。

パラメーター名	説明
`insertPreTag`	各挿入前に含まれる文字列。既定値は `" "` です。スペースを省略するには、値を `""` に設定します。
`insertPostTag`	各挿入後に含まれる文字列。既定値は `" "` です。スペースを省略するには、値を `""` に設定します。

スキルの入力

入力名	説明
`itemsToInsert`	マージする文字列の配列。
`text`	(省略可能) 挿入するメインテキスト本文。 `text` が指定されていない場合、`itemsToInsert` の要素は連結されます。
`offsets`	(省略可能) `text` 内の配列の位置。ここで、`itemsToInsert` を挿入する必要があります。指定する場合、`textToInsert` の要素の数は `text` の要素数と等しくする必要があります。それ以外の場合は、すべての項目が `text` の末尾に追加されます。

スキルの出力

出力名	説明
`mergedText`	結果としてマージされたテキスト。
`mergedOffsets`	`mergedText` 内の配列の位置。これは、`itemsToInsert` の要素が挿入された場所です。

サンプル入力

このスキルに使用可能な入力を提供する JSON ドキュメントは、次のようになります。

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

サンプル出力

この例は、insertPreTag が " " に設定され、insertPostTag が "" に設定されているという想定で、以前の入力の出力を示しています。

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

拡張サンプルスキルの定義

テキストマージ使用の一般的なシナリオは、イメージのテキスト表現 (OCR スキルからのテキストかイメージのキャプション) をドキュメントの content フィールドにマージすることです。

次のサンプルスキルセットでは、OCR スキルを使用して、ドキュメントに埋め込まれた画像からテキストを抽出します。次に、merged_text フィールドを作成して、元のテキストと各イメージから OCR されたテキストの両方を格納します。 OCR スキルについて詳しくは、こちらをご覧ください。

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

上記のサンプルスキルセットは、normalized-images フィールドが存在していることを前提としています。 normalized-images フィールドを取得するには、以下に示すように、インデクサー定義内の imageAction 構成を generateNormalizedImages に設定します。

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

次の方法で共有

テキストマージコグニティブスキル

@odata.type

スキルのパラメーター

スキルの入力

スキルの出力

サンプル入力

サンプル出力

拡張サンプルスキルの定義

関連項目

フィードバック

その他のリソース

次の方法で共有

テキスト マージ コグニティブ スキル

@odata.type

スキルのパラメーター

スキルの入力

スキルの出力

サンプル入力

サンプル出力

拡張サンプル スキルの定義

関連項目

フィードバック

その他のリソース

テキストマージコグニティブスキル

拡張サンプルスキルの定義