Kognitivní dovednost sloučení textu
Dovednost Sloučení textu slučuje text z pole řetězců do jednoho pole.
Poznámka:
Tato dovednost není vázána na služby Azure AI. Je nefakturovatelný a nemá žádný klíčový požadavek na služby Azure AI.
@odata.type
Microsoft.Skills.Text.MergeSkill
Parametry dovedností
Parametry rozlišují malá a velká písmena.
Název parametru | Popis |
---|---|
insertPreTag |
Řetězec, který se má zahrnout před každým vložením. Výchozí hodnota je " " . Pokud chcete mezeru vynechat, nastavte hodnotu na "" hodnotu . |
insertPostTag |
Řetězec, který se má zahrnout po každém vložení Výchozí hodnota je " " . Pokud chcete mezeru vynechat, nastavte hodnotu na "" hodnotu . |
Vstupy dovedností
Název vstupu | Popis |
---|---|
itemsToInsert |
Pole řetězců, které se mají sloučit. |
text |
(volitelné) Hlavní text textu, do něhož se má vložit. Pokud text není k dispozici, prvky itemsToInsert budou zřetězeny. |
offsets |
(volitelné) Pole pozic v rámci text místa, kam itemsToInsert by se mělo vložit. Je-li uvedeno, počet prvků text musí být roven počtu prvků .textToInsert V opačném případě budou všechny položky připojeny na konci .text |
Výstupy dovedností
Název výstupu | Popis |
---|---|
mergedText |
Výsledný sloučený text. |
mergedOffsets |
Pole pozic v rámci mergedText umístění vložení prvků itemsToInsert |
Ukázkový vstup
Dokument JSON, který poskytuje použitelný vstup pro tuto dovednost, může být:
{
"values": [
{
"recordId": "1",
"data":
{
"text": "The brown fox jumps over the dog",
"itemsToInsert": ["quick", "lazy"],
"offsets": [3, 28]
}
}
]
}
Ukázkový výstup
Tento příklad ukazuje výstup předchozího vstupu za předpokladu, že insertPreTag je nastavena na " "
, a insertPostTag je nastavena na ""
.
{
"values": [
{
"recordId": "1",
"data":
{
"mergedText": "The quick brown fox jumps over the lazy dog"
}
}
]
}
Rozšířená definice sady dovedností
Běžným scénářem použití funkce Sloučení textu je sloučení textové reprezentace obrázků (text z dovednosti OCR nebo titulku obrázku) do pole obsahu dokumentu.
Následující příklad sady dovedností používá dovednost OCR k extrakci textu z obrázků vložených do dokumentu. Dále vytvoří merged_text pole, které bude obsahovat původní i OCRed text z každého obrázku. Další informace o dovednostech OCR najdete tady.
{
"description": "Extract text from images and merge with content text to produce merged_text",
"skills":
[
{
"description": "Extract text (plain and structured) from image.",
"@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
"context": "/document/normalized_images/*",
"defaultLanguageCode": "en",
"detectOrientation": true,
"inputs": [
{
"name": "image",
"source": "/document/normalized_images/*"
}
],
"outputs": [
{
"name": "text"
}
]
},
{
"@odata.type": "#Microsoft.Skills.Text.MergeSkill",
"description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
"context": "/document",
"insertPreTag": " ",
"insertPostTag": " ",
"inputs": [
{
"name":"text",
"source": "/document/content"
},
{
"name": "itemsToInsert",
"source": "/document/normalized_images/*/text"
},
{
"name":"offsets",
"source": "/document/normalized_images/*/contentOffset"
}
],
"outputs": [
{
"name": "mergedText",
"targetName" : "merged_text"
}
]
}
]
}
Výše uvedený příklad předpokládá, že existuje pole normalized-images. Pokud chcete získat pole normalized-images, nastavte konfiguraci imageAction v definici indexeru tak, aby generovalaNormalizedImages , jak je znázorněno níže:
{
//...rest of your indexer definition goes here ...
"parameters":{
"configuration":{
"dataToExtract":"contentAndMetadata",
"imageAction":"generateNormalizedImages"
}
}
}