Kognitivní dovednost rozpoznávání entit (v2)
Dovednost Rozpoznávání entit (v2) extrahuje entity různých typů z textu. Tato dovednost využívá modely strojového učení poskytované Analýza textu ve službách Azure AI.
Důležité
Dovednost Rozpoznávání entit (v2) (Microsoft.Skills.Text.EntityRecognitionSkill) je nyní ukončena nahrazením Microsoft.Skills.Text.V3.EntityRecognitionSkill. Pokud chcete migrovat na podporovanou dovednost, postupujte podle doporučení v zastaralých dovednostech .
Poznámka:
Když rozšiřujete rozsah zvýšením frekvence zpracování, přidáním dalších dokumentů nebo přidáním dalších algoritmů AI, budete muset připojit fakturovatelný prostředek služeb Azure AI. Poplatky se účtují při volání rozhraní API ve službách Azure AI a extrakce obrázků v rámci fáze prolomení dokumentů ve službě Azure AI Search. Za extrakci textu z dokumentů se neúčtují žádné poplatky.
Provádění integrovaných dovedností se účtuje za stávající cenu průběžných plateb za služby Azure AI. Ceny extrakce obrázků jsou popsané na stránce s cenami služby Azure AI Search.
@odata.type
Microsoft.Skills.Text.EntityRecognitionSkill
Omezení dat
Maximální velikost záznamu by měla být 50 000 znaků měřená String.Length
hodnotou . Pokud potřebujete data před odesláním do extraktoru klíčových frází rozdělit, zvažte použití dovednosti Rozdělení textu. Pokud používáte dovednost rozdělení textu, nastavte délku stránky na 5 000 pro nejlepší výkon.
Parametry dovedností
Parametry rozlišují malá a velká písmena a jsou všechny volitelné.
Název parametru | Popis |
---|---|
categories |
Pole kategorií, které by se měly extrahovat. Možné typy kategorií: "Person" , "Location" , "Organization" , "Quantity" "Datetime" , , "URL" . "Email" Pokud není k dispozici žádná kategorie, vrátí se všechny typy. |
defaultLanguageCode |
Kód jazyka vstupního textu Podporují se následující jazyky: ar, cs, da, de, en, es, fi, fr, hu, it, ja, ko, nl, no, pl, pt-BR, pt-PT, ru, sv, tr, zh-hans . Ne všechny kategorie entit jsou podporovány pro všechny jazyky; viz poznámka níže. |
minimumPrecision |
Hodnota mezi 0 a 1. Pokud je skóre spolehlivosti (ve výstupu namedEntities ) nižší než tato hodnota, entita se nevrátí. Výchozí hodnota je 0. |
includeTypelessEntities |
Nastavte, true pokud chcete rozpoznat dobře známé entity, které neodpovídají aktuálním kategoriím. Rozpoznané entity se vrátí do komplexního výstupního entities pole. Například "Windows 10" je dobře známá entita (produkt), ale protože "Produkty" není podporovaná kategorie, tato entita by byla zahrnuta do výstupního pole entit. Výchozí hodnota je false |
Vstupy dovedností
Název vstupu | Popis |
---|---|
languageCode |
Nepovinné. Výchozí hodnota je "en" . |
text |
Text, který chcete analyzovat. |
Výstupy dovedností
Poznámka:
Ne všechny kategorie entit jsou podporované pro všechny jazyky. Typy "Person"
kategorií , "Location"
a "Organization"
entit jsou podporovány pro úplný seznam jazyků výše. Pouze de, en, es, fr a zh-hans podporují extrakci "Quantity"
, "Datetime"
, "URL"
a "Email"
typů. Další informace najdete v tématu Podpora jazyka a oblasti pro rozhraní ANALÝZA TEXTU API.
Název výstupu | Popis |
---|---|
persons |
Pole řetězců, kde každý řetězec představuje jméno osoby. |
locations |
Pole řetězců, kde každý řetězec představuje umístění. |
organizations |
Pole řetězců, ve kterých každý řetězec představuje organizaci. |
quantities |
Pole řetězců, kde každý řetězec představuje množství. |
dateTimes |
Pole řetězců, kde každý řetězec představuje hodnotu DateTime (jak se zobrazuje v textu). |
urls |
Pole řetězců, kde každý řetězec představuje adresu URL |
emails |
Pole řetězců, ve kterých každý řetězec představuje e-mail |
namedEntities |
Pole komplexních typů, které obsahuje následující pole:
|
entities |
Pole komplexních typů obsahující bohaté informace o entitách extrahovaných z textu s následujícími poli
|
Ukázková definice
{
"@odata.type": "#Microsoft.Skills.Text.EntityRecognitionSkill",
"categories": [ "Person", "Email"],
"defaultLanguageCode": "en",
"includeTypelessEntities": true,
"minimumPrecision": 0.5,
"inputs": [
{
"name": "text",
"source": "/document/content"
}
],
"outputs": [
{
"name": "persons",
"targetName": "people"
},
{
"name": "emails",
"targetName": "contact"
},
{
"name": "entities"
}
]
}
Ukázkový vstup
{
"values": [
{
"recordId": "1",
"data":
{
"text": "Contoso corporation was founded by John Smith. They can be reached at contact@contoso.com",
"languageCode": "en"
}
}
]
}
Ukázkový výstup
{
"values": [
{
"recordId": "1",
"data" :
{
"persons": [ "John Smith"],
"emails":["contact@contoso.com"],
"namedEntities":
[
{
"category":"Person",
"value": "John Smith",
"offset": 35,
"confidence": 0.98
}
],
"entities":
[
{
"name":"John Smith",
"wikipediaId": null,
"wikipediaLanguage": null,
"wikipediaUrl": null,
"bingId": null,
"type": "Person",
"subType": null,
"matches": [{
"text": "John Smith",
"offset": 35,
"length": 10
}]
},
{
"name": "contact@contoso.com",
"wikipediaId": null,
"wikipediaLanguage": null,
"wikipediaUrl": null,
"bingId": null,
"type": "Email",
"subType": null,
"matches": [
{
"text": "contact@contoso.com",
"offset": 70,
"length": 19
}]
},
{
"name": "Contoso",
"wikipediaId": "Contoso",
"wikipediaLanguage": "en",
"wikipediaUrl": "https://en.wikipedia.org/wiki/Contoso",
"bingId": "349f014e-7a37-e619-0374-787ebb288113",
"type": null,
"subType": null,
"matches": [
{
"text": "Contoso",
"offset": 0,
"length": 7
}]
}
]
}
}
]
}
Všimněte si, že posuny vrácené entitami ve výstupu této dovednosti jsou přímo vráceny z rozhraní ANALÝZA TEXTU API, což znamená, že pokud je používáte k indexování do původního řetězce, měli byste k extrahování správného obsahu použít třídu StringInfo v .NET. Další podrobnosti najdete tady.
Případy upozornění
Pokud kód jazyka dokumentu není podporován, vrátí se upozornění a nebudou extrahovány žádné entity.