Kognitiv färdighet för entitetsigenkänning (v3)
Entitetsigenkänningsfärdigheten (v3) extraherar entiteter av olika typer från text. Dessa entiteter ligger under 14 olika kategorier, allt från personer och organisationer till URL:er och telefonnummer. Den här färdigheten använder maskininlärningsmodellerna för namngiven entitetsigenkänning som tillhandahålls av Azure AI Language.
Kommentar
Den här kompetensen är bunden till Azure AI-tjänster och kräver en fakturerbar resurs för transaktioner som överstiger 20 dokument per indexerare och dag. Körning av inbyggda kunskaper debiteras enligt det befintliga priset för Betala per användning för Azure AI-tjänster.
@odata.type
Microsoft.Skills.Text.V3.EntityRecognitionSkill
Databegränsningar
Den maximala storleken på en post ska vara 50 000 tecken mätt med String.Length
. Om du behöver dela upp dina data innan du skickar dem till EntityRecognition-färdigheten bör du överväga att använda färdigheten Textdelning. När du använder en delad färdighet anger du sidlängden till 5 000 för bästa prestanda.
Kompetensparametrar
Parametrar är skiftlägeskänsliga och är alla valfria.
Parameternamn | beskrivning |
---|---|
categories |
Matris med kategorier som ska extraheras. Möjliga kategorityper: "Person" , "Location" , "Organization" , "Quantity" , "DateTime" , "URL" , "Email" , "personType" , , "Event" , "Product" , "Skill" , "Address" , "phoneNumber" , . "ipAddress" Om ingen kategori anges returneras alla typer. |
defaultLanguageCode |
Språkkod för indatatexten. Om standardspråkkoden inte anges används engelska (en) som standardspråkkod. Se den fullständiga listan med språk som stöds. Alla entitetskategorier stöds inte för alla språk. se kommentaren nedan. |
minimumPrecision |
Ett värde mellan 0 och 1. Om konfidenspoängen namedEntities (i utdata) är lägre än det här värdet returneras inte entiteten. Standardvärdet är 0. |
modelVersion |
(Valfritt) Anger vilken version av modellen som ska användas när du anropar API:et för entitetsigenkänning. Den är som standard den senaste tillgängliga när den inte har angetts. Vi rekommenderar att du inte anger det här värdet om det inte är nödvändigt. |
Kunskapsindata
Indatanamn | beskrivning |
---|---|
languageCode |
En sträng som anger posternas språk. Om den här parametern inte anges används standardspråkkoden för att analysera posterna. Se den fullständiga listan med språk som stöds. |
text |
Texten som ska analyseras. |
Kunskapsutdata
Kommentar
Alla entitetskategorier stöds inte för alla språk. Se Entitetskategorier för namngiven entitetsigenkänning (NER) som stöds för att veta vilka entitetskategorier som stöds för det språk som du ska använda.
Utdatanamn | beskrivning |
---|---|
persons |
En matris med strängar där varje sträng representerar namnet på en person. |
locations |
En matris med strängar där varje sträng representerar en plats. |
organizations |
En matris med strängar där varje sträng representerar en organisation. |
quantities |
En matris med strängar där varje sträng representerar en kvantitet. |
dateTimes |
En matris med strängar där varje sträng representerar ett DateTime-värde (som det visas i texten). |
urls |
En matris med strängar där varje sträng representerar en URL |
emails |
En matris med strängar där varje sträng representerar ett e-postmeddelande |
personTypes |
En matris med strängar där varje sträng representerar en PersonType |
events |
En matris med strängar där varje sträng representerar en händelse |
products |
En matris med strängar där varje sträng representerar en produkt |
skills |
En matris med strängar där varje sträng representerar en färdighet |
addresses |
En matris med strängar där varje sträng representerar en adress |
phoneNumbers |
En matris med strängar där varje sträng representerar ett telefonnummer |
ipAddresses |
En matris med strängar där varje sträng representerar en IP-adress |
namedEntities |
En matris med komplexa typer som innehåller följande fält:
|
Exempeldefinition
{
"@odata.type": "#Microsoft.Skills.Text.V3.EntityRecognitionSkill",
"context": "/document",
"categories": [ "Person", "Email"],
"defaultLanguageCode": "en",
"minimumPrecision": 0.5,
"inputs": [
{
"name": "text",
"source": "/document/content"
},
{
"name": "languageCode",
"source": "/document/language"
}
],
"outputs": [
{
"name": "persons",
"targetName": "people"
},
{
"name": "emails",
"targetName": "emails"
},
{
"name": "namedEntities",
"targetName": "namedEntities"
}
]
}
Exempelindata
{
"values": [
{
"recordId": "1",
"data":
{
"text": "Contoso Corporation was founded by Jean Martin. They can be reached at contact@contoso.com",
"languageCode": "en"
}
}
]
}
Exempelutdata
{
"values": [
{
"recordId": "1",
"data" :
{
"people": [ "Jean Martin"],
"emails":["contact@contoso.com"],
"namedEntities":
[
{
"category": "Person",
"subcategory": null,
"length": 11,
"offset": 35,
"confidenceScore": 0.98,
"text": "Jean Martin"
},
{
"category": "Email",
"subcategory": null,
"length": 19,
"offset": 71,
"confidenceScore": 0.8,
"text": "contact@contoso.com"
}
],
}
}
]
}
De förskjutningar som returneras för entiteter i utdata från den här färdigheten returneras direkt från Api:erna för Språktjänst, vilket innebär att om du använder dem för att indexera till den ursprungliga strängen bör du använda Klassen StringInfo i .NET för att extrahera rätt innehåll. Mer information finns i Stöd för flerspråkiga och emojis i Språktjänstfunktioner.
Varningsfall
Om språkkoden för dokumentet inte stöds returneras en varning och inga entiteter extraheras.