Cognitieve vaardigheid voor entiteitsherkenning (v3)
Met de vaardigheid Entity Recognition (v3) worden entiteiten van verschillende typen uit tekst geëxtraheerd. Deze entiteiten vallen onder 14 verschillende categorieën, variërend van personen en organisaties tot URL's en telefoonnummers. Deze vaardigheid maakt gebruik van de Machine Learning-modellen voor benoemde entiteitsherkenning die worden geleverd door Azure AI Language.
Notitie
Deze vaardigheid is gebonden aan Azure AI-services en vereist een factureerbare resource voor transacties die groter zijn dan 20 documenten per indexeerfunctie per dag. Voor de uitvoering van ingebouwde vaardigheden worden kosten in rekening gebracht voor de bestaande betalen per gebruik-prijs van Azure AI-services.
@odata.type
Microsoft.Skills.Text.V3.EntityRecognitionSkill
Gegevenslimieten
De maximale grootte van een record moet 50.000 tekens zijn, zoals gemeten door String.Length
. Als u uw gegevens moet opsplitsen voordat u deze naar de vaardigheid EntityRecognition verzendt, kunt u overwegen de vaardigheid Tekst splitsen te gebruiken. Wanneer u een splitsvaardigheid gebruikt, stelt u de paginalengte in op 5000 voor de beste prestaties.
Vaardigheidsparameters
Parameters zijn hoofdlettergevoelig en zijn allemaal optioneel.
Parameternaam | Beschrijving |
---|---|
categories |
Matrix van categorieën die moeten worden geëxtraheerd. Mogelijke categorietypen: "Person" , , "Organization" "Location" , , "Quantity" , "DateTime" , "URL" , "Email" , , "Product" "ipAddress" "Event" "Skill" "Address" "phoneNumber" "personType" Als er geen categorie is opgegeven, worden alle typen geretourneerd. |
defaultLanguageCode |
Taalcode van de invoertekst. Als de standaardtaalcode niet is opgegeven, wordt Engels (en) gebruikt als de standaardtaalcode. Zie de volledige lijst met ondersteunde talen. Niet alle entiteitscategorieën worden ondersteund voor alle talen; zie de onderstaande opmerking. |
minimumPrecision |
Een waarde tussen 0 en 1. Als de betrouwbaarheidsscore (in de namedEntities uitvoer) lager is dan deze waarde, wordt de entiteit niet geretourneerd. De standaardwaarde is 0. |
modelVersion |
(Optioneel) Hiermee geeft u de versie van het model op die moet worden gebruikt bij het aanroepen van de API voor entiteitsherkenning. Deze wordt standaard ingesteld op de meest recente versie wanneer deze niet is opgegeven. U wordt aangeraden deze waarde niet op te geven, tenzij dit nodig is. |
Invoer van vaardigheden
Invoernaam | Beschrijving |
---|---|
languageCode |
Een tekenreeks die de taal van de records aangeeft. Als deze parameter niet is opgegeven, wordt de standaardtaalcode gebruikt om de records te analyseren. Zie de volledige lijst met ondersteunde talen. |
text |
De te analyseren tekst. |
Uitvoer van vaardigheden
Notitie
Niet alle entiteitscategorieën worden ondersteund voor alle talen. Zie NER-entiteitscategorieën (Supported Named Entity Recognition) om te weten welke entiteitscategorieën worden ondersteund voor de taal die u gaat gebruiken.
Uitvoernaam | Beschrijving |
---|---|
persons |
Een matrix met tekenreeksen waarbij elke tekenreeks de naam van een persoon vertegenwoordigt. |
locations |
Een matrix met tekenreeksen waarbij elke tekenreeks een locatie vertegenwoordigt. |
organizations |
Een matrix met tekenreeksen waarbij elke tekenreeks een organisatie vertegenwoordigt. |
quantities |
Een matrix met tekenreeksen waarbij elke tekenreeks een hoeveelheid vertegenwoordigt. |
dateTimes |
Een matrix met tekenreeksen waarbij elke tekenreeks een datum/tijd-waarde vertegenwoordigt (zoals deze in de tekst wordt weergegeven). |
urls |
Een matrix met tekenreeksen waarbij elke tekenreeks een URL vertegenwoordigt |
emails |
Een matrix van tekenreeksen waarbij elke tekenreeks een e-mail vertegenwoordigt |
personTypes |
Een matrix met tekenreeksen waarbij elke tekenreeks een PersonType vertegenwoordigt |
events |
Een matrix met tekenreeksen waarbij elke tekenreeks een gebeurtenis vertegenwoordigt |
products |
Een matrix met tekenreeksen waarbij elke tekenreeks een product vertegenwoordigt |
skills |
Een matrix met tekenreeksen waarbij elke tekenreeks een vaardigheid vertegenwoordigt |
addresses |
Een matrix met tekenreeksen waarbij elke tekenreeks een adres vertegenwoordigt |
phoneNumbers |
Een matrix met tekenreeksen waarbij elke tekenreeks een telefoonnummer vertegenwoordigt |
ipAddresses |
Een matrix met tekenreeksen waarbij elke tekenreeks een IP-adres vertegenwoordigt |
namedEntities |
Een matrix met complexe typen die de volgende velden bevatten:
|
Voorbeelddefinitie
{
"@odata.type": "#Microsoft.Skills.Text.V3.EntityRecognitionSkill",
"context": "/document",
"categories": [ "Person", "Email"],
"defaultLanguageCode": "en",
"minimumPrecision": 0.5,
"inputs": [
{
"name": "text",
"source": "/document/content"
},
{
"name": "languageCode",
"source": "/document/language"
}
],
"outputs": [
{
"name": "persons",
"targetName": "people"
},
{
"name": "emails",
"targetName": "emails"
},
{
"name": "namedEntities",
"targetName": "namedEntities"
}
]
}
Voorbeeldinvoer
{
"values": [
{
"recordId": "1",
"data":
{
"text": "Contoso Corporation was founded by Jean Martin. They can be reached at contact@contoso.com",
"languageCode": "en"
}
}
]
}
Voorbeelduitvoer
{
"values": [
{
"recordId": "1",
"data" :
{
"people": [ "Jean Martin"],
"emails":["contact@contoso.com"],
"namedEntities":
[
{
"category": "Person",
"subcategory": null,
"length": 11,
"offset": 35,
"confidenceScore": 0.98,
"text": "Jean Martin"
},
{
"category": "Email",
"subcategory": null,
"length": 19,
"offset": 71,
"confidenceScore": 0.8,
"text": "contact@contoso.com"
}
],
}
}
]
}
De offsets die worden geretourneerd voor entiteiten in de uitvoer van deze vaardigheid, worden rechtstreeks geretourneerd door de Language Service-API's. Dit betekent dat als u ze gebruikt om te indexeren in de oorspronkelijke tekenreeks, u de stringInfo-klasse in .NET moet gebruiken om de juiste inhoud te extraheren. Zie Ondersteuning voor meertalige en emoji's in taalservicefuncties voor meer informatie.
Waarschuwingscases
Als de taalcode voor het document niet wordt ondersteund, wordt er een waarschuwing geretourneerd en worden er geen entiteiten geëxtraheerd.