Cognitieve vaardigheid voor entiteitsherkenning (v2)
Met de vaardigheid Voor entiteitsherkenning (v2) worden entiteiten van verschillende typen uit tekst geëxtraheerd. Deze vaardigheid maakt gebruik van de machine learning-modellen die worden geleverd door Text Analytics in Azure AI-services.
Belangrijk
De vaardigheid Entity Recognition (v2) (Microsoft.Skills.Text.EntityRecognitionSkill) wordt nu stopgezet en vervangen door Microsoft.Skills.Text.V3.EntityRecognitionSkill. Volg de aanbevelingen in afgeschafte vaardigheden om te migreren naar een ondersteunde vaardigheid.
Notitie
Wanneer u het bereik uitbreidt door de verwerkingsfrequentie te verhogen, meer documenten toe te voegen of meer AI-algoritmen toe te voegen, moet u een factureerbare Azure AI-servicesresource koppelen. Er worden kosten in rekening gebracht bij het aanroepen van API's in Azure AI-services en voor het extraheren van afbeeldingen als onderdeel van de document krakende fase in Azure AI Search. Er worden geen kosten in rekening gebracht voor het extraheren van tekst uit documenten.
Voor de uitvoering van ingebouwde vaardigheden worden kosten in rekening gebracht voor de bestaande betalen per gebruik-prijs van Azure AI-services. Prijzen voor afbeeldingextractie worden beschreven op de pagina met prijzen van Azure AI Search.
@odata.type
Microsoft.Skills.Text.EntityRecognitionSkill
Gegevenslimieten
De maximale grootte van een record moet 50.000 tekens zijn, zoals gemeten door String.Length
. Als u uw gegevens wilt opsplitsen voordat u deze naar de sleuteltermextractor verzendt, kunt u overwegen de vaardigheid Tekst splitsen te gebruiken. Als u een vaardigheid voor tekstsplitsing gebruikt, stelt u de paginalengte in op 5000 voor de beste prestaties.
Vaardigheidsparameters
Parameters zijn hoofdlettergevoelig en zijn allemaal optioneel.
Parameternaam | Beschrijving |
---|---|
categories |
Matrix van categorieën die moeten worden geëxtraheerd. Mogelijke categorietypen: "Person" , , "Organization" "Location" , "Quantity" , , "Datetime" , "URL" . "Email" Als er geen categorie is opgegeven, worden alle typen geretourneerd. |
defaultLanguageCode |
Taalcode van de invoertekst. De volgende talen worden ondersteund: ar, cs, da, de, en, es, fi, fr, hu, it, ja, ko, nl, no, pl, pt-BR, pt-PT, ru, sv, tr, zh-hans . Niet alle entiteitscategorieën worden ondersteund voor alle talen; zie de onderstaande opmerking. |
minimumPrecision |
Een waarde tussen 0 en 1. Als de betrouwbaarheidsscore (in de namedEntities uitvoer) lager is dan deze waarde, wordt de entiteit niet geretourneerd. De standaardwaarde is 0. |
includeTypelessEntities |
Stel deze true optie in als u bekende entiteiten wilt herkennen die niet in de huidige categorieën passen. Herkende entiteiten worden geretourneerd in het entities complexe uitvoerveld. 'Windows 10' is bijvoorbeeld een bekende entiteit (een product), maar omdat 'Producten' geen ondersteunde categorie is, wordt deze entiteit opgenomen in het uitvoerveld van de entiteiten. Standaard is false |
Invoer van vaardigheden
Invoernaam | Beschrijving |
---|---|
languageCode |
Optioneel. Standaard is "en" . |
text |
De te analyseren tekst. |
Uitvoer van vaardigheden
Notitie
Niet alle entiteitscategorieën worden ondersteund voor alle talen. De "Person"
typen , "Location"
en "Organization"
entiteitscategorie worden ondersteund voor de volledige lijst met talen hierboven. Alleen de, en, es, fr en zh-hans ondersteunen extractie van "Quantity"
, "Datetime"
, , "URL"
en "Email"
typen. Zie Taal- en regioondersteuning voor de Text Analytics-API voor meer informatie.
Uitvoernaam | Beschrijving |
---|---|
persons |
Een matrix met tekenreeksen waarbij elke tekenreeks de naam van een persoon vertegenwoordigt. |
locations |
Een matrix met tekenreeksen waarbij elke tekenreeks een locatie vertegenwoordigt. |
organizations |
Een matrix met tekenreeksen waarbij elke tekenreeks een organisatie vertegenwoordigt. |
quantities |
Een matrix met tekenreeksen waarbij elke tekenreeks een hoeveelheid vertegenwoordigt. |
dateTimes |
Een matrix met tekenreeksen waarbij elke tekenreeks een datum/tijd-waarde vertegenwoordigt (zoals deze in de tekst wordt weergegeven). |
urls |
Een matrix met tekenreeksen waarbij elke tekenreeks een URL vertegenwoordigt |
emails |
Een matrix van tekenreeksen waarbij elke tekenreeks een e-mail vertegenwoordigt |
namedEntities |
Een matrix met complexe typen die de volgende velden bevatten:
|
entities |
Een matrix van complexe typen die uitgebreide informatie bevatten over de entiteiten die zijn geëxtraheerd uit tekst, met de volgende velden
|
Voorbeelddefinitie
{
"@odata.type": "#Microsoft.Skills.Text.EntityRecognitionSkill",
"categories": [ "Person", "Email"],
"defaultLanguageCode": "en",
"includeTypelessEntities": true,
"minimumPrecision": 0.5,
"inputs": [
{
"name": "text",
"source": "/document/content"
}
],
"outputs": [
{
"name": "persons",
"targetName": "people"
},
{
"name": "emails",
"targetName": "contact"
},
{
"name": "entities"
}
]
}
Voorbeeldinvoer
{
"values": [
{
"recordId": "1",
"data":
{
"text": "Contoso corporation was founded by John Smith. They can be reached at contact@contoso.com",
"languageCode": "en"
}
}
]
}
Voorbeelduitvoer
{
"values": [
{
"recordId": "1",
"data" :
{
"persons": [ "John Smith"],
"emails":["contact@contoso.com"],
"namedEntities":
[
{
"category":"Person",
"value": "John Smith",
"offset": 35,
"confidence": 0.98
}
],
"entities":
[
{
"name":"John Smith",
"wikipediaId": null,
"wikipediaLanguage": null,
"wikipediaUrl": null,
"bingId": null,
"type": "Person",
"subType": null,
"matches": [{
"text": "John Smith",
"offset": 35,
"length": 10
}]
},
{
"name": "contact@contoso.com",
"wikipediaId": null,
"wikipediaLanguage": null,
"wikipediaUrl": null,
"bingId": null,
"type": "Email",
"subType": null,
"matches": [
{
"text": "contact@contoso.com",
"offset": 70,
"length": 19
}]
},
{
"name": "Contoso",
"wikipediaId": "Contoso",
"wikipediaLanguage": "en",
"wikipediaUrl": "https://en.wikipedia.org/wiki/Contoso",
"bingId": "349f014e-7a37-e619-0374-787ebb288113",
"type": null,
"subType": null,
"matches": [
{
"text": "Contoso",
"offset": 0,
"length": 7
}]
}
]
}
}
]
}
Houd er rekening mee dat de offsets die worden geretourneerd voor entiteiten in de uitvoer van deze vaardigheid rechtstreeks worden geretourneerd vanuit de Text Analytics-API. Dit betekent dat als u ze gebruikt om te indexeren in de oorspronkelijke tekenreeks, u de klasse StringInfo in .NET moet gebruiken om de juiste inhoud te extraheren. Meer informatie vindt u hier.
Waarschuwingscases
Als de taalcode voor het document niet wordt ondersteund, wordt er een waarschuwing geretourneerd en worden er geen entiteiten geëxtraheerd.