Cognitieve vaardigheid voor entiteitsherkenning (v2)

Artikel
09/01/2024

Met de vaardigheid Voor entiteitsherkenning (v2) worden entiteiten van verschillende typen uit tekst geëxtraheerd. Deze vaardigheid maakt gebruik van de machine learning-modellen die worden geleverd door Text Analytics in Azure AI-services.

Belangrijk

De vaardigheid Entity Recognition (v2) (Microsoft.Skills.Text.EntityRecognitionSkill) wordt nu stopgezet en vervangen door Microsoft.Skills.Text.V3.EntityRecognitionSkill. Volg de aanbevelingen in afgeschafte vaardigheden om te migreren naar een ondersteunde vaardigheid.

Notitie

Wanneer u het bereik uitbreidt door de verwerkingsfrequentie te verhogen, meer documenten toe te voegen of meer AI-algoritmen toe te voegen, moet u een factureerbare Azure AI-servicesresource koppelen. Er worden kosten in rekening gebracht bij het aanroepen van API's in Azure AI-services en voor het extraheren van afbeeldingen als onderdeel van de document krakende fase in Azure AI Search. Er worden geen kosten in rekening gebracht voor het extraheren van tekst uit documenten.

Voor de uitvoering van ingebouwde vaardigheden worden kosten in rekening gebracht voor de bestaande betalen per gebruik-prijs van Azure AI-services. Prijzen voor afbeeldingextractie worden beschreven op de pagina met prijzen van Azure AI Search.

@odata.type

Microsoft.Skills.Text.EntityRecognitionSkill

Gegevenslimieten

De maximale grootte van een record moet 50.000 tekens zijn, zoals gemeten door String.Length. Als u uw gegevens wilt opsplitsen voordat u deze naar de sleuteltermextractor verzendt, kunt u overwegen de vaardigheid Tekst splitsen te gebruiken. Als u een vaardigheid voor tekstsplitsing gebruikt, stelt u de paginalengte in op 5000 voor de beste prestaties.

Vaardigheidsparameters

Parameters zijn hoofdlettergevoelig en zijn allemaal optioneel.

Parameternaam	Beschrijving
`categories`	Matrix van categorieën die moeten worden geëxtraheerd. Mogelijke categorietypen: `"Person"`, , `"Organization""Location"`, `"Quantity"`, , `"Datetime"`, `"URL"`. `"Email"` Als er geen categorie is opgegeven, worden alle typen geretourneerd.
`defaultLanguageCode`	Taalcode van de invoertekst. De volgende talen worden ondersteund: `ar, cs, da, de, en, es, fi, fr, hu, it, ja, ko, nl, no, pl, pt-BR, pt-PT, ru, sv, tr, zh-hans`. Niet alle entiteitscategorieën worden ondersteund voor alle talen; zie de onderstaande opmerking.
`minimumPrecision`	Een waarde tussen 0 en 1. Als de betrouwbaarheidsscore (in de `namedEntities` uitvoer) lager is dan deze waarde, wordt de entiteit niet geretourneerd. De standaardwaarde is 0.
`includeTypelessEntities`	Stel deze `true` optie in als u bekende entiteiten wilt herkennen die niet in de huidige categorieën passen. Herkende entiteiten worden geretourneerd in het `entities` complexe uitvoerveld. 'Windows 10' is bijvoorbeeld een bekende entiteit (een product), maar omdat 'Producten' geen ondersteunde categorie is, wordt deze entiteit opgenomen in het uitvoerveld van de entiteiten. Standaard is `false`

Invoer van vaardigheden

Invoernaam	Beschrijving
`languageCode`	Optioneel. Standaard is `"en"`.
`text`	De te analyseren tekst.

Uitvoer van vaardigheden

Notitie

Niet alle entiteitscategorieën worden ondersteund voor alle talen. De "Person"typen , "Location"en "Organization" entiteitscategorie worden ondersteund voor de volledige lijst met talen hierboven. Alleen de, en, es, fr en zh-hans ondersteunen extractie van "Quantity", "Datetime", , "URL"en "Email" typen. Zie Taal- en regioondersteuning voor de Text Analytics-API voor meer informatie.

Uitvoernaam	Beschrijving
`persons`	Een matrix met tekenreeksen waarbij elke tekenreeks de naam van een persoon vertegenwoordigt.
`locations`	Een matrix met tekenreeksen waarbij elke tekenreeks een locatie vertegenwoordigt.
`organizations`	Een matrix met tekenreeksen waarbij elke tekenreeks een organisatie vertegenwoordigt.
`quantities`	Een matrix met tekenreeksen waarbij elke tekenreeks een hoeveelheid vertegenwoordigt.
`dateTimes`	Een matrix met tekenreeksen waarbij elke tekenreeks een datum/tijd-waarde vertegenwoordigt (zoals deze in de tekst wordt weergegeven).
`urls`	Een matrix met tekenreeksen waarbij elke tekenreeks een URL vertegenwoordigt
`emails`	Een matrix van tekenreeksen waarbij elke tekenreeks een e-mail vertegenwoordigt
`namedEntities`	Een matrix met complexe typen die de volgende velden bevatten: category waarde (de werkelijke naam van de entiteit) offset (de locatie waar deze is gevonden in de tekst) betrouwbaarheid (hogere waarde betekent dat het meer een echte entiteit is)
`entities`	Een matrix van complexe typen die uitgebreide informatie bevatten over de entiteiten die zijn geëxtraheerd uit tekst, met de volgende velden naam (de werkelijke entiteitsnaam. Dit vertegenwoordigt een genormaliseerd formulier) wikipediaId wikipediaLanguage wikipediaUrl (een koppeling naar Wikipedia-pagina voor de entiteit) bingId type (de categorie van de herkende entiteit) subType (alleen beschikbaar voor bepaalde categorieën, dit geeft een gedetailleerdere weergave van het entiteitstype) komt overeen (een complexe verzameling die bevat) tekst (de onbewerkte tekst voor de entiteit) offset (de locatie waar deze is gevonden) lengte (de lengte van de onbewerkte entiteitstekst)

Voorbeelddefinitie

  {
    "@odata.type": "#Microsoft.Skills.Text.EntityRecognitionSkill",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en",
    "includeTypelessEntities": true,
    "minimumPrecision": 0.5,
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "persons",
        "targetName": "people"
      },
      {
        "name": "emails",
        "targetName": "contact"
      },
      {
        "name": "entities"
      }
    ]
  }

Voorbeeldinvoer

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso corporation was founded by John Smith. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

Voorbeelduitvoer

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "persons": [ "John Smith"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category":"Person",
            "value": "John Smith",
            "offset": 35,
            "confidence": 0.98
          }
        ],
        "entities":  
        [
          {
            "name":"John Smith",
            "wikipediaId": null,
            "wikipediaLanguage": null,
            "wikipediaUrl": null,
            "bingId": null,
            "type": "Person",
            "subType": null,
            "matches": [{
                "text": "John Smith",
                "offset": 35,
                "length": 10
            }]
          },
          {
            "name": "contact@contoso.com",
            "wikipediaId": null,
            "wikipediaLanguage": null,
            "wikipediaUrl": null,
            "bingId": null,
            "type": "Email",
            "subType": null,
            "matches": [
            {
                "text": "contact@contoso.com",
                "offset": 70,
                "length": 19
            }]
          },
          {
            "name": "Contoso",
            "wikipediaId": "Contoso",
            "wikipediaLanguage": "en",
            "wikipediaUrl": "https://en.wikipedia.org/wiki/Contoso",
            "bingId": "349f014e-7a37-e619-0374-787ebb288113",
            "type": null,
            "subType": null,
            "matches": [
            {
                "text": "Contoso",
                "offset": 0,
                "length": 7
            }]
          }
        ]
      }
    }
  ]
}

Houd er rekening mee dat de offsets die worden geretourneerd voor entiteiten in de uitvoer van deze vaardigheid rechtstreeks worden geretourneerd vanuit de Text Analytics-API. Dit betekent dat als u ze gebruikt om te indexeren in de oorspronkelijke tekenreeks, u de klasse StringInfo in .NET moet gebruiken om de juiste inhoud te extraheren. Meer informatie vindt u hier.

Waarschuwingscases

Als de taalcode voor het document niet wordt ondersteund, wordt er een waarschuwing geretourneerd en worden er geen entiteiten geëxtraheerd.

Delen via