Competenza cognitiva riconoscimento entità (v3)

Articolo
09/01/2024

La competenza Riconoscimento entità (v3) estrae entità di tipi diversi dal testo. Queste entità rientrano in 14 categorie distinte, che vanno da persone e organizzazioni a URL e numeri di telefono. Questa competenza usa i modelli di Machine Learning Riconoscimento entità denominati forniti dal linguaggio di intelligenza artificiale di Azure.

Nota

Questa competenza è associata ai servizi di intelligenza artificiale di Azure e richiede una risorsa fatturabile per le transazioni che superano 20 documenti per indicizzatore al giorno. L'esecuzione delle competenze predefinite viene addebitata secondo gli attuali prezzi con pagamento in base al consumo dei Servizi di Azure AI.

@odata.type

Microsoft.Skills.Text.V3.EntityRecognitionSkill

Limiti dei dati

Le dimensioni massime di un record devono essere di 50.000 caratteri in base alla misurazione di String.Length. Se è necessario suddividere i dati prima di inviarli alla competenza EntityRecognition, è consigliabile usare la competenza Suddivisione testo. Quando si usa una competenza divisa, impostare la lunghezza della pagina su 5000 per ottenere prestazioni ottimali.

Parametri della competenza

I parametri fanno distinzione tra maiuscole e minuscole e sono tutti facoltativi.

Nome parametro	Descrizione
`categories`	Matrice di categorie che devono essere estratte. Tipi di categoria possibili: `"Person"`, `"Organization""Location"`, `"Quantity"`, `"DateTime"`, `"URL"`, `"Email"`, `"personType""phoneNumber""Product""Event""Skill""Address"`. `"ipAddress"` Se non vengono fornite categorie, vengono restituiti tutti i tipi.
`defaultLanguageCode`	Codice lingua del testo di input. Se il codice lingua predefinito non è specificato, Inglese (en) verrà usato come il codice lingua predefinito. Vedi l'elenco completo di linguaggi supportati. Non tutte le categorie di entità sono supportate per tutte le lingue; vedere la nota seguente.
`minimumPrecision`	Immettere un valore compreso tra 0 e 1. Se il punteggio di attendibilità (nell'output) è inferiore a questo valore, l'entità `namedEntities` non viene restituita. Il valore predefinito è 0.
`modelVersion`	(Facoltativo) Specifica la versione del modello da usare quando si chiama l'API di riconoscimento delle entità. L'impostazione predefinita sarà la versione più recente disponibile se non specificata. È consigliabile non specificare questo valore a meno che non sia necessario.

Input competenze

Nome input	Descrizione
`languageCode`	Stringa che indica la lingua dei record. Se questo parametro viene omesso, il codice lingua predefinito verrà usato per analizzare i record. Vedi l'elenco completo di linguaggi supportati.
`text`	Testo da analizzare.

Output competenze

Nota

non tutte le categorie di entità sono supportate per tutte le lingue. Per sapere quali categorie di entità sono supportate per il linguaggio in uso, vedere Categorie di entità supportate.

Nome output	Descrizione
`persons`	Una matrice di stringhe in cui ogni stringa rappresenta il nome di una persona.
`locations`	Una matrice di stringhe in cui ogni stringa rappresenta il nome una posizione.
`organizations`	Una matrice di stringhe in cui ogni stringa rappresenta un'organizzazione.
`quantities`	Una matrice di stringhe in cui ogni stringa rappresenta una quantità.
`dateTimes`	Una matrice di stringhe in cui ogni stringa rappresenta un valore DateTime (come viene visualizzato nel testo).
`urls`	Una matrice di stringhe in cui ogni stringa rappresenta un URL
`emails`	Una matrice di stringhe in cui ogni stringa rappresenta un indirizzo di posta elettronica
`personTypes`	Matrice di stringhe in cui ogni stringa rappresenta un PersonType
`events`	Matrice di stringhe in cui ogni stringa rappresenta un evento
`products`	Matrice di stringhe in cui ogni stringa rappresenta un prodotto
`skills`	Matrice di stringhe in cui ogni stringa rappresenta una competenza
`addresses`	Matrice di stringhe in cui ogni stringa rappresenta un indirizzo
`phoneNumbers`	Matrice di stringhe in cui ogni stringa rappresenta un numero di telefono
`ipAddresses`	Matrice di stringhe in cui ogni stringa rappresenta un indirizzo IP
`namedEntities`	Matrice di tipi complessi che contiene i campi seguenti: category sottocategoria confidenceScore (valore più alto significa che è più un'entità reale) length (lunghezza(numero di caratteri) di questa entità) offset (percorso in cui è stato trovato nel testo) text (il nome effettivo dell'entità visualizzato nel testo)

Definizione di esempio

  {
    "@odata.type": "#Microsoft.Skills.Text.V3.EntityRecognitionSkill",
    "context": "/document",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en", 
    "minimumPrecision": 0.5, 
    "inputs": [
        {
            "name": "text", 
            "source": "/document/content"
        },
        {
            "name": "languageCode", 
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "persons", 
            "targetName": "people"
        },
        {
            "name": "emails", 
            "targetName": "emails"
        },
        {
            "name": "namedEntities", 
            "targetName": "namedEntities"
        }
    ]
  }

Input di esempio

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso Corporation was founded by Jean Martin. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

Output di esempio

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "people": [ "Jean Martin"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category": "Person",
            "subcategory": null,
            "length": 11,
            "offset": 35,
            "confidenceScore": 0.98,
            "text": "Jean Martin"
          },
          {
            "category": "Email",
            "subcategory": null,
            "length": 19,
            "offset": 71,
            "confidenceScore": 0.8,
            "text": "contact@contoso.com"
          }
        ],
      }
    }
  ]
}

Gli offset restituiti per le entità nell'output di questa competenza vengono restituiti direttamente dalle API del servizio di linguaggio, ovvero se vengono usate per indicizzare nella stringa originale, è consigliabile usare la classe StringInfo in .NET per estrarre il contenuto corretto. Per altre informazioni, vedere Supporto multilingue ed emoji nelle funzionalità del servizio di linguaggio.

Casi di avviso

Se il codice linguistico per il documento non è supportato, viene restituito un avviso e non vengono estratte entità.

Condividi tramite