Condividi tramite


Competenza cognitiva riconoscimento entità (v3)

La competenza Riconoscimento entità (v3) estrae entità di tipi diversi dal testo. Queste entità rientrano in 14 categorie distinte, che vanno da persone e organizzazioni a URL e numeri di telefono. Questa competenza usa i modelli di Machine Learning Riconoscimento entità denominati forniti dal linguaggio di intelligenza artificiale di Azure.

Nota

Questa competenza è associata ai servizi di intelligenza artificiale di Azure e richiede una risorsa fatturabile per le transazioni che superano 20 documenti per indicizzatore al giorno. L'esecuzione delle competenze predefinite viene addebitata secondo gli attuali prezzi con pagamento in base al consumo dei Servizi di Azure AI.

@odata.type

Microsoft.Skills.Text.V3.EntityRecognitionSkill

Limiti dei dati

Le dimensioni massime di un record devono essere di 50.000 caratteri in base alla misurazione di String.Length. Se è necessario suddividere i dati prima di inviarli alla competenza EntityRecognition, è consigliabile usare la competenza Suddivisione testo. Quando si usa una competenza divisa, impostare la lunghezza della pagina su 5000 per ottenere prestazioni ottimali.

Parametri della competenza

I parametri fanno distinzione tra maiuscole e minuscole e sono tutti facoltativi.

Nome parametro Descrizione
categories Matrice di categorie che devono essere estratte. Tipi di categoria possibili: "Person", "Organization""Location", "Quantity", "DateTime", "URL", "Email", "personType""phoneNumber""Product""Event""Skill""Address". "ipAddress" Se non vengono fornite categorie, vengono restituiti tutti i tipi.
defaultLanguageCode Codice lingua del testo di input. Se il codice lingua predefinito non è specificato, Inglese (en) verrà usato come il codice lingua predefinito.
Vedi l'elenco completo di linguaggi supportati. Non tutte le categorie di entità sono supportate per tutte le lingue; vedere la nota seguente.
minimumPrecision Immettere un valore compreso tra 0 e 1. Se il punteggio di attendibilità (nell'output) è inferiore a questo valore, l'entità namedEntities non viene restituita. Il valore predefinito è 0.
modelVersion (Facoltativo) Specifica la versione del modello da usare quando si chiama l'API di riconoscimento delle entità. L'impostazione predefinita sarà la versione più recente disponibile se non specificata. È consigliabile non specificare questo valore a meno che non sia necessario.

Input competenze

Nome input Descrizione
languageCode Stringa che indica la lingua dei record. Se questo parametro viene omesso, il codice lingua predefinito verrà usato per analizzare i record.
Vedi l'elenco completo di linguaggi supportati.
text Testo da analizzare.

Output competenze

Nota

non tutte le categorie di entità sono supportate per tutte le lingue. Per sapere quali categorie di entità sono supportate per il linguaggio in uso, vedere Categorie di entità supportate.

Nome output Descrizione
persons Una matrice di stringhe in cui ogni stringa rappresenta il nome di una persona.
locations Una matrice di stringhe in cui ogni stringa rappresenta il nome una posizione.
organizations Una matrice di stringhe in cui ogni stringa rappresenta un'organizzazione.
quantities Una matrice di stringhe in cui ogni stringa rappresenta una quantità.
dateTimes Una matrice di stringhe in cui ogni stringa rappresenta un valore DateTime (come viene visualizzato nel testo).
urls Una matrice di stringhe in cui ogni stringa rappresenta un URL
emails Una matrice di stringhe in cui ogni stringa rappresenta un indirizzo di posta elettronica
personTypes Matrice di stringhe in cui ogni stringa rappresenta un PersonType
events Matrice di stringhe in cui ogni stringa rappresenta un evento
products Matrice di stringhe in cui ogni stringa rappresenta un prodotto
skills Matrice di stringhe in cui ogni stringa rappresenta una competenza
addresses Matrice di stringhe in cui ogni stringa rappresenta un indirizzo
phoneNumbers Matrice di stringhe in cui ogni stringa rappresenta un numero di telefono
ipAddresses Matrice di stringhe in cui ogni stringa rappresenta un indirizzo IP
namedEntities Matrice di tipi complessi che contiene i campi seguenti:
  • category
  • sottocategoria
  • confidenceScore (valore più alto significa che è più un'entità reale)
  • length (lunghezza(numero di caratteri) di questa entità)
  • offset (percorso in cui è stato trovato nel testo)
  • text (il nome effettivo dell'entità visualizzato nel testo)

Definizione di esempio

  {
    "@odata.type": "#Microsoft.Skills.Text.V3.EntityRecognitionSkill",
    "context": "/document",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en", 
    "minimumPrecision": 0.5, 
    "inputs": [
        {
            "name": "text", 
            "source": "/document/content"
        },
        {
            "name": "languageCode", 
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "persons", 
            "targetName": "people"
        },
        {
            "name": "emails", 
            "targetName": "emails"
        },
        {
            "name": "namedEntities", 
            "targetName": "namedEntities"
        }
    ]
  }

Input di esempio

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso Corporation was founded by Jean Martin. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

Output di esempio

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "people": [ "Jean Martin"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category": "Person",
            "subcategory": null,
            "length": 11,
            "offset": 35,
            "confidenceScore": 0.98,
            "text": "Jean Martin"
          },
          {
            "category": "Email",
            "subcategory": null,
            "length": 19,
            "offset": 71,
            "confidenceScore": 0.8,
            "text": "contact@contoso.com"
          }
        ],
      }
    }
  ]
}

Gli offset restituiti per le entità nell'output di questa competenza vengono restituiti direttamente dalle API del servizio di linguaggio, ovvero se vengono usate per indicizzare nella stringa originale, è consigliabile usare la classe StringInfo in .NET per estrarre il contenuto corretto. Per altre informazioni, vedere Supporto multilingue ed emoji nelle funzionalità del servizio di linguaggio.

Casi di avviso

Se il codice linguistico per il documento non è supportato, viene restituito un avviso e non vengono estratte entità.

Vedi anche