Aptitud cognitiva de reconocimiento de entidades con nombre

Artículo
09/01/2024

La habilidad Reconocimiento de entidades con nombre (v2) extrae entidades con nombre del texto. Las entidades disponibles incluyen los tipos person, location y organization.

Importante

La aptitud de reconocimiento de entidades nombradas (v2) (Microsoft.Skills.Text.NamedEntityRecognitionSkill) se ha dejado de usar y se ha sustituido por Microsoft.Skills.Text.V3.EntityRecognitionSkill. Siga las recomendaciones de Aptitudes de Azure AI Search en desuso para migrar a una aptitud admitida.

Nota:

A medida que expanda el ámbito aumentando la frecuencia de procesamiento, agregando más documentos o agregando más algoritmos de IA, tendrá que asociar un recurso facturable de Azure AI Services. Los cargos se acumulan cuando se llama a las API de Azure AI Services y para la extracción de imágenes como parte de la fase de descifrado de documentos en Azure AI Search. No hay ningún cargo por la extracción de texto de documentos. La ejecución de aptitudes integradas se carga al actual precio de pago por uso de los servicios de Azure AI.

La extracción de imágenes es un cargo adicional que mide Azure AI Search, como se describe en la página de precios. La extracción de texto es gratuita.

@odata.type

Microsoft.Skills.Text.NamedEntityRecognitionSkill

Límites de datos

El tamaño máximo de un registro debe tener menos de 50 000 caracteres según la medición de String.Length. Si tiene que dividir los datos antes de enviarlos al extractor de frases clave, puede usar la aptitud de división de texto. Si usa una aptitud de división de texto, establezca la longitud de la página en 5000 para obtener el mejor rendimiento.

Parámetros de la aptitud

Los parámetros distinguen mayúsculas de minúsculas.

Nombre de parámetro	Descripción
categories	Matriz de categorías que se deben extraer. Tipos de categorías posibles: `"Person"`, `"Location"` y `"Organization"`. Si no se proporciona ninguna categoría, se devuelven todos los tipos.
defaultLanguageCode	Código de idioma del texto de entrada. Se admiten los siguientes idiomas: `de, en, es, fr, it`
minimumPrecision	Número comprendido entre 0 y 1. Si la precisión es inferior a este valor, no se devuelve la entidad. El valor predeterminado es 0.

Entradas de la aptitud

Nombre de entrada	Descripción
languageCode	Opcional. El valor predeterminado es `"en"`.
text	Texto que se analizará.

Salidas de la aptitud

Nombre de salida	Descripción
persons	Una matriz de cadenas donde cada cadena representa el nombre de una persona.
locations	Una matriz de cadenas donde cada cadena representa una ubicación.
organizations	Una matriz de cadenas donde cada cadena representa una organización.
entities	Una matriz de tipos complejos. Cada tipo complejo incluye los siguientes campos: categoría (`"person"`, `"organization"` o `"location"`) valor (el nombre de entidad real) desplazamiento (la ubicación donde se encontró en el texto) confianza (un valor entre 0 y 1 que representa esa confianza de que el valor es una entidad real)

Definición de ejemplo

  {
    "@odata.type": "#Microsoft.Skills.Text.NamedEntityRecognitionSkill",
    "categories": [ "Person", "Location", "Organization"],
    "defaultLanguageCode": "en",
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "persons",
        "targetName": "people"
      }
    ]
  }

Entrada de ejemplo

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "This is the loan application for Joe Romero, a Microsoft employee who was born in Chile and who then moved to Australia… Ana Smith is provided as a reference.",
             "languageCode": "en"
           }
      }
    ]
}

Salida de ejemplo

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "persons": [ "Joe Romero", "Ana Smith"],
        "locations": ["Chile", "Australia"],
        "organizations":["Microsoft"],
        "entities":  
        [
          {
            "category":"person",
            "value": "Joe Romero",
            "offset": 33,
            "confidence": 0.87
          },
          {
            "category":"person",
            "value": "Ana Smith",
            "offset": 124,
            "confidence": 0.87
          },
          {
            "category":"location",
            "value": "Chile",
            "offset": 88,
            "confidence": 0.99
          },
          {
            "category":"location",
            "value": "Australia",
            "offset": 112,
            "confidence": 0.99
          },
          {
            "category":"organization",
            "value": "Microsoft",
            "offset": 54,
            "confidence": 0.99
          }
        ]
      }
    }
  ]
}

Casos de advertencia

Si el código de idioma del documento no se admite, se devuelve una advertencia y no se extrae ninguna entidad.

Compartir a través de