Когнитивный навык распознавания именованных сущностей (версия 2)

Статья
09/01/2024

Навык распознавания именованных сущностей (версия 2) извлекает именованные сущности из текста. Доступные сущности включают в себя типы person, location и organization.

Внимание

Навык распознавания именованных сущностей (v2) (Microsoft.Skills.Text.NamedEntityRecognitionSkill) теперь не заменен Microsoft.Skills.Text.V3.EntityRecognitionSkill. Следуйте рекомендациям в нерекомендуемых навыках поиска ИИ Azure, чтобы перейти на поддерживаемый навык.

Примечание.

По мере расширения области путем увеличения частоты обработки, добавления дополнительных документов или добавления дополнительных алгоритмов ИИ вам потребуется присоединить оплачиваемый ресурс служб ИИ Azure. Плата взимается при вызове API в службах ИИ Azure и извлечения изображений в рамках этапа взлома документов в службе "Поиск ИИ Azure". За извлечение текста из документов плата не взимается. За выполнение встроенных навыков взимается плата за существующие службы ИИ Azure по мере использования.

Извлечение изображений — это дополнительная плата, оплачиваемая поиском ИИ Azure, как описано на странице ценообразования. Извлечение текста бесплатно.

@odata.type

Microsoft.Skills.Text.NamedEntityRecognitionSkill

Ограничения данных

Максимальный размер записи — 50 000 знаков по оценке String.Length. Если вам нужно разбить данные перед отправкой для извлечения ключевой фразы, можно воспользоваться навыком разделения текста. Если вы используете навык разделения текста, задайте длину страницы равным 5000 для оптимальной производительности.

Параметры навыков

Параметры зависят от регистра.

Наименование параметра	Description
Категории	Массив категорий, который следует извлекать. Возможные типы категорий: `"Person"`, `"Location"`, `"Organization"`. Если категория не указана, возвращаются все типы.
defaultLanguageCode	Код языка вводимого текста. Поддерживается следующие языки: `de, en, es, fr, it`.
minimumPrecision	Число от 0 до 1. Если точность меньше этого значения, сущность не возвращается. По умолчанию установлено значение 0.

Входные данные навыков

Ввод имени	Description
languageCode	Необязательно. По умолчанию — `"en"`.
text	Текст для анализа.

Выходные данные навыка

Имя вывода	Description
Люди	Массив строк, где каждая строка представляет имя человека.
locations	Массив строк, где каждая строка представляет расположение.
организации	Массив строк, где каждая строка представляет организацию.
entities	Массив сложных типов. Каждый сложный тип содержит следующие поля: категория (`"person"`, `"organization"` или `"location"`); значение (фактическое имя объекта); смещение (расположение, где оно было найдено в тексте); достоверность (значение от 0 до 1, которое представляет достоверность того, что значение является фактическим объектом).

Пример определения

  {
    "@odata.type": "#Microsoft.Skills.Text.NamedEntityRecognitionSkill",
    "categories": [ "Person", "Location", "Organization"],
    "defaultLanguageCode": "en",
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "persons",
        "targetName": "people"
      }
    ]
  }

Пример ввода

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "This is the loan application for Joe Romero, a Microsoft employee who was born in Chile and who then moved to Australia… Ana Smith is provided as a reference.",
             "languageCode": "en"
           }
      }
    ]
}

Пример полученных результатов

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "persons": [ "Joe Romero", "Ana Smith"],
        "locations": ["Chile", "Australia"],
        "organizations":["Microsoft"],
        "entities":  
        [
          {
            "category":"person",
            "value": "Joe Romero",
            "offset": 33,
            "confidence": 0.87
          },
          {
            "category":"person",
            "value": "Ana Smith",
            "offset": 124,
            "confidence": 0.87
          },
          {
            "category":"location",
            "value": "Chile",
            "offset": 88,
            "confidence": 0.99
          },
          {
            "category":"location",
            "value": "Australia",
            "offset": 112,
            "confidence": 0.99
          },
          {
            "category":"organization",
            "value": "Microsoft",
            "offset": 54,
            "confidence": 0.99
          }
        ]
      }
    }
  ]
}

Примеры предупреждений

Если код языка для документа не поддерживается, возвращается предупреждение и сущности не извлекаются.

Поделиться через