Поделиться через


Использование распознавания именованных сущностей (NER)

Функция NER может оценивать неструктурированный текст и извлекать именованные сущности из текста в нескольких предопределенных категориях, например person, location, event, product и organization.

Варианты разработки

Чтобы использовать распознавание именованных сущностей, вы отправляете необработанный неструктурированный текст для анализа и обрабатываете выходные данные API в приложении. Анализ выполняется на условиях "как есть", без дополнительной настройки используемой модели для ваших данных. Существует два способа использования распознавания именованных сущностей:

Вариант разработки Description
Студия службы "Язык" Language Studio — это веб-платформа, которая позволяет попробовать связывание сущностей с текстовыми примерами без учетной записи Azure и собственных данных при регистрации. Дополнительные сведения см. в кратком руководстве по веб-сайту Или языковой студии Language Studio.
REST API или клиентская библиотека (пакет SDK для Azure) Интегрируйте распознавание именованных сущностей в приложения с помощью REST API или клиентской библиотеки, доступной на различных языках. Дополнительные сведения см. в кратком руководстве по распознаванию именованных сущностей.

Определение способа обработки данных (необязательно)

Языки ввода

При отправке документов для обработки можно указать, какие из поддерживаемых языков они написаны. Если вы не указываете язык, извлечение ключевых фраз по умолчанию используется на английском языке. API может возвращать смещения в ответе для поддержки различных многоязычных кодировок и эмодзи.

Отправка данных

Анализ выполняется при получении запроса. При синхронном использовании функции NER состояние не отслеживается. Никакие данные в учетной записи не сохраняются, а все результаты немедленно возвращаются в ответе.

При асинхронном использовании этой функции результаты API доступны в течение 24 часов с момента приема запроса и указываются в ответе. По истечении этого периода результаты очищаются и больше не будут доступны для извлечения.

API пытается определить определенные категории сущностей для заданного языка документов.

Получение результатов NER

Результаты, полученные от функции NER, можно передать в приложение или сохранить выходные данные в файле в локальной системе. Ответ API включает распознанные сущности, включая их категории и подкатегории, а также оценки достоверности.

Выбор возвращаемых сущностей

API пытается обнаружить определенные типы сущностей и теги для заданного языка документов. Типы сущностей и теги заменяют категории и подкатегории структуры старых моделей, используемых для определения сущностей для повышения гибкости. Можно также указать, какие сущности обнаружены и возвращаются, используйте необязательные includeList и excludeList параметры с соответствующими типами сущностей. В примере ниже обнаруживается только Location. Можно указать один или несколько типов сущностей, которые необходимо вернуть. Учитывая иерархию типов и тегов, представленную для этой версии, у вас есть гибкость для фильтрации на разных уровнях детализации, как показано ниже.

Входные данные:

Примечание.

В этом примере возвращается только тип сущности Location .

{
    "kind": "EntityRecognition",
    "parameters": 
    {
        "includeList" :
        [
            "Location"
        ]
    },
    "analysisInput":
    {
        "documents":
        [
            {
                "id":"1",
                "language": "en",
                "text": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is John Doe) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!"
            }
        ]
    }
}

Приведенные выше примеры возвращают сущности, падающие под Location тип сущности, например GPEStructural, и Geological помеченные сущности, как описано типами сущностей и тегами. Кроме того, можно дополнительно отфильтровать возвращаемые сущности, отфильтровав один из тегов сущностей для Location типа сущности, например фильтрацию GPE по тегу только как описано:


    "parameters": 
    {
        "includeList" :
        [
            "GPE"
        ]
    }
    

Этот метод возвращает все Location сущности, падающие GPE под тег, и игнорируют любую другую сущность, которая находится под типом Location , помеченным любым другим тегом сущности, например Structural или Geological тегами Location сущностей. Мы также могли бы продолжить детализацию результатов с помощью excludeList параметра. GPEПомеченные сущности можно пометить следующими тегами: City, , State, CountryRegionContinent. Например, можно исключить Continent и CountryRegion теги для нашего примера:


    "parameters": 
    {
        "includeList" :
        [
            "GPE"
        ],
        "excludeList": :
        [
            "Continent",
            "CountryRegion"
        ]
    }
    

Используя эти параметры, мы можем успешно фильтровать только Location типы сущностей, так как GPE тег сущности, включенный в includeList параметр, попадает под Location тип. Затем мы отфильтруем только геополитические сущности и исключим любые сущности, помеченные тегами Continent или CountryRegion тегами.

Дополнительные атрибуты выходных данных

Чтобы предоставить пользователям более подробные сведения о типах сущностей и обеспечить повышенную удобство использования, NER поддерживает эти атрибуты в выходных данных:

Имя атрибута Тип Определение
type Строка Наиболее конкретный тип обнаруженной сущности.

Например, "Сиэтл" — это City, ( GPE геополитическая сущность) и a Location. Наиболее детализированная классификация для "Сиэтла" заключается в том, что это City. Тип будет для City текста "Сиэтл".
tags Список (теги) Список объектов тегов, который выражает сходство обнаруженной сущности с иерархией или любой другой группировкой.

Тег содержит два поля:
1. nameУникальное имя тега.
2. confidenceScore— связанная оценка достоверности для тега в диапазоне от 0 до 1.

Это уникальное имя тега используется для фильтрации в параметрах inclusionList и exclusionList параметрах.
metadata Object Метаданные — это объект, содержащий дополнительные данные об обнаруженном типе сущности. Он изменяется на основе поля metadataKind.

Пример полученных результатов

В этом примере выходных данных приведен пример дополнительных выходных атрибутов.

{ 
    "kind": "EntityRecognitionResults", 
    "results": { 
        "documents": [ 
            { 
                "id": "1", 
                "entities": [ 
                    { 
                        "text": "Microsoft", 
                        "category": "Organization", 
                        "type": "Organization", 
                        "offset": 0, 
                        "length": 9, 
                        "confidenceScore": 0.97, 
                        "tags": [ 
                            { 
                                "name": "Organization", 
                                "confidenceScore": 0.97 
                            } 
                        ] 
                    }, 
                    { 
                        "text": "One", 
                        "category": "Quantity", 
                        "type": "Number", 
                        "subcategory": "Number", 
                        "offset": 21, 
                        "length": 3, 
                        "confidenceScore": 0.9, 
                        "tags": [ 
                            { 
                                "name": "Number", 
                                "confidenceScore": 0.8 
                            }, 
                            { 
                                "name": "Quantity", 
                                "confidenceScore": 0.8 
                            }, 
                            { 
                                "name": "Numeric", 
                                "confidenceScore": 0.8 
                            } 
                        ], 
                        "metadata": { 
                            "metadataKind": "NumberMetadata", 
                            "numberKind": "Integer", 
                            "value": 1.0 
                        } 
                    } 
                ], 
                "warnings": [] 
            } 
        ], 
        "errors": [], 
        "modelVersion": "2023-09-01" 
    } 
} 

Определение модели NER

По умолчанию эта функция использует последнюю доступную модель ИИ в тексте. Вы также можете настроить запросы API для использования определенной версии модели.

Ограничения службы и данных

Сведения о размере и числе запросов, которые можно отправлять в минуту и секунду, см. в статье об ограничениях службы.

Следующие шаги

Общие сведения о Распознавании именованных сущностей