Что такое пользовательское распознавание именованных сущностей?
Custom NER — это одна из пользовательских функций, предлагаемых языком искусственного интеллекта Azure. Это облачная служба API, которая применяет логику машинного обучения для создания пользовательских моделей для задач пользовательского распознавания именованных сущностей.
Пользовательское распознавание именованных сущностей позволяет пользователям создавать настраиваемые модели ИИ для извлечения сущностей, относящихся к определенной предметной области, из неструктурированного текста, например, контрактов или финансовых документов. С помощью проекта настраиваемого NER разработчики могут итеративно маркировать данные, обучать и оценивать модель, а также повышать ее производительность, прежде чем сделать ее доступной для использования. Качество данных с метками значительно влияет на производительность модели. Чтобы упростить создание и настройку модели, служба предлагает настраиваемый веб-портал, доступ к которому можно получить с помощью Language Studio. Вы можете легко приступить к работе со службой, выполнив действия, описанные в этом кратком руководстве.
Эта документация включает статьи следующих типов:
- Краткие руководства — инструкции по началу работы и отправке запросов в службу.
- Статьи с основными понятиями — здесь описываются функциональность и возможности службы.
- Руководства — содержат инструкции для более специфического или специализированного использования службы.
Примеры сценариев использования
Пользовательское распознавание именованных сущностей можно использовать в нескольких сценариях в различных отраслях:
Извлечение сведений
Многие финансовые и юридические организации ежедневно извлекают и нормализуют данные из тысяч сложных неструктурированных текстов. В число таких источников входят банковские выписки, юридические соглашения и банковские формы. Например, извлечение данных ипотечных приложений вручную рецензентами может занять несколько дней. Автоматизация этих действий путем создания пользовательской модели распознавания именованных сущностей упрощает процесс и экономит затраты, время и усилия.
Интеллектуальный анализ знаний для улучшения и обогащения семантического поиска
Возможность поиска является одной из ключевых функций любого приложения, которое предоставляет текстовое содержимое пользователям. К распространенным сценариям относится поиск по каталогу или документу, поиск по розничным продуктам и интеллектуальный анализ знаний для обработки и анализа данных. Многим предприятиям в различных отраслях нужна возможность детализированного поиска по частному разнородному содержимому, включающему как структурированные, так и неструктурированные документы. В рамках конвейера разработчики могут использовать пользовательское распознавание именованных сущностей для извлечения сущностей из текста, относящегося к их отрасли. Эти сущности можно использовать для обогащения индексирования файла в целях более специализированного поиска.
Аудит и соответствие
Вместо того чтобы вручную просматривать длинные текстовые файлы для выполнения аудита и применения политик, ИТ-отделы финансовых или юридических предприятий могут применять пользовательское Распознавание именованных сущностей (NER), чтобы создавать автоматизированные решения. С помощью таких решений можно применять политики соответствия и настраивать необходимые бизнес-правила на основе конвейеров интеллектуального анализа знаний, которые обрабатывают структурированное и неструктурированное содержимое.
Жизненный цикл разработки проекта
Использование пользовательского распознавания именованных сущностей обычно включает в себя несколько шагов.
Определение схемы. Изучите данные и определите сущности, которые нужно извлечь. Исключите неоднозначности.
Маркировка данных. Это является ключевым фактором при определении производительности модели. Маркируйте данные точно, согласованно и полностью.
- Добавляйте метки точно. Обязательно добавляйте метки правильного типа к каждой сущности. Включайте только те данные, которые нужно извлечь. Не добавляйте в метки ненужные данные.
- Добавляйте метки согласованно. К каждой сущности нужно добавлять одну и ту же метку во всех файлах.
- Добавляйте метки ко всем данным. Добавляйте метки ко всем экземплярам сущности во всех файлах.
Обучение модели. Обучение модели начинается с изучения промаркированных данных.
Просмотр сведений о производительности модели. После обучения просмотрите сведения об оценке модели и ее производительности, а также рекомендации по улучшению.
Развертывание модели. Развернутая модель становится доступной для использования посредством API анализа.
Извлечение сущностей. Используйте настраиваемые модели для задач извлечения сущностей.
Справочная документация и примеры кода
При использовании пользовательского NER ознакомьтесь со следующей справочной документацией и примерами для языка искусственного интеллекта Azure:
Вариант разработки и язык | Справочная документация | Примеры |
---|---|---|
REST API (разработка) | Документация по REST API | |
REST API (среда выполнения) | Документация по REST API | |
C# (среда выполнения) | Документация по C# | Примеры C# |
Java (среда выполнения) | Документация по Java | Примеры для Java |
JavaScript (среда выполнения) | Документация по работе с JavaScript. | Примеры JavaScript |
Python (среда выполнения) | Документация по Python. | Примеры для Python |
Ответственное применение ИИ
В систему ИИ входит не только технология, но и ее пользователи, люди, на которых она повлияет, а также среда, в которой она будет развернута. Ознакомьтесь с примечанием о прозрачности для пользовательского распознавания именованных сущностей, чтобы узнать больше об ответственном использовании и развертывании искусственного интеллекта в своих системах. Дополнительные сведения см. в следующих статьях:
- Примечание о прозрачности для языка ИИ Azure
- Интеграция и ответственное использование
- Данные, конфиденциальность и безопасность
Следующие шаги
Используйте краткое руководство, чтобы приступить к работе с пользовательским Распознаванием именованных сущностей.
В ходе жизненного цикла разработки проекта просмотрите глоссарий, чтобы узнать больше о терминах, используемых в документации по этой функции.
Не забудьте ознакомиться с ограничениями службы, например со сведениями о доступности по регионам.